CN111309973A - 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法 - Google Patents

基于改进马尔可夫模型和改进k最近邻的缺失值填补方法 Download PDF

Info

Publication number
CN111309973A
CN111309973A CN202010070393.9A CN202010070393A CN111309973A CN 111309973 A CN111309973 A CN 111309973A CN 202010070393 A CN202010070393 A CN 202010070393A CN 111309973 A CN111309973 A CN 111309973A
Authority
CN
China
Prior art keywords
value
state
missing
improved
filling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010070393.9A
Other languages
English (en)
Other versions
CN111309973B (zh
Inventor
杨皓杰
杨雨
李倩
孙丰诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou AIMS Intelligent Technology Co Ltd
Original Assignee
Hangzhou AIMS Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou AIMS Intelligent Technology Co Ltd filed Critical Hangzhou AIMS Intelligent Technology Co Ltd
Priority to CN202010070393.9A priority Critical patent/CN111309973B/zh
Publication of CN111309973A publication Critical patent/CN111309973A/zh
Application granted granted Critical
Publication of CN111309973B publication Critical patent/CN111309973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,包括以下步骤:A)根据数据的最小值vmin和最大值vmax,将区间[vmin,vmax]以等间隔形式划分为n个状态区间,确定每个数据点所属的状态区间并赋予其状态标签;B)采用改进马尔可夫模型得到缺失值的可能填补值Tm;C)根据缺失值的位置,采用改进K最近邻方法得到缺失值的可能填补值Tk;D)对Tm和Tk加权求和得到最终的填补值T。本发明的实质性效果是:充分考虑数据的整体性和波动趋势,提高了对波动性较强、规律性较弱的时间序列数据的缺失的补全精确度。

Description

基于改进马尔可夫模型和改进K最近邻的缺失值填补方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于改进马尔可夫模型和改进K最近邻的缺失值填补方法。
背景技术
在数据分析过程中,往往需要面对因数据存在一定的缺失而无法准确挖掘数据价值的情况。尤其是工业设备的监测数据,经常受到恶劣环境、误操作、传感器故障、数据传输中断等情况的影响而导致采集的数据中存在大量的缺失值。数据缺失会破坏设备监测数据时间序列的连续性,特别是连续的缺失值,在一定程度上改变数据的特征和变化趋势,导致无法准确分析设备的健康状态和诊断设备故障。因此需要选择一种可有效填充缺失值的方法。
如中国专利CN107273429A,公开日2017年10月20日,提出一种基于深度学习的缺失值填充方法及系统,包括以下步骤:步骤1,对数据集进行预处理,将所述数据集分为完整数据子集和缺失数据子集,将所述完整数据子集中的数据分为训练样本集和测试样本集,随机删除测试样本集中部分数据作为缺失测试样本集;步骤2,利用训练样本集对初步构建的卷积神经网络进行训练并保存,使用训练后得到的卷积神经网络对缺失测试样本集进行缺失值填充,并不断调整所述卷积神经网络的网络结构和迭代前述训练和验证步骤以满足精度要求;步骤3,将所述完整数据子集输入步骤(2)得到的卷积神经网络,得到完善的卷积神经网络;步骤4,将所述缺失数据子集输入步骤(3)得到的完善的卷积神经网络完成缺失值的填充。其缺失值填补方法的缺点在于:1、卷积神经网络需要一定的样本进行多次训练才能满足精度要求,在一些场景下并不适合;2、对数据缺失率较高时的处理效果并不理想。
发明内容
本发明要解决的技术问题是:现有技术中的数据补全技术没有充分考虑数据波动及时间序列的技术问题。提出了一种基于改进马尔可夫模型和改进K最近邻的缺失值填补方法。本发明能够充分考虑数据的整体性和局部分布,使得填补的数据能够追踪数据的变化趋势并在较低的误差范围内。
为解决上述技术问题,本发明所采取的技术方案为:基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,包括以下步骤:A)根据数据的最小值vmin和最大值vmax,将区间[vmin,vmax]以等间隔形式划分为n个状态区间,确定每个数据点所属的状态区间并赋予其状态标签;B)采用改进马尔可夫模型得到缺失值的可能填补值Tm;C)根据缺失值的位置,采用改进K最近邻方法得到缺失值的可能填补值Tk;D)对Tm和Tk加权求和得到最终的填补值T。本发明通过改进马尔可夫模型和改进K最近邻方法分别得到可能的填补值,并通过加权求和得到最终的填补值,一方面可反映数据的整体分布和变化趋势,另一方面又保留了缺失值附近的局部特征。采用改进马尔可夫模型和改进K最近邻方法联合填补缺失值,具有一定的鲁棒性和准确性。
作为优选,步骤B)中,采用改进马尔可夫模型得到缺失值的可能填补值Tm,包括:B1)根据正向时间序列,用n阶方阵统计数据由状态i经过一步转移到状态j的概率,表示为ai,j=s(i/j)/s(i),其中s(i/j)表示状态i的下一状态为j的次数,表示s(i)表示状态i出现的次数,得到n*n阶的正向状态转移矩阵P,
Figure BDA0002377144170000021
B2)根据反向时间序列,建立n*n阶的反向状态转移矩阵Q,反向状态转移矩阵Q的元素bi,j表示在反向时间序列中,数据由状态i经过一步转移到状态j的概率;B3)假设正向时间序列的第k个数为缺失值,选择第(k-1)个数所处的状态i作为初始状态,建立长度为n的初始状态向量w1,由于已知第(k-1)个数的状态,w1中对应元素的概率为1,其余元素为0,w1与正向状态转移矩阵P相乘,得到缺失值处于不同状态区间的正向概率分布p1,将概率作为权重分别与各状态区间的中间值加权求和得到填补值T1;B4)选择第k个数后首个不为缺失值的第m个数在反向时间序列中所处的状态i作为初始状态,步骤B3),建立长度为n的初始状态向量w2,由于已知第(k-1)个数的状态,w2中对应元素的概率为1,其余元素为0,w2与反向状态转移矩阵Q相乘,得到缺失值处于不同状态区间的反向概率分布p2,与各状态区间的中间值加权求和得到填补值T2;B5)分别获取填补值T1、T2所处的状态i和j在数据中出现的次数,以升半岭形隶属函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tm
作为优选,步骤B5)中,所述升半岭形隶属函数为:
Figure BDA0002377144170000031
其中,dmax为数据各状态出现次数的最大差值,dmin为数据各状态出现次数的最小差值,x为状态i和j出现次数num_i和num_j的次数之差;填补值T1、T2匹配权重系数ω1、ω2分别为:
Figure BDA0002377144170000032
作为优选,步骤C)中,采用改进K最近邻方法得到缺失值的可能填补值Tk包括:C1)假设正向时间序列的第k个数为缺失值,以第(k-1)个数为初始点,在第k个数之前的n个数据中选择k个与第(k-1)个数欧氏距离最小的数的均值作为填补值T1,选择第k个数后首个不为缺失值的第m个数为初始点,在第k个数之后的n个数据中选择k个与第m个数欧氏距离最小的数的均值作为填补值T2;C2)以降半岭形隶属度函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tk
作为优选,步骤C2)中,降半岭形隶属度函数为:
Figure BDA0002377144170000033
其中,r为人工设定的可接受的缺失值最大连续出现次数,x为缺失值连续出现的次数,填补值T1的权重系数ω1=1-μ(x),T2的权重系数ω2=μ(x)。
作为优选,步骤D)中,对Tm和Tk加权求和得到最终的填补值T的方法为:若时间序列上缺失值附近2n个数的局部缺失率超过设定阈值,则以降半岭形隶属度函数为填补值Tm和Tk匹配权重系数,加权求和得到填补值T。
作为优选,步骤D)中,降半岭形隶属度函数为:
Figure BDA0002377144170000034
其中,l为缺失值附近2n个数中可接受的缺失值个数,x为缺失值的个数。因此,填补值Tm的权重系数ω1=1-μ(x),填补值Tk的权重系数ω2=μ(x)。
本发明的实质性效果是:将数据划分为n个状态区间,结合正向状态转移矩阵和反向状态转移矩阵,充分考虑数据的整体性和波动趋势,提高了对波动性较强、规律性较弱的时间序列数据的缺失的补全精确度。
附图说明
图1为实施例一缺失值填补方法流程框图。
图2为实施例一缺失率为10%时的时间序列数据示意图。
图3为实施例一缺失值补全后的时间序列数据示意图。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的具体实施方式作进一步具体说明。
实施例一:
基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,如图1所示,本实施例包括以下步骤:A)根据数据的最小值vmin和最大值vmax,将区间[vmin,vmax]以等间隔形式划分为n个状态区间,确定每个数据点所属的状态区间并赋予其状态标签;B)采用改进马尔可夫模型得到缺失值的可能填补值Tm;C)根据缺失值的位置,采用改进K最近邻方法得到缺失值的可能填补值Tk;D)对Tm和Tk加权求和得到最终的填补值T。n的值由人工设定,其值越大缺失值填补越精确,但运算量和填补效率相应下降。
步骤B)中,采用改进马尔可夫模型得到缺失值的可能填补值Tm,包括:B1)根据正向时间序列,用n阶方阵统计数据由状态i经过一步转移到状态j的概率,表示为ai,j=s(i/j)/s(i),其中s(i/j)表示状态i的下一状态为j的次数,表示s(i)表示状态i出现的次数,得到n*n阶的正向状态转移矩阵P,
Figure BDA0002377144170000041
B2)根据反向时间序列,建立n*n阶的反向状态转移矩阵Q,反向状态转移矩阵Q的元素bi,j表示在反向时间序列中,数据由状态i经过一步转移到状态j的概率;B3)假设正向时间序列的第k个数为缺失值,选择第(k-1)个数所处的状态i作为初始状态,建立长度为n的初始状态向量w1,由于已知第(k-1)个数的状态,w1中对应元素的概率为1,其余元素为0,w1与正向状态转移矩阵P相乘,得到缺失值处于不同状态区间的正向概率分布p1,将概率作为权重分别与各状态区间的中间值加权求和得到填补值T1;B4)选择第k个数后首个不为缺失值的第m个数在反向时间序列中所处的状态i作为初始状态,步骤B3),建立长度为n的初始状态向量w2,由于已知第(k-1)个数的状态,w2中对应元素的概率为1,其余元素为0,w2与反向状态转移矩阵Q相乘,得到缺失值处于不同状态区间的反向概率分布p2,与各状态区间的中间值加权求和得到填补值T2;B5)分别获取填补值T1、T2所处的状态i和j在数据中出现的次数,以升半岭形隶属函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tm。步骤B5)中,升半岭形隶属函数为:
Figure BDA0002377144170000051
其中,dmax为数据各状态出现次数的最大差值,dmin为数据各状态出现次数的最小差值,x为状态i和j出现次数num_i和num_j的次数之差;填补值T1、T2匹配权重系数ω1、ω2分别为:
Figure BDA0002377144170000052
步骤C)中,采用改进K最近邻方法得到缺失值的可能填补值Tk包括:C1)假设正向时间序列的第k个数为缺失值,以第(k-1)个数为初始点,在第k个数之前的n个数据中选择k个与第(k-1)个数欧氏距离最小的数的均值作为填补值T1,选择第k个数后首个不为缺失值的第m个数为初始点,在第k个数之后的n个数据中选择k个与第m个数欧氏距离最小的数的均值作为填补值T2;C2)以降半岭形隶属度函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tk。步骤C2)中,降半岭形隶属度函数为:
Figure BDA0002377144170000053
其中,r为人工设定的可接受的缺失值最大连续出现次数,x为缺失值连续出现的次数,填补值T1的权重系数ω1=1-μ(x),T2的权重系数ω2=μ(x)。
步骤D)中,对Tm和Tk加权求和得到最终的填补值T的方法为:若时间序列上缺失值附近2n个数的局部缺失率超过设定阈值,则以降半岭形隶属度函数为填补值Tm和Tk匹配权重系数,加权求和得到填补值T。
步骤D)中,降半岭形隶属度函数为:
Figure BDA0002377144170000061
其中,l为缺失值附近2n个数中可接受的缺失值个数,x为缺失值的个数。因此,填补值Tm的权重系数ω1=1-μ(x),填补值Tk的权重系数ω2=μ(x)。
以某设备250个连续在线监测数据为样本,分别按缺失率为10%、20%、30%和40%随机删除数据,然后采用本实施例填补缺失值,以缺失率10%为例,含缺失值的时间序列数据如图2所示。
步骤A,根据数据的最小值407.4和最大值740.3,将区间[407.4,740.3]以24.2为间隔划分为15个状态区间,确定每个数据点所属的状态区间并赋予其状态标签。
步骤B,采用马尔可夫模型得到缺失值的可能填补值Tm,包括:
B1)根据正向时间序列,用15阶方阵统计数据由状态i经过一步转移到状态j的概率,表示为ai,j=s(i/j)/s(i),其中s(i/j)表表示状态i的下一状态为j的次数,s(i)表示状态i出现的次数。最终得到15*15阶的正向状态转移矩阵P,
Figure BDA0002377144170000071
B2)根据反向时间序列,原理同步骤B1),建立15*15阶的反向状态转移矩阵阵Q,表示为:
Figure BDA0002377144170000072
B3)以正向时间序列的第17个数是缺失值为例,选择第16个数所处的状态i作为初始状态,建立长度为15的初始状态向量w1,由于已知第(k-1)个数的状态,w1中对应元素的概率为1,其余元素为0,则w1=[0,0,0,1,0,0,0,0,0,0,0,0,0,0,0]。w1与正向状态转移矩阵P相乘,得到缺失值处于不同状态区间的正向概率分布p1,其中p1=[0.015,0.043,0.145,0.377,0.26,0.13,0.015,0.015,0,0,0,0,0,0,0],将概率作为权重分别与各状态区间的中间值加权求和得到填补值T1=477.321。
B4)选择第17个数后首个不为缺失值的第19个数在反向时间序列中所处的状态i作为初始状态,原理同步骤B3),得到缺失值处于不同状态区间的反向概率分布p2,其中
p2=[0,0,0,0,0,0,0,0.02,0.028,0.028,0.289,0.376,0.217,0.028,0.014],并与各状态区间的中间值加权求和得到填补值T2=464.644。
B5)获取填补值477.321和464.644所处的状态i和j在数据中出现的次数,分别为69和69,若某状态出现的次数越多则状态转移的概率越大,以升半岭形隶属函数为填补值477.321和464.644匹配权重系数为0.5和0.5,最终加权求和得到填补值Tm=470.983。
步骤C,根据缺失值的位置,采用K最近邻方法得到缺失值的可能填补值Tk,包括:
C1)以正向时间序列的第17个数是缺失值为例,以第16个数为初始点,在第17个数之前的20个数据中选择5个与第16个数欧氏距离最小的数的均值作为填补值476.54。选择第17个数后首个不为缺失值的第19个数为初始点,在第17个数之后的20个数据中选择5个与第19个数欧氏距离最小的数的均值作为填补值482.012。
C2)若连续缺失值越多,超过了设定的阈值,填补值482.012与缺失值之间的关联越弱,以降半岭形隶属度函数为填补值476.54和482.012匹配权重系数0.515和0.485,最终加权求和得到填补值Tk=479.194。
步骤D,对Tm=470.983和Tk=479.194加权求和得到最终的填补值T,包括:
D1)若时间序列上缺失值附近20个数存在3个缺失值,而局部缺失率越高,补全值479.194对局部数据波动的追踪能力越弱,以降半岭形隶属度函数为填补值470.983和479.194匹配权重系数为0.514和0.486,最终加权求和得到填补值474.974,而原数据为475.84,则填补值与原数据的相对误差为0.18%。如图3所示,为缺失值补全后与原数据的对比图。
为了说明本发明的方法具有较好的鲁棒性和准确性,对比不同的数据填补方法,如传统马尔可夫模型(Markov)、传统K最近邻方法(KNN)、指数加权移动平均法(EWMA)、三次样条插值(spline插值)、线性插值等。如表1所示,分别按缺失率为10%、20%、30%和40%随机删除数据,缺失值按单点缺失和连续缺失分别统计填补值的均方根误差(rmse)和各个填补值与实际值的相对误差。表1不同数据填补方法的对比
Figure BDA0002377144170000091
表1
由表1可知:(1)对比个各缺失值填补方法的rmse值,本发明所提方法的rmse值在所有工况下为最小值或与最小值差异很小;(2)对比各工况下缺失值与实际值的相对误差,当以相对误差范围为15%衡量时,本实施例所提方法下的各填补值均满足;当以相对误差范围为10%衡量时,除了数据缺失率为40%的连续缺失值统计结果,本实施例所提方法下的缺失值超过95%均满足;当以相对误差范围为5%衡量时,本实施例所提方法在大部分工况中填补值满足条件的比例最高。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (7)

1.基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,包括以下步骤:
A)根据数据的最小值vmin和最大值vmax,将区间[vmin,vmax]以等间隔形式划分为n个状态区间,确定每个数据点所属的状态区间并赋予其状态标签;
B)采用改进马尔可夫模型得到缺失值的可能填补值Tm
C)根据缺失值的位置,采用改进K最近邻方法得到缺失值的可能填补值Tk
D)对Tm和Tk加权求和得到最终的填补值T。
2.根据权利要求1所述的基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,
步骤B)中,采用改进马尔可夫模型得到缺失值的可能填补值Tm,包括:
B1)根据正向时间序列,用n阶方阵统计数据由状态i经过一步转移到状态j的概率,表示为ai,j=s(i/j)/s(i),其中s(i/j)表示状态i的下一状态为j的次数,表示s(i)表示状态i出现的次数,得到n*n阶的正向状态转移矩阵P,
Figure FDA0002377144160000011
B2)根据反向时间序列,建立n*n阶的反向状态转移矩阵Q,反向状态转移矩阵Q的元素bi,j表示在反向时间序列中,数据由状态i经过一步转移到状态j的概率;
B3)假设正向时间序列的第k个数为缺失值,选择第(k-1)个数所处的状态i作为初始状态,建立长度为n的初始状态向量w1,由于已知第(k-1)个数的状态,w1中对应元素的概率为1,其余元素为0,w1与正向状态转移矩阵P相乘,得到缺失值处于不同状态区间的正向概率分布p1,将概率作为权重分别与各状态区间的中间值加权求和得到填补值T1
B4)选择第k个数后首个不为缺失值的第m个数在反向时间序列中所处的状态作为初始状态,步骤B3),建立长度为n的初始状态向量w2,由于已知第(k-1)个数的状态,w2中对应元素的概率为1,其余元素为0,w2与反向状态转移矩阵Q相乘,得到缺失值处于不同状态区间的反向概率分布p2,与各状态区间的中间值加权求和得到填补值T2
B5)分别获取填补值T1、T2所处的状态i和j在数据中出现的次数,以升半岭形隶属函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tm
3.根据权利要求2所述的基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,
步骤B5)中,所述升半岭形隶属函数为:
Figure FDA0002377144160000021
其中,dmax为数据各状态出现次数的最大差值,dmin为数据各状态出现次数的最小差值,x为状态i和j出现次数num_i和num_j的次数之差;
填补值T1、T2匹配权重系数ω1、ω2分别为:
Figure FDA0002377144160000022
4.根据权利要求1或2或3所述的基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,
步骤C)中,采用改进K最近邻方法得到缺失值的可能填补值Tk包括:
C1)假设正向时间序列的第k个数为缺失值,以第(k-1)个数为初始点,在第个数之前的n个数据中选择k个与第(k-1)个数欧氏距离最小的数的均值作为填补值T1,选择第k个数后首个不为缺失值的第m个数为初始点,在第k个数之后的n个数据中选择k个与第m个数欧氏距离最小的数的均值作为填补值T2
C2)以降半岭形隶属度函数为填补值T1、T2匹配权重系数ω1、ω2,加权求和得到填补值Tk
5.根据权利要求4所述的基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,
步骤C2)中,降半岭形隶属度函数为:
Figure FDA0002377144160000023
其中,r为人工设定的可接受的缺失值最大连续出现次数,x为缺失值连续出现的次数,填补值T1的权重系数ω1=1-μ(x),T2的权重系数ω2=μ(x)。
6.根据权利要求1或2或3所述的基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,
步骤D)中,对Tm和Tk加权求和得到最终的填补值T的方法为:
若时间序列上缺失值附近2n个数的局部缺失率超过设定阈值,则以降半岭形隶属度函数为填补值Tm和Tk匹配权重系数,加权求和得到填补值T。
7.根据权利要求6所述的基于改进马尔可夫模型和改进K最近邻的缺失值填补方法,其特征在于,
步骤D)中,降半岭形隶属度函数为:
Figure FDA0002377144160000031
其中,l为缺失值附近2n个数中可接受的缺失值个数,l的值由人工设定,为缺失值的个数,填补值Tm的权重系数ω1=1-μ(x),填补值Tk的权重系数ω2=μ(x)。
CN202010070393.9A 2020-01-21 2020-01-21 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法 Active CN111309973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010070393.9A CN111309973B (zh) 2020-01-21 2020-01-21 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010070393.9A CN111309973B (zh) 2020-01-21 2020-01-21 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法

Publications (2)

Publication Number Publication Date
CN111309973A true CN111309973A (zh) 2020-06-19
CN111309973B CN111309973B (zh) 2024-01-05

Family

ID=71161567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010070393.9A Active CN111309973B (zh) 2020-01-21 2020-01-21 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法

Country Status (1)

Country Link
CN (1) CN111309973B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344567A (zh) * 2022-10-18 2022-11-15 国网天津市电力公司营销服务中心 一种适用于边缘计算的低压台区数据清洗治理方法及装置
CN117574305A (zh) * 2024-01-17 2024-02-20 阿尔卑斯系统集成(大连)有限公司 一种设备运行状态实时监测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050044085A1 (en) * 2003-08-18 2005-02-24 Todres Yampel Database generation method
US20130036082A1 (en) * 2011-08-05 2013-02-07 International Business Machines Corporation Multiple imputation of missing data in multi-dimensional retail sales data sets via tensor factorization
KR101271694B1 (ko) * 2012-01-09 2013-06-05 전남대학교산학협력단 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법
CN105205502A (zh) * 2015-10-30 2015-12-30 山东大学 一种基于马尔柯夫蒙特卡罗的负荷特性综合分类方法
CN106295873A (zh) * 2016-08-08 2017-01-04 西安科技大学 一种面向采煤机记忆截割的灰色马尔可夫链轨迹预测方法
CN107368543A (zh) * 2017-06-28 2017-11-21 国网辽宁省电力有限公司 一种基于mcmc算法的电力采集数据修复方法
US20180068033A1 (en) * 2016-09-08 2018-03-08 Indian Institute Of Technology Bombay Method for imputing missed data in sensor data sequence with missing data
CN109726503A (zh) * 2019-01-12 2019-05-07 国电联合动力技术有限公司 缺失数据填补方法及装置
US20190258743A1 (en) * 2018-02-21 2019-08-22 Informatica Llc Method, apparatus, and computer-readable medium for generation of missing data

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050044085A1 (en) * 2003-08-18 2005-02-24 Todres Yampel Database generation method
US20130036082A1 (en) * 2011-08-05 2013-02-07 International Business Machines Corporation Multiple imputation of missing data in multi-dimensional retail sales data sets via tensor factorization
KR101271694B1 (ko) * 2012-01-09 2013-06-05 전남대학교산학협력단 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법
CN105205502A (zh) * 2015-10-30 2015-12-30 山东大学 一种基于马尔柯夫蒙特卡罗的负荷特性综合分类方法
CN106295873A (zh) * 2016-08-08 2017-01-04 西安科技大学 一种面向采煤机记忆截割的灰色马尔可夫链轨迹预测方法
US20180068033A1 (en) * 2016-09-08 2018-03-08 Indian Institute Of Technology Bombay Method for imputing missed data in sensor data sequence with missing data
CN107368543A (zh) * 2017-06-28 2017-11-21 国网辽宁省电力有限公司 一种基于mcmc算法的电力采集数据修复方法
US20190258743A1 (en) * 2018-02-21 2019-08-22 Informatica Llc Method, apparatus, and computer-readable medium for generation of missing data
CN109726503A (zh) * 2019-01-12 2019-05-07 国电联合动力技术有限公司 缺失数据填补方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344567A (zh) * 2022-10-18 2022-11-15 国网天津市电力公司营销服务中心 一种适用于边缘计算的低压台区数据清洗治理方法及装置
CN117574305A (zh) * 2024-01-17 2024-02-20 阿尔卑斯系统集成(大连)有限公司 一种设备运行状态实时监测方法及系统
CN117574305B (zh) * 2024-01-17 2024-04-05 阿尔卑斯系统集成(大连)有限公司 一种设备运行状态实时监测方法及系统

Also Published As

Publication number Publication date
CN111309973B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN110059357B (zh) 一种基于自编码网络的智能电能表故障分类检测方法及系统
CN108960303B (zh) 一种基于lstm的无人机飞行数据异常检测方法
CN108304623B (zh) 一种基于堆栈降噪自动编码器的概率潮流在线计算方法
CN115018021B (zh) 基于图结构与异常注意力机制的机房异常检测方法及装置
CN110213788B (zh) 基于数据流时空特征的wsn异常检测及类型识别方法
CN107463993B (zh) 基于互信息-核主成分分析-Elman网络的中长期径流预报方法
CN108664690A (zh) 基于深度信念网络的多应力下长寿命电子器件可靠性寿命评估方法
CN113051839B (zh) 一种基于深度学习的设备剩余寿命预测模型构建方法
CN112487694B (zh) 一种基于多退化指标的复杂设备剩余寿命预测方法
CN112668775A (zh) 一种基于时序卷积网络算法的空气质量预测方法
CN112912902A (zh) 人工神经网络和利用表观遗传神经发生训练人工神经网络的方法
CN111309973A (zh) 基于改进马尔可夫模型和改进k最近邻的缺失值填补方法
CN108446714B (zh) 一种多工况下的非马尔科夫退化系统剩余寿命预测方法
CN110443724A (zh) 一种基于深度学习的电力系统快速状态估计方法
CN108805195A (zh) 一种基于二值深层神经网络的电机群故障诊断方法
CN110782546A (zh) 基于组合树模型的半导体pvd制程的电阻率虚拟量测方法
CN115587543A (zh) 基于联邦学习和lstm的刀具剩余寿命预测方法及系统
CN116384224A (zh) 一种基于条件化参数动态卷积神经网络的航空发动机寿命预测方法
CN110879927A (zh) 一种用于海目标检测的海杂波幅度统计分布现场建模方法
CN111079348B (zh) 一种缓变信号检测方法和装置
CN114330486A (zh) 基于改进Wasserstein GAN的电力系统不良数据辨识方法
CN114611803A (zh) 基于退化特征的开关器件寿命预测方法
CN110717374A (zh) 一种基于改进的多层感知机的高光谱遥感影像分类方法
CN112416913B (zh) 一种基于gwo-bp算法的飞机燃油系统状态缺失值补充方法
CN113496255B (zh) 基于深度学习与决策树驱动的配电网混合观测布点方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant