CN113312587B - 基于arima预测和回归预测的传感器采集数据缺失值处理方法 - Google Patents

基于arima预测和回归预测的传感器采集数据缺失值处理方法 Download PDF

Info

Publication number
CN113312587B
CN113312587B CN202110668225.4A CN202110668225A CN113312587B CN 113312587 B CN113312587 B CN 113312587B CN 202110668225 A CN202110668225 A CN 202110668225A CN 113312587 B CN113312587 B CN 113312587B
Authority
CN
China
Prior art keywords
data
missing
value
sensor
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110668225.4A
Other languages
English (en)
Other versions
CN113312587A (zh
Inventor
徐飞
杨鑫
刘议丹
黄正鹏
黄祖海
陈友武
马森标
李睿安
王知军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Zhongrui Network Co ltd
Original Assignee
Fujian Zhongrui Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Zhongrui Network Co ltd filed Critical Fujian Zhongrui Network Co ltd
Priority to CN202110668225.4A priority Critical patent/CN113312587B/zh
Publication of CN113312587A publication Critical patent/CN113312587A/zh
Application granted granted Critical
Publication of CN113312587B publication Critical patent/CN113312587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明提出基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,所述处理方法包括以下步骤;步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA算法或回归预测方法以对缺失值进行估算;步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填;本发明能对桥梁传感器收集数据的缺失值进行预测,从而对缺失值(缺失值包括:空值、超出传感器量程和精度的数据)进行回填。

Description

基于ARIMA预测和回归预测的传感器采集数据缺失值处理 方法
技术领域
本发明涉及大数据异常值处理技术领域,尤其是基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法。
背景技术
在进行桥梁传感器数据分析之前,数据预处理过程中,不可避免需要对原数据的缺失值进行处理。在面对庞大且复杂的数据时,现有技术主要对缺失值进行简单的处理,如:直接删除、极端值替代、均值替代、极大似然估计、多重插补、众数填补等。由于桥梁传感器的实际数据是庞大而复杂的,因此现有技术往往只能选择其中一种方法进行缺失值的处理。
现有技术对于数据中的缺失值只是进行简单笼统的处理,这样的数据处理方式导致了处理后数据与真实数据有较大的偏差,不但忽略了数据之间所具有的关联性,还改变了数据本身所具有的一些规律和性质。同时在大数据背景下,桥梁传感器产生的的数据量是庞大的,种类是复杂的,现有技术单一的缺失值处理方式,已经无法满足国内桥梁传感器数据分析领域的发展需求,而且在面对种类复杂的数据时更加捉襟见肘。综上所述,现有的数据缺失值处理方法,不仅降低了后续的数据分析与研究的意义和参考价值,而且无法满足国内桥梁传感器数据分析领域的发展需要,在传感器采集的数据处理问题尤为突出,具体表现为:
1、现有缺失值处理技术处理后的数据与真实数据有较大偏差,不能反应数据本身的周期性、趋势性与相关性。
2、现有缺失值处理技术对于庞大且复杂的数据时较为单一笼统,不能根据不同的缺失形式采取更优的填补方法。
发明内容
本发明提出基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,能对桥梁传感器收集数据的缺失值进行预测,从而对缺失值(缺失值包括:空值、超出传感器量程和精度的数据)进行回填。
本发明采用以下技术方案。
基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,所述处理方法包括以下步骤;步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;
步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA算法或回归预测方法以对缺失值进行估算;
步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填。
在步骤S1中包括以下步骤;
步骤A11、导入传感器采样的原始数据集,将传感器原始数据集按时间属性进行排序形成时间序列原始数据集;所述时间序列原始数据集至少包含以下属性:时间、传感器类型、传感器编号、规定时间间隔内传感器数据平均值;
步骤A12、对时间序列原始数据集内符合预设时间间隔阈值范围内的时间缺失进行填补,将其所对应的缺失数据使用空值来进行替代,替代完成后根据时间属性进行重复值剔除,剔除重复的时间节点及其对应的数据,以保证时间节点对应的采样数据的唯一性;
步骤A13、对完成时间填补及空值替代的传感器采样数据集进行筛选,筛选出不在量程范围、精度误差范围内的数值并剔除,剔除完成后在对应位置使用空值进行替代。
所述步骤S2包括以下步骤;
步骤B11、对采样数据集进行空值识别来识别其缺失值,并判断缺失值是否连续;方法为:
设第一个缺失值之前纳入识别模型的数据量为M,连续缺失数据的个数为m,设定一个判别标准G,G的取值根据数据特性设定,具体选取算法如下:
第一步:设S为当前使用场景的时间序列真实采样数据,且为步骤A13的缺失值处理后的数据集;从S中截取一段连续且无缺失值的数据M;在M数据集中随机m个时间节点对应数据进行空值替代,使用ARIMA算法和回归算法对这m个空值进行预测并使用预测结果填补空值;
第二步:设M数据集中使用空值替代的m个数据所对应的时间节点分别为t1,t2,…tm;该时间节点对应真实采样数据为F(t)={f(t1),f(t2),…,f(tm)};则使用ARIMA算法预测结果为D(t)={d(t1),d(t2),…,d(tm)},使用回归算法预测结果为K(t)={k(t1),k(t2),…,k(tm)}。
第三步:设第一个缺失值之前的数据量为H,连续缺失的数据个数为h,第一次取h=1时,使用ARIMA算法与回归算法预测,得到预测的估算值d(th)与k(th),计算ARIMA算法预测残差平方和回归预测残差平方和/>当SSEs≤SSEx,则h=h+1,重复进行两种方法对缺失值进行估算,重复以上步骤直到SSEs>SSEx,定义当前的/>
第四步:以公式进行校验;
为消除一次训练带来的偶然性,重复第二步,取一段新的连续不缺失数据,或者在第二步数据中在不同位置挖空,再重复第三步,得到G2;如此循环往复,得到了G1,G2,…,Gn,将它们的平均值定义为G,即
时,判定该段缺失数据为非连续缺失;
步骤B12、把采样数据拆分成一个时间点对应一个传感器的数值格式;
步骤B13、针对每个传感器进行ARIMA算法建模,具体方法为:
对传感器采样数据进行从表头开始检索,若第一个为缺失值则跳过该值,继续检索,直到检索到非缺失值;检索到非缺失值后,由该值起往后提取连续非缺失的时间及其对应传感器数据,直到遇到缺失值为止,设该过程提取了N个连续非缺失的数据,则将其当作一个新的时间序列数据,进行ARIMA算法建模,从而预测该时间序列数据后m个缺失数据,预测完成后根据ARIMA算法或回归预测生成对缺失数据的估算值;
步骤B13、将估算值填补到对应时间点传感器缺失数据的数据集对应部位,然后判断采样数据集是否还存在空值数据,若还存在则从步骤B11再次执行。
在步骤B13中,若采样数据包括多个传感器数据,则对各个传感器的数据进行相关性分析,计算各个传感器数据之间的皮尔逊系数,生成相关系数矩阵,以公式表述为
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;所述相关系数矩阵用于评估各个传感器数据之间的线性关系,即一个传感器的数据变化趋势是否与另一个传感器的数据变化趋势相类似;
当两传感器数据间的相关系数值满足预设相关系数(0.8)时,则表示采样数据集中,这两个传感器的采样数据存在较强的线性关系,其缺失值通过建立回归预测模型进行预测估算以减小估算偏差;所述回归预测模型的自变量、因变量由上述的相关性分析结果和缺失值预测目标来确定。
所述传感器为桥梁传感器。
当桥梁传感器的采样数据源于新的采样项目时,所述步骤S3中采用均方误差对估算值的拟合度进行精度评估。
在步骤S3中,以均值填补数据与步骤S2中的估算值进行比对以输出拟合度评估结果。
根据步骤B11中的判别标准G来判定桥梁传感器缺失数据部分为短缺失数据还是连续缺失数据,当所述桥梁传感器缺失数据部分为短缺失数据时,采用基于ARIMA算法预测的时间序列对缺失数据进行预测估算并回填数据,当所述桥梁传感器缺失数据部分为连续缺失数据时,采用线性回归预测对缺失数据进行预测估算并回填数据。
所述ARIMA算法为ARIMA(p,d,q)模型,其公式为
式中,Φ(B)=1-φ1B-…-φpBp,为平稳可逆ARMA(p,q)模型的自回归系数多项式;Θ(B)=1-θ1B-…-θqBq平稳可逆ARMA(p,q)模型的移动平滑系数多项式;为自回归移动平均模型即d阶差分后的数据序列。
本发明使用ARIAM算法与回归算法根据拥有的桥梁传感器真实数据进行预测,从而使用预测值进行缺失值的回填,且本发明基于时间序列预测回填方法与线性回归预测回填方法,根据桥梁传感器的实际数据情况,对两者的预测精度进行了判别,最终决定短缺失数据使用时间序列预测回填方式,连续缺失数据使用线性回归预测回填,此处连续缺失的判别标准G的设置根据时间序列预测回填与线性回归预测回填的精确度对比而来,本发明的优点在于:
1、本方法跳出了传统的缺失值处理方式,采取了更能体现桥梁传感器数据本身周期性及趋势性的时间序列预测方法以及能体现不同数据之间相关性的回归方法进行缺失值填补,根据数据自身缺失值的性质,判定选取时间序列预测回填或回归预测回填,使得回填后的缺失值更为准确,且能反应桥梁传感器原始数据的周期性、趋势性或相关性;
2、本方法基于时间序列预测回填与线性回归预测回填,在实际运用中创造了判定值G,得到了结合两种算法的最优回填效果;
3、本提案使用ARIAM算法与回归算法就所具有的桥梁传感器真实数据进行预测,从而使用预测值进行缺失值的回填。这样的缺失值处理方式,使处理后的数据与真实数据产生较小的偏差,从而最大限度的保留了数据之间所具有的关联性和数据本身所具有的一些规律和性质。
本发明采用ARIMA模型,既考虑了时间序列上的依存性,又考虑了随机波动的干扰性,因此对于短期的预测较为准确,而在本发明中将建模及预测过程全程自动化并与传感器监测数据系统进行集成,及时将新的数据加入时间序列参与预测,实现实时动态建模和预测,可为今后开展桥梁或其他工程监测提供便捷可靠的手段。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1是本发明的流程示意图;
图2是ARIAM算法的流程示意图;
图3、图4为均方误差随连续空值个数的示意图。
具体实施方式
如图1所示,基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,所述处理方法包括以下步骤;
步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;
步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA算法或回归预测方法以对缺失值进行估算;
步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填。
在步骤S1中包括以下步骤;
步骤A11、导入传感器采样的原始数据集,将传感器原始数据集按时间属性进行排序形成时间序列原始数据集;所述时间序列原始数据集至少包含以下属性:时间、传感器类型、传感器编号、规定时间间隔内传感器数据平均值;
步骤A12、对时间序列原始数据集内符合预设时间间隔阈值范围内的时间缺失进行填补,将其所对应的缺失数据使用空值来进行替代,替代完成后根据时间属性进行重复值剔除,剔除重复的时间节点及其对应的数据,以保证时间节点对应的采样数据的唯一性;
步骤A13、对完成时间填补及空值替代的传感器采样数据集进行筛选,筛选出不在量程范围、精度误差范围内的数值并剔除,剔除完成后在对应位置使用空值进行替代。
所述步骤S2包括以下步骤;
步骤B11、对采样数据集进行空值识别来识别其缺失值,并判断缺失值是否连续;方法为:
设第一个缺失值之前纳入识别模型的数据量为M,连续缺失数据的个数为m,设定一个判别标准G,G的取值根据数据特性设定,具体选取算法如下:
第一步:设S为当前使用场景的时间序列真实采样数据,且为步骤A13的缺失值处理后的数据集;从S中截取一段连续且无缺失值的数据M;在M数据集中随机m个时间节点对应数据进行空值替代,使用ARIMA算法和回归算法对这m个空值进行预测并使用预测结果填补空值;
第二步:设M数据集中使用空值替代的m个数据所对应的时间节点分别为t1,t2,…tm;该时间节点对应真实采样数据为F(t)={f(t1),f(t2),…,f(tm)};则使用ARIMA算法预测结果为D(t)={d(t1),d(t2),…,d(tm)},使用回归算法预测结果为K(t)={k(t1),k(t2),…,k(tm)}。
第三步:设第一个缺失值之前的数据量为H,连续缺失的数据个数为h,第一次取h=1时,使用ARIMA算法与回归算法预测,得到预测的估算值d(th)与k(th),计算ARIMA算法预测残差平方和回归预测残差平方和/>当SSEs≤SSEx,则h=h+1,重复进行两种方法对缺失值进行估算,重复以上步骤直到SSEs>SSEx,定义当前的/>
第四步:以公式进行校验;
为消除一次训练带来的偶然性,重复第二步,取一段新的连续不缺失数据,或者在第二步数据中在不同位置挖空,再重复第三步,得到G2;如此循环往复,得到了G1,G2,…,Gn,将它们的平均值定义为G,即
时,判定该段缺失数据为非连续缺失;
步骤B12、把采样数据拆分成一个时间点对应一个传感器的数值格式;
步骤B13、针对每个传感器进行ARIMA算法建模,具体方法为:
对传感器采样数据进行从表头开始检索,若第一个为缺失值则跳过该值,继续检索,直到检索到非缺失值;检索到非缺失值后,由该值起往后提取连续非缺失的时间及其对应传感器数据,直到遇到缺失值为止,设该过程提取了N个连续非缺失的数据,则将其当作一个新的时间序列数据,进行ARIMA算法建模,从而预测该时间序列数据后m个缺失数据,预测完成后根据ARIMA算法或回归预测生成对缺失数据的估算值;
步骤B13、将估算值填补到对应时间点传感器缺失数据的数据集对应部位,然后判断采样数据集是否还存在空值数据,若还存在则从步骤B11再次执行。
在步骤B13中,若采样数据包括多个传感器数据,则对各个传感器的数据进行相关性分析,计算各个传感器数据之间的皮尔逊系数,生成相关系数矩阵,以公式表述为
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;所述相关系数矩阵用于评估各个传感器数据之间的线性关系,即一个传感器的数据变化趋势是否与另一个传感器的数据变化趋势相类似;
当两传感器数据间的相关系数值满足预设相关系数(0.8)时,则表示采样数据集中,这两个传感器的采样数据存在较强的线性关系,其缺失值通过建立回归预测模型进行预测估算以减小估算偏差;所述回归预测模型的自变量、因变量由上述的相关性分析结果和缺失值预测目标来确定。
所述传感器为桥梁传感器。
当桥梁传感器的采样数据源于新的采样项目时,所述步骤S3中采用均方误差对估算值的拟合度进行精度评估。
在步骤S3中,以均值填补数据与步骤S2中的估算值进行比对以输出拟合度评估结果。
根据步骤B11中的判别标准G来判定桥梁传感器缺失数据部分为短缺失数据还是连续缺失数据,当所述桥梁传感器缺失数据部分为短缺失数据时,采用基于ARIMA算法预测的时间序列对缺失数据进行预测估算并回填数据,当所述桥梁传感器缺失数据部分为连续缺失数据时,采用线性回归预测对缺失数据进行预测估算并回填数据。
所述ARIMA算法为ARIMA(p,d,q)模型,其公式为
式中,Φ(B)=1-φ1B-…-φpBp,为平稳可逆ARMA(p,q)模型的自回归系数多项式;Θ(B)=1-θ1B-…-θqBq平稳可逆ARMA(p,q)模型的移动平滑系数多项式;为自回归移动平均模型即d阶差分后的数据序列。
实施例:
步骤B11中的判别标准G的设置示例如下
从桥梁传感器的采样数据中,取一段具有100个连续空值、且第一个空值前的数据能满足ARIMA算法的合理建模条件的数据的时间序列数据对其分别进行ARIMA算法预测回填和回归预测回填,
采样数据中使用的部分数据如下:
time avg_value_温度
2021-01-12 12:00:00 8.96
2021-01-12 13:00:00 10.18
2021-01-12 14:00:00 11.35
2021-01-12 15:00:00 11.9
2021-01-12 16:00:00 11.91
2021-01-12 17:00:00 11.4
2021-01-12 18:00:00 10.77
2021-01-12 19:00:00 9.96
2021-01-12 20:00:00 9.32
2021-01-12 21:00:00 8.83
根据预测出的估算值而回填的部分数据如下:
在上述过程中,分别得到均方误差随连续空值个数的图像如图3、图4所示。
其中MSE为均方误差,即各数据偏离真实值差值的平方和的平均数,该值越小说明拟合的值越接近真实值。
从上图中可以直观看出,随着空值个数的增加,ARIMA算法预测的值越来越偏离真实值,即准确率越来越低,而回归预测算法的准确度却随着空值个数的增加而逐渐增大,两者的临界点大约为空值为40。40除以第一个空值前的数据的个数,即为一个G值。

Claims (6)

1.基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,其特征在于:所述处理方法包括以下步骤;
步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;
步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA预测算法或回归预测算法以对缺失值进行估算;
步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填;
在步骤S1中包括以下步骤;
步骤A11、导入传感器采样的原始数据集,将传感器原始数据集按时间属性进行排序形成时间序列原始数据集;所述时间序列原始数据集至少包含以下属性:时间、传感器类型、传感器编号、规定时间间隔内传感器数据平均值;
步骤A12、对时间序列原始数据集内符合预设时间间隔阈值范围内的时间缺失进行填补,将其所对应的缺失数据使用空值来进行替代,替代完成后根据时间属性进行重复值剔除,剔除重复的时间节点及其对应的数据,以保证时间节点对应的采样数据的唯一性;
步骤A13、对完成时间填补及空值替代的传感器采样数据集进行筛选,筛选出不在量程范围、精度误差范围内的数值并剔除,剔除完成后在对应位置使用空值进行替代;
所述步骤S2包括以下步骤;
步骤B11、对采样数据集进行空值识别来识别其缺失值,并判断缺失值是否连续;方法为:
设第一个缺失值之前纳入识别模型的数据集为M,连续缺失数据的个数为m,设定一个判别标准G,G的取值根据数据特性设定,具体选取算法如下:
第一步:设S为当前使用场景的时间序列真实采样数据,且为步骤A13的缺失值处理后的传感器采样数据集;从S中截取一段连续且无缺失值的数据集M;在M数据集中随机m个时间节点对应数据进行空值替代,使用ARIMA预测算法和回归预测算法对这m个空值进行预测并使用预测结果填补空值;
第二步:设M数据集中使用空值替代的m个数据所对应的时间节点分别为t1,t2,…tm;该时间节点对应真实采样数据为F(t)={f(t1),f(t2),…,f(tm)};则使用ARIMA预测算法预测结果为D(t)={d(t1),d(t2),…,d(tm)},使用回归预测算法预测结果为K(t)={k(t1),k(t2),…,k(tm)};
第三步:设第一个缺失值之前的数据量为H,连续缺失的数据个数为h,第一次取h=1时,使用ARIMA预测算法与回归预测算法预测,得到预测的估算值d(th)与k(th),计算ARIMA预测算法预测残差平方和回归预测残差平方和/>当SSEs≤SSEx,则h=h+1,重复进行两种方法对缺失值进行估算,重复以上步骤直到SSEs>SSEx,定义当前的/>
第四步:以公式进行校验;
为消除一次训练带来的偶然性,重复第二步,取一段新的连续不缺失数据,或者在第二步数据中在不同位置挖空,再重复第三步,得到G2;如此循环往复,得到了G1,G2,…,Gn,将它们的平均值定义为Gx,即
时,判定缺失数据为非连续缺失;
步骤B12、把采样数据拆分成一个时间点对应一个传感器的数值格式;
步骤B13、针对每个传感器进行ARIMA预测算法建模,具体方法为:
对传感器采样数据进行从表头开始检索,若第一个为缺失值则跳过该值,继续检索,直到检索到非缺失值;检索到非缺失值后,由该值起往后提取连续非缺失的时间及其对应传感器数据,直到遇到缺失值为止,设该过程提取了N个连续非缺失的数据,则将其当作一个新的时间序列数据,进行ARIMA预测算法建模,从而预测该时间序列数据后m个缺失数据,预测完成后根据ARIMA预测算法或回归预测算法生成对缺失数据的估算值;
步骤B13、将估算值填补到对应时间点传感器缺失数据的数据集对应部位,然后判断采样数据集是否还存在空值数据,若还存在则从步骤B11再次执行。
2.根据权利要求1所述的基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,其特征在于:在步骤B13中,若采样数据包括多个传感器数据,则对各个传感器的数据进行相关性分析,计算各个传感器数据之间的皮尔逊系数,生成相关系数矩阵,以公式表述为
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;所述相关系数矩阵用于评估各个传感器数据之间的线性关系,即一个传感器的数据变化趋势是否与另一个传感器的数据变化趋势相类似;
当两传感器数据间的相关系数值满足预设相关系数时,则表示采样数据集中,这两个传感器的采样数据存在较强的线性关系,其缺失值通过建立回归预测模型进行预测估算以减小估算偏差;所述回归预测模型的自变量、因变量由相关性分析结果和缺失值预测目标来确定。
3.根据权利要求2所述的基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,其特征在于:所述传感器为桥梁传感器。
4.根据权利要求3所述的基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,其特征在于:当桥梁传感器的采样数据源于新的采样项目时,所述步骤S3中采用均方误差对估算值的拟合度进行精度评估。
5.根据权利要求4所述的基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,其特征在于:在步骤S3中,以均值填补数据与步骤S2中的估算值进行比对以输出拟合度评估结果。
6.根据权利要求3所述的基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,其特征在于:根据步骤B11中的判别标准G来判定桥梁传感器缺失数据部分为短缺失数据还是连续缺失数据,当所述桥梁传感器缺失数据部分为短缺失数据时,采用基于ARIMA预测算法预测的时间序列对缺失数据进行预测估算并回填数据,当所述桥梁传感器缺失数据部分为连续缺失数据时,采用线性回归预测对缺失数据进行预测估算并回填数据。
CN202110668225.4A 2021-06-16 2021-06-16 基于arima预测和回归预测的传感器采集数据缺失值处理方法 Active CN113312587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110668225.4A CN113312587B (zh) 2021-06-16 2021-06-16 基于arima预测和回归预测的传感器采集数据缺失值处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110668225.4A CN113312587B (zh) 2021-06-16 2021-06-16 基于arima预测和回归预测的传感器采集数据缺失值处理方法

Publications (2)

Publication Number Publication Date
CN113312587A CN113312587A (zh) 2021-08-27
CN113312587B true CN113312587B (zh) 2023-09-22

Family

ID=77379143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110668225.4A Active CN113312587B (zh) 2021-06-16 2021-06-16 基于arima预测和回归预测的传感器采集数据缺失值处理方法

Country Status (1)

Country Link
CN (1) CN113312587B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701371B (zh) * 2023-06-09 2024-03-22 中国科学院地理科学与资源研究所 协方差分析下大气温度数据缺失值插补方法及其插补装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN108897719A (zh) * 2018-05-25 2018-11-27 西安电子科技大学 基于自适应遗传算法的气象数据缺失值填补方法
CN110458374A (zh) * 2019-08-23 2019-11-15 山东浪潮通软信息科技有限公司 一种基于arima和svm的企业用电最大需量预测方法
CN111754024A (zh) * 2020-05-22 2020-10-09 国电南瑞科技股份有限公司 一种基于回归分析的电力行业时间序列预测方法和装置
CN111860980A (zh) * 2020-07-03 2020-10-30 上海积成能源科技有限公司 一种电力负荷预测中应用分类回归树插补补充缺失值的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102461631B1 (ko) * 2018-09-12 2022-10-31 삼성에스디에스 주식회사 데이터의 결측치 보정 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193876A (zh) * 2017-04-21 2017-09-22 美林数据技术股份有限公司 一种基于最近邻knn算法的缺失数据填补方法
CN108897719A (zh) * 2018-05-25 2018-11-27 西安电子科技大学 基于自适应遗传算法的气象数据缺失值填补方法
CN110458374A (zh) * 2019-08-23 2019-11-15 山东浪潮通软信息科技有限公司 一种基于arima和svm的企业用电最大需量预测方法
CN111754024A (zh) * 2020-05-22 2020-10-09 国电南瑞科技股份有限公司 一种基于回归分析的电力行业时间序列预测方法和装置
CN111860980A (zh) * 2020-07-03 2020-10-30 上海积成能源科技有限公司 一种电力负荷预测中应用分类回归树插补补充缺失值的方法

Also Published As

Publication number Publication date
CN113312587A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN109727446B (zh) 一种用电数据异常值的识别与处理方法
CN110352389B (zh) 信息处理装置及信息处理方法
CN111767930A (zh) 物联网时序数据异常检测方法及其相关设备
CN111339129B (zh) 远程抄表异常监测方法、装置、燃气表系统及云服务器
CN106980910B (zh) 中长期电力负荷测算系统及方法
Cao et al. CNN-LSTM coupled model for prediction of waterworks operation data
CN110134675A (zh) 一种面向海洋数据流的数据清洗方法和系统
CN113312587B (zh) 基于arima预测和回归预测的传感器采集数据缺失值处理方法
CN113536066A (zh) 一种数据异常检测算法确定方法、装置及计算机设备
CN112380992A (zh) 一种加工过程监控数据准确性评估与优化方法及装置
CN111898637A (zh) 一种基于ReliefF-DDC特征选择算法
CN111161097A (zh) 基于假设检验的事件检测算法检测开关事件的方法和装置
CN112734858B (zh) 一种双目标定精度在线检测方法及装置
CN116804668B (zh) 一种食盐碘含量检测数据标识方法及系统
CN117314016A (zh) 基于bim技术的水利工程在线监控方法
CN117150244A (zh) 基于电参数分析的智能配电柜状态监测方法及系统
CN116503025A (zh) 一种基于工作流引擎的业务工单流程处理方法
CN116383645A (zh) 一种基于异常检测的系统健康度智能监测评估方法
CN113868597B (zh) 一种用于年龄估计的回归公平性度量方法
CN113554079B (zh) 一种基于二次检测法的电力负荷异常数据检测方法及系统
CN114595213A (zh) 一种关于土壤数据集的多重插补方法
CN115935285A (zh) 基于掩码图神经网络模型的多元时间序列异常检测方法和系统
Lardin-Puech et al. Analysing large datasets of functional data: a survey sampling point of view
CN108021876B (zh) 一种基于参数辨识的压气机故障诊断方法
Božić et al. Selection of an Appropriate Prior Distribution in Risk Assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant