CN111625525B - 一种环境数据修复/填充方法及系统 - Google Patents

一种环境数据修复/填充方法及系统 Download PDF

Info

Publication number
CN111625525B
CN111625525B CN202010453726.6A CN202010453726A CN111625525B CN 111625525 B CN111625525 B CN 111625525B CN 202010453726 A CN202010453726 A CN 202010453726A CN 111625525 B CN111625525 B CN 111625525B
Authority
CN
China
Prior art keywords
data
abnormal
missing
indoor
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010453726.6A
Other languages
English (en)
Other versions
CN111625525A (zh
Inventor
赵泽明
刘京
靳崇渝
薛普宁
周志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010453726.6A priority Critical patent/CN111625525B/zh
Publication of CN111625525A publication Critical patent/CN111625525A/zh
Application granted granted Critical
Publication of CN111625525B publication Critical patent/CN111625525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明涉及一种环境数据修复/填充方法及系统。该系统包括:基于ORIGIN软件,绘制不同属性的室内外环境数据的箱形图;根据箱形图确定异常数据组;采用忽略元组法,将异常数据组中的连续异常或缺失的多属性数据删除,得到处理后的异常数据组;采用距离加权的KNN算法,对连续异常或缺失的单一属性数据进行修复或填充;对处理后的异常数据组进行分段;采用改进的指数加权滑动平均模型,对分段后的异常数据组中的非连续异常或缺失的数据进行修复或填充;整合修复或填充好的数据。本发明能够系统性、分门别类地解决大数据平台中室内、外环境监测数据中不同情况的数据缺失、数据异常等问题,对提高数据质量、保障数据挖掘质量及效率具有重要意义。

Description

一种环境数据修复/填充方法及系统
技术领域
本发明涉及数据修复领域,特别是涉及一种环境数据修复/填充方法及系统。
背景技术
在物联网信息技术革命的大环境下,智能家居及建筑能耗管控系统结合了先进的传感测量技术、信息技术、通讯技术及计算机技术,旨在更好地提升人居环境、引导建筑节能事业的落地。因此,实时监控建筑室内外环境参数成为大数据建筑能耗管控、智能家居场景调控、能耗模拟仿真的重要数据基础。现阶段,由于数据采集终端故障、断电断网、中央服务器崩溃数据无法上传等原因,数据存在着不容忽视的缺失现象;同时,由于传感器漂移或跳变、室内人员随机活动、室外异常状况等原因,也存在数据异常的问题。这些问题都将影响着后续的数据挖掘质量和学习效率。为保证充足的数据量、较高的数据质量,为数据挖掘的高质量和高效率奠定基础,异常值修复和缺失值填补的过程是机器学习的重要环节,同时也对建筑能耗模拟仿真计算的精度有着重要影响。
现阶段,较为常用的数据缺失填充方法有均值填充法、中位数填充法、众数填充法、回归方法、插值方法等。其中,均值填充法、中位数填充法、众数填充法填充的填充结果单一,无法体现出数据的变化趋势与规律,特别是对于室内外逐时变化的环境参数,其填充准确率较差。而对于多元线性回归模型,缺少灵活性,模型预测效果通常不够理想;对于预测准确率较高的高斯回归方法,其模型又较为复杂。插值法中较为常用的数据填补方法为拉格朗日插值法和三次样条法,其原理是根据参数x的变化规律来拟合y,是衡量两变量关系的过程,而室内外环境参数间多为多个因素间互相影响,因此插值法并不适用。因此,现阶段在各领域的数据处理方法仍处于通用状态,适用性较差,缺少有针对性的气象参数处理的方法。
另一方面,现阶段用于室内外环境数据异常修复、缺失填充方法的系统性也较差,整个修复、填充过程大多采用同一种方法进行处理,而缺少对不同情况问题数据的整合分析、缺少对不同数据问题分门别类处理的系统性研究。同时,现有研究中,对数据异常修复、缺失填充的重视程度不够,多数研究基于单一方法对异常、缺失数据进行简单处理,未对填充方法的有效性、适用性以及填充结果的准确性展开验证,无法证明方法的有效性、适用性。
发明内容
本发明的目的是提供一种环境数据修复/填充方法及系统,可系统性、分门别类地解决大数据平台中室内、外环境监测数据中不同情况的数据缺失、数据异常等问题,对提高数据质量、保障数据挖掘质量及效率具有重要意义。
为实现上述目的,本发明提供了如下方案:
一种环境数据修复/填充方法,所述方法包括:
获取不同时刻的室内外环境数据;所述室内外环境数据包括多个属性的环境数据;
基于ORIGIN软件,绘制不同属性的室内外环境数据的箱形图;
根据所述箱形图确定异常数据组;所述异常数据组表示不同时刻的室内外环境数据中的异常数据;
采用忽略元组法,将所述异常数据组中的连续异常或缺失的多属性数据删除,得到处理后的异常数据组;所述连续异常或缺失的多属性数据为连续异常或缺失时间超过第一预设时间的多于1个属性的数据;
采用距离加权的KNN算法,对连续异常或缺失的单一属性数据进行修复或填充;所述连续异常或缺失的单一属性数据为连续异常或缺失时间超过第一预设时间,但不超过第二预设时间的单一属性数据;
对处理后的异常数据组进行分段;
采用改进的指数加权滑动平均模型,对分段后的异常数据组中的非连续异常或缺失的数据进行修复或填充;
整合修复或填充好的数据。
可选的,所述根据所述箱形图确定异常数据组,具体包括:
判断室内外环境数据是否超出所述箱形图的上边缘和下边缘;
若是,则确定所述室内外环境数据为异常数据。
可选的,所述采用距离加权的KNN算法,对连续异常或缺失的单一属性数据进行修复或填充,具体包括:
计算所述连续异常或缺失的单一属性数据与完好数据之间的欧氏距离;
筛选出与所述连续异常或缺失的单一属性数据之间的欧式距离最近的完好数据;
根据筛选出的完好数据的属性值进行修复和填充。
可选的,所述采用改进的指数加权滑动平均模型,对分段后的异常数据组中的非连续异常或缺失的数据进行修复或填充,具体包括:
根据所述非连续异常或缺失的数据创建时序集合;
根据所述时序集合中各室内外环境数据与所述非连续异常或缺失的数据之间时间距离,对所述时序集合中各室内外环境数据进行赋权;
根据权重平均值进行修复或填充。
本发明还提供了一种环境数据修复/填充系统,所述系统包括:
数据获取模块,用于获取不同时刻的室内外环境数据;所述室内外环境数据包括多个属性的环境数据;
绘制模块,用于基于ORIGIN软件,绘制不同属性的室内外环境数据的箱形图;
异常数据组确定模块,用于根据所述箱形图确定异常数据组;所述异常数据组表示不同时刻的室内外环境数据中的异常数据;
删除模块,用于采用忽略元组法,将所述异常数据组中的连续异常或缺失的多属性数据删除,得到处理后的异常数据组;所述连续异常或缺失的多属性数据为连续异常或缺失时间超过第一预设时间的多于1个属性的数据;
第一修复/填充模块,用于采用距离加权的KNN算法,对连续异常或缺失的单一属性数据进行修复或填充;所述连续异常或缺失的单一属性数据为连续异常或缺失时间超过第一预设时间,但不超过第二预设时间的单一属性数据;
分段模块,用于对处理后的异常数据组进行分段;
第二修复/填充模块,用于采用改进的指数加权滑动平均模型,对分段后的异常数据组中的非连续异常或缺失的数据进行修复或填充;
整合模块,用于整合修复或填充好的数据。
可选的,所述异常数据组确定模块具体包括:
判断单元,用于判断室内外环境数据是否超出所述箱形图的上边缘和下边缘;
确定单元,用于当室内外环境数据超出所述箱形图的上边缘和下边缘时,确定所述室内外环境数据为异常数据。
可选的,所述第一修复/填充模块具体包括:
计算单元,用于计算所述连续异常或缺失的单一属性数据与完好数据之间的欧氏距离;
筛选单元,用于筛选出与所述连续异常或缺失的单一属性数据之间的欧式距离最近的完好数据;
第一修复/填充单元,用于根据筛选出的完好数据的属性值进行修复或填充。
可选的,所述第二修复/填充模块具体包括:
创建单元,用于根据所述非连续异常或缺失的数据创建时序集合;
赋权单元,用于根据所述时序集合中各室内外环境数据与所述非连续异常或缺失的数据之间时间距离,对所述时序集合中各室内外环境数据进行赋权;
第二修复/填充单元,用于根据权重平均值进行修复或填充。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明基于室内外环境参数的规律及特点,针对采集数据中存在的不同情况的数据异常问题、不同情况的数据缺失问题,提出了有效、适用的修复、填充方法,形成.体系。基于该方法体系,可系统性、分门别类地解决大数据平台中室内、外环境监测数据中不同情况的数据缺失、数据异常等问题,对提高数据质量、保障数据挖掘质量及效率具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例环境数据修复/填充方法的流程图;
图2为本发明实施例箱形图的示意图;
图3为本发明实施例各属性环境参数的示意图;
图4为本发明实施例多属性的连续异常或缺失数据示意图;
图5为本发明实施例单一属性的数据连续异常或缺失示意图;
图6为本发明实施例对处理后的异常数据组进行分段示意图;
图7为本发明实施例某属性非连续异常或缺失情况示意图;
图8为本发明实施例时序集合示意图;
图9为本发明实施例环境数据修复/填充系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种环境数据修复/填充方法及系统,可系统性、分门别类地解决大数据平台中室内、外环境监测数据中不同情况的数据缺失、数据异常等问题,对提高数据质量、保障数据挖掘质量及效率具有重要意义。
本发明体系主要用以对大数据平台中的海量室内外环境数据的异常值进行自动修复、缺失位置进行自动填充。该方法体系具有普适性、高效性,可系统性、分门别类地解决室内外环境数据中的各种数据缺失、数据异常问题。
将数据中的全部缺失、异常情况划分为:多属性的数据连续异常或缺失情况(多个属性的数据连续异常或缺失时间超过a min,即≥a min),单一属性的数据连续异常或缺失情况(某单一属性数据连续异常或缺失超过a min但不超过b min,即a min≤数据连续异常或缺失时间≤b min,且其他属性完好),某属性的数据非连续异常或缺失情况(某属性数据未形成连续a min的异常或缺失情况,即数据连续异常或缺失时间<amin,与其他属性无关)。
需注意的是,以下数据处理过程是基于已识别出异常、缺失数据的情况下进行的,即本发明体系是用于对数据异常值进行修复、对缺失数据进行自动填充。程序采用MATLAB语言编写,整个数据处理过程在MATLAB中实现。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,一种环境数据修复/填充方法包括以下步骤:
步骤101:获取不同时刻的室内外环境数据;所述室内外环境数据包括多个属性的环境数据。
步骤102:基于ORIGIN软件,绘制不同属性的室内外环境数据的箱形图。
步骤103:根据所述箱形图确定异常数据组;所述异常数据组表示不同时刻的室内外环境数据中的异常数据。判断室内外环境数据是否超出所述箱形图的上边缘和下边缘;若是,则确定所述室内外环境数据为异常数据。
如图2所示,将超出图中上边缘(即>Q3+IQR,IQR=Q3-Q1)和下边缘(<Q1-IQR)的数据判定为该属性的异常数据,将原数据中的异常数据用“NaN”替代。
异常数据组(矩阵)如图3所示,行为不同的数据采集时刻(由上至下按时间顺序排列),列为各属性环境参数(属性的排布无需区分先后顺序)。
步骤104:采用忽略元组法,将所述异常数据组中的连续异常或缺失的多属性数据删除,得到处理后的异常数据组;所述连续异常或缺失的多属性数据为连续异常或缺失时间超过第一预设时间的多于1个属性的数据。
采用忽略元组的方法,将矩阵中的多属性的连续异常或缺失数据(多于1个属性的数据连续异常、缺失时间超过a min,即≥a min)位置上的“NaN”(如图4所示,图中t为采样时间间隔)进行直接删除处理。这是由于此时数据缺失维度较多、缺失量较大、缺失时间较长,该时间段内的实际环境情况已无从知晓,因此,采用填充方法对数据进行处理已不可靠。时长a的数值可由用户根据研究的实际需求自行确定,程序中默认60min。通过步骤104,可以保留下来完整数据和具有修复或填充意义的数据。
步骤105:采用距离加权的KNN算法,对连续异常或缺失的单一属性数据进行修复或填充;所述连续异常或缺失的单一属性数据为连续异常或缺失时间超过第一预设时间,但不超过第二预设时间的单一属性数据。
采用距离加权的KNN算法,对由单一属性的数据连续异常或缺失(某单一属性数据连续异常或缺失超过amin但不超过b min,即a min≤数据连续异常或缺失时间≤b min,且其他属性完好)形成的“NaN”(如图5所示)进行修复或填充。时长a的数值已确定,时长b的数值可由用户根据研究的实际需求自行确定,程序中默认180min。
基于距离加权的KNN算法对“NaN”位置自动修复或填充的具体方法如下:
1)基于欧氏距离(式1),分别计算具有缺失属性的样本与其余各完好样本间的欧式距离,以图5为例,若有连续d个样本的属性h缺失,则以属性h缺失了的样本xe为例,计算样本xe与某一完好样本xf间的欧氏距离,如式2所示;
Figure BDA0002508565090000071
式中disted——欧式距离函数;
xi,xj——任意2个样本,1≤i,j≤n,其中,n为样本的总数;
u——属性,m为样本属性的总数;
x,x——分别指样本xi(样本是多属性的,即多维的)的u属性,样本xj的u属性
Figure BDA0002508565090000072
其中,disted——欧式距离函数;
xe——含有缺失属性h的样本;
xf——完好样本;
u——样本数据的某个属性,m为样本属性的总数。
x——样本xe的u属性;
x——样本xf样本的u属性;
h——样本xe的缺失属性。
基于欧式距离由小到大的顺序对其余样本进行排序,筛选出与样本xe欧氏距离最近的k个完好样本(k值可由用户根据实际需求自行指定,本程序默认设置k=3);
3)统计这k个完好样本h属性的数值,计算这k个数值的加权平均值作为对缺失样本xe的h属性,即“NaN”位置的填充结果y。加权平均值的赋权及具体计算方法如式3所示。
Figure BDA0002508565090000081
式中xe——含有缺失属性h的样本;
xfg——完好样本;
hg——完好样本属性h的数值。
步骤106:对处理后的异常数据组进行分段。
在步骤104对多属性连续“NaN”进行删除的基础上,以删除数据的所在位置作为分界,将其前后的数据进行分段(如图6所示),若步骤103中有n处多属性连续“NaN”,则此处将步骤103中处理后保留的数据分为(n-1)段,再对各段数据分别进行步骤105进行处理。
步骤107:采用改进的指数加权滑动平均模型,对分段后的异常数据组中的非连续异常或缺失的数据进行修复或填充。
基于步骤106,采用改进的指数加权滑动平均模型,分别对每一段数据中的某属性非连续异常或缺失情况(某属性数据未形成连续a min的异常或缺失情况,即数据连续异常或缺失时间<a min,与其他属性无关)形成的“NaN”(如图7所示)进行修复或填充。
该方法不限制数据中“NaN”的个数,也无需考虑其他属性的数据是否完整,程序在自动排除步骤104、步骤105中的连续异常或缺失后即可对此种非连续情况进行处理。其中,时长a的数值已在步骤103中确定,程序中默认为60min。同时,用户需根据其研究的实际采样情况,自行输入采样间隔t min(即矩阵中前后两行数据采集相隔的时间)。此外,用户可自行指定p值,即想要参考“NaN”位置前、后邻近的p×t min时段内的该属性数值来对“NaN”位置进行填充,程序中默认设置p=3(p设置越大,则模型鲁棒性越好,p设置越小,则越逼近“NaN”时刻的真值)。
该方法对“NaN”位置的自动修复或填充的方法如下:
1)创建以某一“NaN”为中心、跨度为(2×p×t min)的该属性时序集合(如图8所示);
2)基于该时序集合内各数值距离中心“NaN”位置的时间远近,对其进行赋权,对距离“NaN”时间越近的样本赋权越大,距离“NaN”时间越远的样本赋权越小;
3)基于各样本的权重大小,计算其加权平均值作为“NaN”的填充结果,具体计算方法如式4;
4)随时间变化,时序集合随之“滑动”更新,集合内时间跨度不变,不断剔除集合中陈旧的数据(如图8所示),引入最新的数据,从而实现对各属性所有“NaN”位置的填充。
Figure BDA0002508565090000091
式中s——当前“NaN”所处的s时刻;
ys——当前属性a、s时刻处的“NaN”填充结果;
t——采样时间间隔(min);
p——用户想参考的“NaN”前或后的邻近样本个数,决定时序集合的时间跨度;
Figure BDA0002508565090000101
——对时序集合内各数值所赋的权重大小;
y——用户所参考的“NaN”前或后的邻近样本当前属性的值。
ys-it——用户所参考的当前属性、s-i˙t时刻处样本的数值;
ys+it——用户所参考的当前属性、s+i˙t时刻处样本的数值
步骤108:整合修复或填充好的数据。
本发明体系操作简便、高效。关于操作的简捷性,整个数据异常修复、缺失填充过程,仅需用户输入原始数据矩阵(粘贴即可),根据采样情况自行设定采样时间间隔t,即可自动实现后续修复、填充过程。同时,关于方法的高效性,应用该体系可同时实现数据中各种异常情况修复及各种缺失情况填充,这是由于以上步骤中的方法,对缺失、异常数据的填补均适用,且能同步进行,能够节省大量时间。
本发明体系灵活性较好,具有较强的普适性。用户可根据实际研究的具体情况,有针对性地确定数据连续、非连续的界定时间a,以及确定对单一属性连续异常或缺失数据进行处理的最长有效时间b。因此,该方法体系能随研究的特定情况进行灵活调整,从而普遍适用于室内外环境数据异常修复、缺失填充的各种研究。
本发明体系能够系统性、分门别类地解决室内、外环境采集数据中所存在的各种不同情况的数据异常修复、数据缺失填充问题。本发明体系将数据中普遍存在的各种异常、缺失情况系统性地分为:多属性数据的连续异常或缺失情况(多个维度的数据连续异常或缺失时间超过amin,即≥amin),单一属性的连续异常或缺失情况(某单一属性数据连续异常或缺失超过amin但不超过bmin,即a min≤数据连续异常或缺失时间≤b min,且其他属性完好),某属性的非连续异常或缺失情况(某属性数据未形成连续amin的异常或缺失情况,即数据连续异常或缺失时间<a min,与其他属性无关)。这种分类方法囊括了数据中可能存在的所有异常、缺失情况,同时,针对以上不同的数据异常、缺失情况,本方法体系分别采用原理不同的算法对其进行针对性的处理。
应用本发明体系的有效性、可靠性较强,且经实际案例验证,该体系对数据异常修复、缺失填充的准确性较好。针对不同室内、外环境参数的数据异常、缺失情况,本方法体系分别采用原理不同的算法对其进行针对性的有效处理:1)其一,本发明中所使用的2种异常修复、缺失填充方法,虽能够对多属性数据的连续异常或缺失进行处理,但在步骤104中,仍选择对多属性数据的连续异常或缺失形成的“NaN”进行直接删除处理,这是由于此时室内、外环境数据缺失维度较多、缺失量较大、缺失时间较长,该时间段内的实际环境情况已无从知晓。因此,为保证应用本发明体系的可靠性,对不具有处理意义的数据进行直接删除处理。2)其二,步骤105中,针对单一属性的数据连续异常或缺失情况采用了距离加权的KNN算法进行处理。这是综合考虑室内外环境参数的性质、基于距离加权的KNN算法修复及填充原理、此种问题数据的特点而确定的。由于不同属性室内、外环境参数间的关系并非完全独立,而是彼此之间具有潜在的相关关系,因此,当某一属性的室内、外环境参数出现连续异常或缺失时,可以借助其他完好属性的数据对其进行预测。KNN算法正是借助此种原理对未知的结果进行预测的。运用KNN算法进行异常修复或缺失填充,相当于参考了与缺失样本情境相近的该属性数值;而进一步,本发明采用距离加权的KNN算法进行处理,相当于参考了k个与缺失位置最相近的情境,并着重考虑了其中与缺失出现时情况最为接近的取值,根据k个完整样本与缺失样本情形相近的大小,给予对应的重视程度。因此,当存在单一属性的数据连续缺失现象时,采用KNN算法进行填充较为合理,而传统的插值方法因无法借助样本的多个属性,因而对该问题则无所适从。同时,以实际案例中建筑室外温度、室外相对湿度、室内温度、室内相对湿度为例,在一段完整的数据中随机剔除掉部分数据,形成单一属性数据的连续缺失现象,验证该算法的适用性及填充的准确性,得出用KNN算法进行修复、填充的平均绝对百分比误差(MAPE)仅为2.97%,可见对于该数据问题应用该方法的准确性、适用性较好。3)其三,步骤107中,针对某属性数据的非连续异常或缺失情况采用了改进的指数加权滑动平均模型进行处理。这是综合考虑室内外环境参数的连续性、指数加权滑动平均模型的修复及填充原理、此种问题数据的特点而决定的。室内、外环境参数均随时间变化、具有时序特征,某一时刻的室内、外环境参数是近一段时间内该参数变化结果的体现,同时也影响着后面一段时间该参数的变化。因此,室内、外环境参数的数值不可能在某一时刻发生激增和突变,而应与前后时刻相连续。对于存在非连续异常、缺失的室内外环境数据而言,缺失位置前后的数据相对完整,因此利用其前后数据与异常、缺失位置的关系,对“NaN”位置进行填补将更为、合理准确。滑动平均模型能体现出参数随时间的变化与发展,同时,本发明考虑到异常、缺失位置前后的完整数值能共同反映“NaN”位置的信息,因此,对模型加以改进,将“NaN”前后的数据同时纳入时序集合,以弥合掉时序集合内的中心“NaN”位置的激增与突变。除此以外,采用指数加权的滑动平均,对时序集合内距离“NaN”位置越远的数据赋权越小,对最近的数据赋权最大,可在逼近“NaN”位置真实数值的同时,保证模型的鲁棒性。步骤104的加入能够有效保证该方法的可靠性,使模型避免受到多属性连续缺失数据剔除导致的数据不连续性影响。以实际案例中建筑室外温度、室外相对湿度、室内温度、室内相对湿度为例,在一段完整的数据中随机剔除掉部分数据,形成某属性数据的非连续缺失现象,验证该算法的适用性及填充的准确性,得出应用该方法进行修复、填充的平均绝对百分比误差(MAPE)仅为1.56%,可见对于该数据问题应用该方法的准确性、适用性较好。
如图9所示,本发明还提供了一种环境数据修复/填充系统,所述系统包括:
数据获取模块901,用于获取不同时刻的室内外环境数据;所述室内外环境数据包括多个属性的环境数据。
绘制模块902,用于基于ORIGIN软件,绘制不同属性的室内外环境数据的箱形图。
异常数据组确定模块903,用于根据所述箱形图确定异常数据组;所述异常数据组表示不同时刻的室内外环境数据中的异常数据。
所述异常数据组确定模块903具体包括:
判断单元,用于判断室内外环境数据是否超出所述箱形图的上边缘和下边缘;
确定单元,用于当室内外环境数据超出所述箱形图的上边缘和下边缘时,确定所述室内外环境数据为异常数据。
删除模块904,用于采用忽略元组法,将所述异常数据组中的连续异常或缺失的多属性数据删除,得到处理后的异常数据组;所述连续异常或缺失的多属性数据为连续异常或缺失时间超过第一预设时间的多于1个属性的数据。
第一修复/填充模块905,用于采用距离加权的KNN算法,对连续异常或缺失的单一属性数据进行修复或填充;所述连续异常或缺失的单一属性数据为连续异常或缺失时间超过第一预设时间,但不超过第二预设时间的单一属性数据。
所述第一修复/填充模块905具体包括:
计算单元,用于计算所述连续异常或缺失的单一属性数据与完好数据之间的欧氏距离;
筛选单元,用于筛选出与所述连续异常或缺失的单一属性数据之间的欧式距离最近的完好数据;
第一修复/填充单元,用于根据筛选出的完好数据的属性值进行修复或填充。
分段模块906,用于对处理后的异常数据组进行分段。
第二修复/填充模块907,用于采用改进的指数加权滑动平均模型,对分段后的异常数据组中的非连续异常或缺失的数据进行修复或填充。
所述第二修复/填充模块907具体包括:
创建单元,用于根据所述非连续异常或缺失的数据创建时序集合;
赋权单元,用于根据所述时序集合中各室内外环境数据与所述非连续异常或缺失的数据之间时间距离,对所述时序集合中各室内外环境数据进行赋权;
第二修复/填充单元,用于根据权重平均值进行修复或填充。
整合模块908,用于整合修复或填充好的数据。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种环境数据修复/填充方法,其特征在于,所述方法包括:
获取不同时刻的室内外环境数据;所述室内外环境数据包括多个属性的环境数据;
基于ORIGIN软件,绘制不同属性的室内外环境数据的箱形图;
根据所述箱形图确定异常数据组;所述异常数据组表示不同时刻的室内外环境数据中的异常数据;
采用忽略元组法,将所述异常数据组中的连续异常或缺失的多属性数据删除,得到处理后的异常数据组;所述连续异常或缺失的多属性数据为连续异常或缺失时间超过第一预设时间的多于1个属性的数据;
采用距离加权的KNN算法,对连续异常或缺失的单一属性数据进行修复或填充;所述连续异常或缺失的单一属性数据为连续异常或缺失时间超过第一预设时间,但不超过第二预设时间的单一属性数据;
对处理后的异常数据组进行分段;
采用改进的指数加权滑动平均模型,对分段后的异常数据组中的非连续异常或缺失的数据进行修复或填充;
整合修复或填充好的数据;
其中,所述采用距离加权的KNN算法,对连续异常或缺失的单一属性数据进行修复或填充,具体包括:
计算所述连续异常或缺失的单一属性数据与完好数据之间的欧氏距离;
筛选出与所述连续异常或缺失的单一属性数据之间的欧式距离最近的完好数据;
根据筛选出的完好数据的属性值进行修复和填充;
其中,所述采用改进的指数加权滑动平均模型,对分段后的异常数据组中的非连续异常或缺失的数据进行修复或填充,具体包括:
根据所述非连续异常或缺失的数据创建时序集合;
根据所述时序集合中各室内外环境数据与所述非连续异常或缺失的数据之间时间距离,对所述时序集合中各室内外环境数据进行赋权;
根据权重平均值进行修复或填充。
2.根据权利要求1所述的环境数据修复/填充方法,其特征在于,所述根据所述箱形图确定异常数据组,具体包括:
判断室内外环境数据是否超出所述箱形图的上边缘和下边缘;
若是,则确定所述室内外环境数据为异常数据。
3.一种环境数据修复/填充系统,其特征在于,所述系统包括:
数据获取模块,用于获取不同时刻的室内外环境数据;所述室内外环境数据包括多个属性的环境数据;
绘制模块,用于基于ORIGIN软件,绘制不同属性的室内外环境数据的箱形图;
异常数据组确定模块,用于根据所述箱形图确定异常数据组;所述异常数据组表示不同时刻的室内外环境数据中的异常数据;
删除模块,用于采用忽略元组法,将所述异常数据组中的连续异常或缺失的多属性数据删除,得到处理后的异常数据组;所述连续异常或缺失的多属性数据为连续异常或缺失时间超过第一预设时间的多于1个属性的数据;
第一修复/填充模块,用于采用距离加权的KNN算法,对连续异常或缺失的单一属性数据进行修复或填充;所述连续异常或缺失的单一属性数据为连续异常或缺失时间超过第一预设时间,但不超过第二预设时间的单一属性数据;
分段模块,用于对处理后的异常数据组进行分段;
第二修复/填充模块,用于采用改进的指数加权滑动平均模型,对分段后的异常数据组中的非连续异常或缺失的数据进行修复或填充;
整合模块,用于整合修复或填充好的数据;
所述第一修复/填充模块具体包括:
计算单元,用于计算所述连续异常或缺失的单一属性数据与完好数据之间的欧氏距离;
筛选单元,用于筛选出与所述连续异常或缺失的单一属性数据之间的欧式距离最近的完好数据;
第一修复/填充单元,用于根据筛选出的完好数据的属性值进行修复或填充;
所述第二修复/填充模块具体包括:
创建单元,用于根据所述非连续异常或缺失的数据创建时序集合;
赋权单元,用于根据所述时序集合中各室内外环境数据与所述非连续异常或缺失的数据之间时间距离,对所述时序集合中各室内外环境数据进行赋权;
第二修复/填充单元,用于根据权重平均值进行修复或填充。
4.根据权利要求3所述的环境数据修复/填充系统,其特征在于,所述异常数据组确定模块具体包括:
判断单元,用于判断室内外环境数据是否超出所述箱形图的上边缘和下边缘;
确定单元,用于当室内外环境数据超出所述箱形图的上边缘和下边缘时,确定所述室内外环境数据为异常数据。
CN202010453726.6A 2020-05-26 2020-05-26 一种环境数据修复/填充方法及系统 Active CN111625525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010453726.6A CN111625525B (zh) 2020-05-26 2020-05-26 一种环境数据修复/填充方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010453726.6A CN111625525B (zh) 2020-05-26 2020-05-26 一种环境数据修复/填充方法及系统

Publications (2)

Publication Number Publication Date
CN111625525A CN111625525A (zh) 2020-09-04
CN111625525B true CN111625525B (zh) 2023-05-26

Family

ID=72260694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010453726.6A Active CN111625525B (zh) 2020-05-26 2020-05-26 一种环境数据修复/填充方法及系统

Country Status (1)

Country Link
CN (1) CN111625525B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925778B (zh) * 2021-02-25 2023-01-06 山东大学 一种电热冷综合能源系统数据处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225486A (zh) * 2015-10-09 2016-01-06 哈尔滨工业大学深圳研究生院 填补缺失浮动车数据的方法及系统
GB201617022D0 (en) * 2015-10-09 2016-11-23 Fisher Rosemount Systems Inc Distributed industrial performance monitoring and analytics platform
CN106407464A (zh) * 2016-10-12 2017-02-15 南京航空航天大学 一种基于knn的改进缺失数据填补算法
CN106844781A (zh) * 2017-03-10 2017-06-13 广州视源电子科技股份有限公司 数据处理的方法及装置
CN109508743A (zh) * 2018-11-13 2019-03-22 大连理工大学 一种基于knn改进算法的建筑能耗监测异常数据的修复方法
CN114281809A (zh) * 2021-12-22 2022-04-05 杭州电子科技大学 一种多源异构数据清洗方法及装置
CN115145900A (zh) * 2022-06-30 2022-10-04 南京林业大学 一种电动汽车动力电池大数据清洗方法
CN115545790A (zh) * 2022-10-20 2022-12-30 北京宽客进化科技有限公司 价格数据预测方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294246A1 (en) * 2014-04-10 2015-10-15 International Business Machines Corporation Selecting optimal training data set for service contract prediction

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225486A (zh) * 2015-10-09 2016-01-06 哈尔滨工业大学深圳研究生院 填补缺失浮动车数据的方法及系统
GB201617022D0 (en) * 2015-10-09 2016-11-23 Fisher Rosemount Systems Inc Distributed industrial performance monitoring and analytics platform
CN106407464A (zh) * 2016-10-12 2017-02-15 南京航空航天大学 一种基于knn的改进缺失数据填补算法
CN106844781A (zh) * 2017-03-10 2017-06-13 广州视源电子科技股份有限公司 数据处理的方法及装置
CN109508743A (zh) * 2018-11-13 2019-03-22 大连理工大学 一种基于knn改进算法的建筑能耗监测异常数据的修复方法
CN114281809A (zh) * 2021-12-22 2022-04-05 杭州电子科技大学 一种多源异构数据清洗方法及装置
CN115145900A (zh) * 2022-06-30 2022-10-04 南京林业大学 一种电动汽车动力电池大数据清洗方法
CN115545790A (zh) * 2022-10-20 2022-12-30 北京宽客进化科技有限公司 价格数据预测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭裕安 ; 翦俊 ; .城市道路交通流实时数据质量控制技术.现代交通技术.(第01期),全文. *

Also Published As

Publication number Publication date
CN111625525A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN106059492B (zh) 基于功率预测的光伏组件阴影故障类型判定方法
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
CN106250905B (zh) 一种结合高校建筑结构特征的实时能耗异常检测方法
CN112528519A (zh) 发动机质量预警服务的方法、系统、可读介质和电子设备
CN110335168B (zh) 基于gru优化用电信息采集终端故障预测模型的方法及系统
CN108921301A (zh) 一种基于自学习的机器学习模型更新方法及系统
CN108038044A (zh) 一种面向连续被监测对象的异常检测方法
CN113887616A (zh) 一种epg连接数的实时异常检测系统及方法
CN113205203A (zh) 基于cnn-lstm的建筑能耗预测方法和系统
WO2021103823A1 (zh) 模型更新系统、模型更新方法及相关设备
CN111176953A (zh) 一种异常检测及其模型训练方法、计算机设备和存储介质
CN117078048A (zh) 基于数字孪生的智慧城市资源管理方法及系统
CN115018315A (zh) 一种供热异常的检测方法、装置、电子设备及存储介质
CN116383773A (zh) 基于自适应预测区间的数据中心能效异常检测方法、系统和介质
CN111625525B (zh) 一种环境数据修复/填充方法及系统
CN115766125A (zh) 一种基于lstm和生成对抗网络的网络流量预测方法
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及系统
CN114548493A (zh) 一种电能表电流过载预测方法与系统
CN110222098A (zh) 基于流数据聚类算法的电力大数据流异常检测
CN113408659A (zh) 一种基于数据挖掘的建筑能耗集成分析方法
CN113726559B (zh) 基于人工智能网络安全分析预警系统
CN107977727B (zh) 一种基于社会发展和气候因素预测光缆网阻断概率的方法
US20220243347A1 (en) Determination method and determination apparatus for conversion efficiency of hydrogen production by wind-solar hybrid electrolysis of water
CN114356900A (zh) 一种电力数据异常检测方法、装置、设备及介质
CN112561153A (zh) 一种基于模型集成的景区人群聚集预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant