CN106844292A - 基于快速傅里叶变换的室内空气数据异常值平滑方法 - Google Patents

基于快速傅里叶变换的室内空气数据异常值平滑方法 Download PDF

Info

Publication number
CN106844292A
CN106844292A CN201710020836.1A CN201710020836A CN106844292A CN 106844292 A CN106844292 A CN 106844292A CN 201710020836 A CN201710020836 A CN 201710020836A CN 106844292 A CN106844292 A CN 106844292A
Authority
CN
China
Prior art keywords
data
fast fourier
fft
fourier transform
curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710020836.1A
Other languages
English (en)
Inventor
孙贺江
徐崇
刘俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710020836.1A priority Critical patent/CN106844292A/zh
Publication of CN106844292A publication Critical patent/CN106844292A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm

Abstract

本发明涉及室内空气数据异常值平滑方法,为将基于快速傅里叶变换的平滑数据异常跳变值算法写成一个通用性的自定义函数,方便其他可能的使用者直接调用简单的函数。本发明,基于快速傅里叶变换的室内空气数据异常值平滑方法,步骤如下:1)将原数据曲线进行快速傅里叶变换,将时域数据转化到频域;2)设置提取频率的阈值;3)求残差曲线的平均值和标准差;4)遍历所有的残差数据,利用拉依达准则,挑选出所有超出限制的数据;5)获取4中选中的数据的标号,并将对应标号中的原数据即跳变数据替换成跳变数据两端的正常数据之间的插值,达到平滑的目的。本发明主要应用于室内空气数据异常值平滑场合。

Description

基于快速傅里叶变换的室内空气数据异常值平滑方法
技术领域
本方法能对随时间变化的空气参数(温度,湿度,甲醛浓度,PM2.5浓度,二氧化碳浓度等)可以对数据中的异常跳变值进行去除,同时保证与人行为变化有关的数据大幅度变动被保留。本方法属于特定数据异常值平滑的领域。具体讲,涉及基于快速傅里叶变换的室内空气数据异常值平滑方法。
背景技术
在对数据异常值进行剔除并平滑的方法中,最常见的是对数据直接使用C4.5决策树进行分类判定[2],但是该算法易将因为人行为变化导致的数据大幅度变动值和异常跳变值一并被分类成异常值;其次CD(Curve Description)法也被用于对异常值的分类[3],此方法以相邻的数值的变化量和变化率为阈值进行判定,然而对于本专利要解决的问题而言,它和决策树法有着相似的缺陷,而且在程序实现上也比决策树法复杂;国外也使用噪声数据过滤法(Filters)识别并剔除异常值,比较典型的是Ensemble Filter(EF)[4]和Iterative-Partitioning Filter(IPF)[5],这两种方法都比较有名,但是都比较复杂,得对其额外设置多个参数[1],这对本技术所面对的问题是没有必要的。
发明内容
为克服现有技术的不足,本发明旨在本方法旨在将基于快速傅里叶变换的平滑数据异常跳变值算法写成一个通用性的自定义函数,方便其他可能的使用者直接调用简单的函数。本发明采用的技术方案是,基于快速傅里叶变换的室内空气数据异常值平滑方法,步骤如下:
1)将原数据曲线进行快速傅里叶变换,将时域数据转化到频域,得到原数据的离散频谱图。
2)设置提取频率的阈值,将所有的大于这个阈值的频谱曲线保留,对于小于这个阈值的频谱曲线,将其幅度清零。再将处理结束的频谱曲线反快速傅里叶变换变回时域曲线,所得的时域曲线就是想要获得的残差曲线。
3)求残差曲线的平均值和标准差。
4)遍历所有的残差数据,利用拉依达准则,挑选出所有超出限制的数据:
5)获取4中选中的数据的标号,并将对应标号中的原数据即跳变数据替换成跳变数据两端的正常数据之间的插值,达到平滑的目的。
拉依达准则说:所有超出三倍标准差范围之内的数据都被剔除,即:去掉所有的x,若x满足|x-μ|<3σ,其中x是数据点,μ是所有数据的平均值。
本发明的特点及有益效果是:
本发明利用拉依达准则,进行了数据处理,针状的高频数据跳变都被从原数据中分离了出来;将残差曲线根据拉依达准则判定,去掉了不符合判定的跳变数据,然后在原始数据曲线上用正常数据两端的插值替代已经去掉的跳变数据,即得到了经过数据异常值平滑的数据曲线。
附图说明:
图1带有数据跳变的实测甲醛随时间的变化数据曲线。
图2是对原数据曲线进行快速傅里叶变换之后的频率强度曲线。
图3是对图2曲线去掉低频成分的频率强度曲线,即残差曲线数据的频域曲线。
图4是对图3中的曲线进行反快速傅里叶变换得到的时域曲线,即残差曲线,也称噪声曲线。
图5是对图4中的残差曲线根据拉依达准则判定,去掉不符合判定的跳变数据,然后在原始数据曲线上用正常数据两端的插值替代已经去掉的跳变数据,即得到了经过数据异常值平滑的数据曲线。
图6本发明流程图。
具体实施方式
本方法旨在将将基于快速傅里叶变换的平滑数据异常跳变值算法写成一个通用性的自定义函数,方便其他可能的使用者直接调用简单的函数。
使用局部加权回归剔除并平滑室内空气数据跳变值的流程:
1.将原数据曲线进行快速傅里叶变换,将时域数据转化到频域,得到原数据的离散频谱图。
2.设置提取频率的阈值,将所有的大于这个阈值的频谱曲线保留,对于小于这个阈值的频谱曲线,将其幅度清零。再将处理结束的频谱曲线反快速傅里叶变换变回时域曲线,所得的时域曲线就是想要获得的残差曲线。
3.求残差曲线的平均值和标准差。
4.遍历所有的残差数据,利用拉依达准则,挑选出所有超出限制的数据:
拉依达准则说:所有超出三倍标准差范围之内的数据都被剔除。即:去掉所有的x,若x满足|x-μ|<3σ,其中x是数据点,μ是所有数据的平均值。因为一次性处理的数据量较大,远超过了拉依达准则的使用数据下限:100个数据。所以这里采取较为简便的拉依达准则。
5.获取4中选中的数据的标号,并将对应标号中的原数据(跳变数据)替换成跳变数据两端的正常数据之间的插值,达到平滑的目的。
本算法的实施步骤如下。
1)自定义函数的命名,输入变量和输出变量。
输入变量有一个:为“原始数据”,以列向量的形式存在,原始数据的个数即向量的维数,数据个数必须为2的整数次幂,比如2048(211),4096(212).
输出变量有一个:为“经过异常数据平滑算法之后的结果数据”,结果数据是和原始数据的维度相同的列向量,并填回excel表格。
2)将原数据进行基于快速傅里叶变换的数据异常值平滑流程。
下面结合附图和具体实施方式,进一步详细说明本发明。
这里以实测甲醛随时间的变化数据曲线为实例(见图1):取含有2048个数据的数据向量。
图1带有数据跳变的实测甲醛随时间的变化数据曲线。
图2是对原数据曲线进行快速傅里叶变换之后的频率强度曲线,此曲线比较对称,曲线两端的对应的横坐标频率最低,越向曲线中央频率越高;
图3是对图2曲线去掉低频成分的频率强度曲线,即残差曲线数据的频域曲线;
图4是对图3中的曲线进行反快速傅里叶变换得到的时域曲线,即残差曲线,也称噪声曲线,由此可见,针状的高频数据跳变都被从原数据中分离了出来。
图5是对图4中的残差曲线根据拉依达准则判定,去掉不符合判定的跳变数据,然后在原始数据曲线上用正常数据两端的插值替代已经去掉的跳变数据,即得到了经过数据异常值平滑的数据曲线。
图6本发明流程图。
参考文献:
[1]Salvador García,Julian Luengo,Tutorial on practical tips of themost influential data preprocessing algorithms in data mining.Knowledge-BasedSystems,2016;98:1-29..
[2]J.R.Quinlan,C4.5:Programs for Machine Learning,Morgan KaufmannPub-lishers Inc.,1993.[3]Hao Zhou;Lifeng Qiao,Ph.D.;Yi Jiang,Ph.D.;HejiangSun,Ph.D.;Qingyan Chen,Ph.D.Recognition of air-conditioner operation fromindoor air temperature and relative humidity by a data mining approach.Energyand Buildings,2016;111:233-241.
[4]C.E.Brodley,M.A.Friedl,Identifying mislabeled training data,J.Artif.Intell.Res.1999;11:131–167.
[5]T.M.Khoshgoftaar,P.Rebours,Improving software quality predictionby noise filtering techniques,J.Comput.Sci.Technol.2007;22:387–396。

Claims (2)

1.一种基于快速傅里叶变换的室内空气数据异常值平滑方法,其特征是,步骤如下:
1)将原数据曲线进行快速傅里叶变换,将时域数据转化到频域,得到原数据的离散频谱图。
2)设置提取频率的阈值,将所有的大于这个阈值的频谱曲线保留,对于小于这个阈值的频谱曲线,将其幅度清零。再将处理结束的频谱曲线反快速傅里叶变换变回时域曲线,所得的时域曲线就是想要获得的残差曲线;
3)求残差曲线的平均值和标准差;
4)遍历所有的残差数据,利用拉依达准则,挑选出所有超出限制的数据;
5)获取4中选中的数据的标号,并将对应标号中的原数据即跳变数据替换成跳变数据两端的正常数据之间的插值,达到平滑的目的。
2.如权利要求1所述的基于快速傅里叶变换的室内空气数据异常值平滑方法,其特征是,拉依达准则说:所有超出三倍标准差范围之内的数据都被剔除,即:去掉所有的x,若x满足|x-μ|<3σ,其中x是数据点,μ是所有数据的平均值。
CN201710020836.1A 2017-01-12 2017-01-12 基于快速傅里叶变换的室内空气数据异常值平滑方法 Pending CN106844292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710020836.1A CN106844292A (zh) 2017-01-12 2017-01-12 基于快速傅里叶变换的室内空气数据异常值平滑方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710020836.1A CN106844292A (zh) 2017-01-12 2017-01-12 基于快速傅里叶变换的室内空气数据异常值平滑方法

Publications (1)

Publication Number Publication Date
CN106844292A true CN106844292A (zh) 2017-06-13

Family

ID=59123199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710020836.1A Pending CN106844292A (zh) 2017-01-12 2017-01-12 基于快速傅里叶变换的室内空气数据异常值平滑方法

Country Status (1)

Country Link
CN (1) CN106844292A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109341544A (zh) * 2018-11-15 2019-02-15 上海航天精密机械研究所 一种激光位移传感器测距数值优化方法
CN109978715A (zh) * 2017-12-28 2019-07-05 北京南瑞电研华源电力技术有限公司 用户侧分布式电源数据约简方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631133A (zh) * 2015-12-28 2016-06-01 哈尔滨工业大学 基于频域平滑算法的chirp扫频信号处理方法
CN106112697A (zh) * 2016-07-15 2016-11-16 西安交通大学 一种基于3σ准则的铣削颤振自动报警阈值设定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631133A (zh) * 2015-12-28 2016-06-01 哈尔滨工业大学 基于频域平滑算法的chirp扫频信号处理方法
CN106112697A (zh) * 2016-07-15 2016-11-16 西安交通大学 一种基于3σ准则的铣削颤振自动报警阈值设定方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAO ZHOU ET AL.: "Recognition of air‐conditioner operation from indoor air temperature and relative humidity by a data mining approach", 《 ENERGY AND BUILDINGS》 *
刘宗宝 等: "测量数据剔除粗大误差与平滑处理的一种算法", 《PROCEEDINGS OF THE 31ST CHINESE CONTROL CONFERENCE》 *
白林 等: "快速傅里叶变换在地球化学数据降噪中的应用", 《科学技术与工程》 *
陈天江 等: "快速傅里叶变换在喇曼光谱信号噪声平滑中的应用", 《云南大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978715A (zh) * 2017-12-28 2019-07-05 北京南瑞电研华源电力技术有限公司 用户侧分布式电源数据约简方法及装置
CN109341544A (zh) * 2018-11-15 2019-02-15 上海航天精密机械研究所 一种激光位移传感器测距数值优化方法

Similar Documents

Publication Publication Date Title
CN107358965B (zh) 一种睡眠鼾声分类检测方法及系统
US7899625B2 (en) Method and system for robust classification strategy for cancer detection from mass spectrometry data
CN109934301B (zh) 一种电力负荷聚类分析方法、装置和设备
CN106844292A (zh) 基于快速傅里叶变换的室内空气数据异常值平滑方法
CN108399434B (zh) 基于特征提取的高维时间序列数据的分析预测方法
CN104951787A (zh) 一种src框架下判别字典学习的电能质量扰动识别方法
CN109374568B (zh) 一种利用太赫兹时域光谱的样品识别方法
Egarter et al. Complexity of power draws for load disaggregation
CN113639999A (zh) 变转速下滚动轴承的故障诊断方法、系统、介质及设备
CN116842405A (zh) 一种电力负荷数据聚类方法、系统、设备及存储介质
CN114861729A (zh) 无线传感器网络中时间序列异常的检测方法及装置
Daunys et al. Comparison of computer vision models in application to pollen classification using light scattering
Dieleman et al. Accelerating sparse restricted boltzmann machine training using non-gaussianity measures
CN106473703B (zh) 睡眠状态分类器的训练方法和系统
CN106874651A (zh) 基于局部加权回归的室内空气数据预处理方法
CN110413774A (zh) 一种基于遗传算法的信息分类方法
CN110517226A (zh) 基于双边滤波的多特征纹理图像融合的烟梗区域提取方法
CN114861810A (zh) 煤气化装置工艺诊断方法及系统
CN110455503B (zh) 一种紫外线管寿命监测方法及装置
CN112200228A (zh) 一种基于二维卷积神经网络的癫痫发作状态识别方法
WO2023216172A1 (zh) 家禽声纹辨识方法及系统
CN110516659A (zh) 滚珠丝杠退化阶段识别方法、装置、设备及存储介质
CN110647915A (zh) 一种用于高维数据一致性分析的动态模式判断方法
Nazeer et al. Prediction of Malignancy of Brain Cancer on SEER Dataset using Random Forest, SVM, and Naive Bayes Classifiers
JP2020534614A (ja) 深層学習アルゴリズムを使用した入力データの評価

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170613