CN115859198A - 一种扬尘监测数据异常检测方法 - Google Patents

一种扬尘监测数据异常检测方法 Download PDF

Info

Publication number
CN115859198A
CN115859198A CN202211143709.8A CN202211143709A CN115859198A CN 115859198 A CN115859198 A CN 115859198A CN 202211143709 A CN202211143709 A CN 202211143709A CN 115859198 A CN115859198 A CN 115859198A
Authority
CN
China
Prior art keywords
data
dust
construction
data set
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211143709.8A
Other languages
English (en)
Inventor
龚习炜
仵丹丹
陈铭
李明
丰景春
马佳佳
王龙宝
徐淑芳
薛松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Urban Construction Management Group Co ltd
Hohai University HHU
Original Assignee
Nanjing Urban Construction Management Group Co ltd
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Urban Construction Management Group Co ltd, Hohai University HHU filed Critical Nanjing Urban Construction Management Group Co ltd
Priority to CN202211143709.8A priority Critical patent/CN115859198A/zh
Publication of CN115859198A publication Critical patent/CN115859198A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种扬尘监测数据异常检测方法,涉及计算机技术领域,获取施工扬尘数据并判断扬尘数据的异常类型;基于扬尘数据异常类型构建数据集;构建集成学习模型,包括:数据集的划分,将数据集划分为带有标记的训练数据集和测试数据集;BP神经网络包括输入层,中间层和输出层,基分类器作为BP神经网络中的输入层,构建集成学习模型;将带有标记的训练数据集输入集成学习模型进行训练;将待检测的施工扬尘数据输入训练后的集成学习模型判断施工扬尘数据是否异常;本发明提供了一种检测施工扬尘数据异常的模型,能够有效识别并检测出施工扬尘数据中的异常数据,为提升施工扬尘数据质量、改善施工扬尘管理困难现状提供有力支持。

Description

一种扬尘监测数据异常检测方法
技术领域
本发明涉及计算机技术领域,具体涉及一种扬尘监测数据异常检测方法。
背景技术
大多数异常检测方法将大部分数据定义为是正常数据,把偏离大部分数据 的数据称为离群、奇异、异常,在数据质量较好的情况下异常检测效果好,但 是对于当前施工扬尘数据质量整体较差、异常频率不确定的情况,常规异常检 测方法的适用性不强。
举例说明,如果一个项目的扬尘数据的异常情况较多,使用基于距离的算 法去进行异常检测,由于异常数据较多,彼此之间“距离”很近,难以有效检 测出异常情况,甚至会产生将异常视为正常的极端结果;并且,当前针对施工 扬尘数据异常的研究较少并且深度不足,缺乏成体系的施工扬尘数据异常类型 知识以及解决方法。
因此,需要分析施工扬尘数据异常类型,在此基础上构建数据异常检测模 型,针对性解决施工扬尘数据异常问题。为此提出一种扬尘监测数据异常检测 方法以解决以上问题。
发明内容
针对现有技术的不足,本发明提供了一种扬尘监测数据异常检测方法,通 过识别并确定施工扬尘数据异常类型,明确数据异常特征,构建异常检测模型, 针对性解决施工扬尘数据异常检测问题,这样可以实现施工扬尘数据异常自动 化检测功能。
为实现以上目的,本发明通过以下技术方案予以实现:
一种扬尘监测数据异常检测方法,包括以下步骤:
获取施工扬尘数据并判断扬尘数据的异常类型;
基于扬尘数据异常类型构建数据集并进行数据处理和标记;
构建集成学习模型;其具体包括:
数据集的划分,将数据集划分为带有标记的训练数据集和测试数据集;
BP神经网络包括输入层,中间层和输出层;
基分类器作为BP神经网络中的输入层,构建集成学习模型;所述基分类器 包括支持向量机,K-近邻模型,逻辑回归模型,CART树模型,XGBoost模型;
将带有标记的训练数据集输入集成学习模型进行训练;
将待检测的施工扬尘数据输入训练后的所述集成学习模型,判断施工扬尘 数据是否异常。
进一步地,所述数据的处理包括数据清洗,冗余数据处理,缺失数据处理, 分段处理,标准化处理和特征提取。
进一步地,所述冗余数据处理过程具体包括:
按分钟对数据集进行冗余统计;
对同一时刻的冗余点进行取均值处理;
将均值和前后两个时点的数据进行比较,若取均值处理超过前后两个时点 均值的100%,则按缺失值处理;若没超过100%则用冗余点的均值填补;其处 理规则为:
Figure RE-GDA0003975723460000041
其中,n代表当前时刻的冗余数,xt为数据按照每分钟1条采集。
进一步地,所述缺失数据处理具体包括:
按分钟对数据集进行缺失统计,若当前分钟的数据记录数小于1则记为缺 失;采用相邻两点的均值取填补缺失值,即
Figure BDA0003854734700000022
如果t+1时刻没有数据, 则采用
Figure BDA0003854734700000023
依次对数据集进行缺失填补。
进一步地,所述分段处理过程具体包括:
采用固定窗口方法,按窗口为60对PM10时间序列进行分段处理,其中窗 口为截取时间序列的长短。
进一步地,所述特征提取过程具体包括:基于统计特征对数据进行降维处 理。
进一步地,所述施工扬尘数据的异常类型包括:固定值异常,固定范围波 动异常,向上跃升异常,向下骤减异常和剧烈波动异常。
进一步地,所述输入层有五个神经元,分别是支持向量机y1,K-近邻模型 y2,逻辑回归模型y3,CART树模型y4,XGBoost模型y5;所述中间层有三个 神经元,分别是权重w1,权重w2和权重w3;所述输出层有一个神经元为最优 结果y0;其中所述输入层中的五个神经元对输入的数据集分别进行运算,将运算 后的结果分别与所述中间层中的权重w1,权重w2和权重w3进行相乘,选择出 相乘后的最优结果y0。
本发明提供了一种扬尘监测数据异常检测方法,具备以下有益效果:
本发明提供了一种检测施工扬尘数据异常的模型,能够有效识别并检测出 施工扬尘数据中的异常数据,为提升施工扬尘数据质量、改善施工扬尘管理困 难现状提供有力支持。
附图说明
图1集成学习模型结构示意图;
图2基于BP神经网络的集成学习模型训练损失函数变化过程示意图;
图3施工扬尘数据的异常类型为固定值异常的示意图;
图4施工扬尘数据的异常类型为固定范围波动异常a的示意图;
图5施工扬尘数据的异常类型为固定范围波动异常b的示意图;
图6施工扬尘数据的异常类型为向上跃升异常的示意图;
图7施工扬尘数据的异常类型为向下骤减异常的示意图;
图8施工扬尘数据的异常类型为剧烈波动异常的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。
在建设工程施工扬尘数据异常检测方法中,主要包含如下功能:
对施工扬尘数据进行处理;
对处理后的施工扬尘数据序列进行异常检测;
输出施工扬尘数据序列异常与否的判断结果。
建设工程施工扬尘数据异常检测模型结构如图1所示,具体包含3个功能 部分:
1数据获取
使用MySQL Workbench 8.0进行数据库连接和施工扬尘数据获取。主要步 骤包括:数据库连接、数据查询与数据导出,具体操作如下:
1.1数据库连接
监管平台给出开放的数据库连接,包括Connection Name、Hostname、Port、Username、Password等,通过开放的端口及账户密码连接该市建设工程施工扬 尘数据库,查询一定时间段内的项目施工扬尘检测情况。
1.2数据查询
选择某一时间段内某个项目的施工扬尘数据,通过MySQL条件查询操作, 按项目分别查询时间处于t1到t2间的施工扬尘数据,
SELECT*FROM TABLE
WHERE xmid=’待检测项目id’AND t2≥get_time≥t1。
1.3数据导出
将条件查询获得的数据导出,以项目为单位进行存储,获得对应的csv文 件,即某项目对应时间内的施工扬尘PM10数据。
2数据处理;
采集的施工扬尘数据会由于种种原因表现出缺失、冗余、错误等问题,如 果不处理会给后续的数据挖掘过程造成很大影响,为减少对模型的影响,需要 预先进行数据预处理,主要包括错误数据修正、冗余数据处理、多余属性处理、 缺失数据处理等,具体如下:
2.1数据清洗
需要预先对错误数据进行清洗,比较典型的错误数据包括以下几种类型: 数据格式错误,应当为整数的数据出现了浮点数或字符串;多值错误,一个字 段里出现了多个数值;编码错误,如用ANSI编码UTF-8的数据;逻辑错误, 如地区类型数据中出现了天气这种非地区数据。由于网络、传输、存储等环节 均存在可变因素,导致错误数据情况,此类数据必须进行修正或删除;以扬尘 数据为例,说明数据清洗过程;
if type(data)not in(int,float):
Delete。
2.2冗余数据处理
施工扬尘监测数据按照每分钟1条采集,本文按分钟对数据集进行冗余统 计,当前分钟的数据记录数大于1则记为冗余,一分钟可能存在不止一条冗余 数据,为了兼顾冗余的情况和时间序列上下文的一致性,本文对同一时刻的冗 余点进行取均值处理,再把均值和前后两个时点的数据进行比较,如果取均值 处理超过前后两个时点均值的100%,则按缺失值处理,如果没超过100%则用 冗余点的均值填补,规则如下:
Figure RE-GDA0003975723460000071
其中,n代表当前时刻的冗余数。
2.3缺失数据处理
施工扬尘监测数据按照每分钟1条采集,该检测方法按分钟对数据集进行 缺失统计,当前分钟的数据记录数小于1则记为缺失;处理缺失的方法有很多, 鉴于扬尘数据是有时间关系的数据,也就是说正常情况下偏差相邻时间点偏差 不大,在这里采用相邻两点的均值取填补缺失值,即
Figure BDA0003854734700000052
如果t+1时刻 没有数据,则采用/>
Figure BDA0003854734700000061
依次对数据集进行缺失填补。
2.4分段处理
采用固定窗口方法,按窗口为60对PM10时间序列进行分段处理,其中窗 口指的是截取时间序列的长短,步长指的是移动距离;采用固定窗口为60,步 长为60对时间序列进行分段处理;分段处理函数cutline如下:
Figure BDA0003854734700000062
2.5标准化处理
标准化处理能在一定程度上消除量纲带来的差异,所以很多模型运算都会 使用标准化处理,z-score标准化方法因其优秀的标准化性能和简单的处理方法 被许多学者使用,在这里使用z-score方法;
定义标准化函数ZscoreNormalization:
def ZscoreNormalization(x):
x=(x-np.mean(x))/np.std(x)
return x。
2.6特征提取
考虑施工扬尘作为时间序列的属性,基于统计特征对数据进行降维处理。
具体来说,在这里选择均值、标准差、最大值、最小值、极差、众数、25% 分位点、50%分位点、75%分位点共计9种统计特征对施工扬尘数据进行降维处 理,将预处理后的施工扬尘数据从60维降到9维;各统计特征提取对应的Excel 函数如下表所示的Excel统计特征函数;
函数名 作用
SUM(B2:BI2)/60 求均值
STDEV.P(B2:BI2) 求标准差
MAX(B2:BI2) 求最大值
MIN(B2:BI2) 求最小值
MAX(B2:BI2)-MIN(B2:BI2) 求极差
MODE(B2:BI2) 求众数
QUARTILE(B2:BI2,1) 求25%分位点
QUARTILE(B2:BI2,2) 求50%分位点
QUARTILE(B2:BI2,3) 求75%分位点
其中B2:BI2表示施工扬尘数据序列的起始位置。
3数据异常检测
通过可视化分析与专家调查确定的5类施工扬尘数据异常类型,包括:固 定值异常、固定范围波动异常、向上跃升异常、向下骤减异常和剧烈波动异常, 5类施工扬尘数据异常类型示意图如图3至图8所示,根据5类施工扬尘数据 异常类型构建训练数据集,并进行数据处理与数据标注,使用有标签的训练样 本数据集对模型进行训练,训练过程大致如下。
3.1数据集划分
将数据集划分为训练数据集和测试数据集:
data_train,data_test=train_test_split(data,test_size=0.4,random_state=4)#参 数可调节。
3.2基分类器训练
(1)支持向量机预测
from sklearn.svm import SVC
clf=SVC()#核函数可调节
clf.fit(data_train[:,1:],data_train[:,0].astype('int'))
(2)K-近邻模型训练
from sklearn.neighbors import KNeighborsClassifier
K=3#初始赋值,可调节
clf=KNeighborsClassifier(n_neighbors=K)
clf.fit(data_train[:,1:],data_train[:,0].astype('int'))
(3)逻辑回归模型训练
from sklearn.linear_model import LogisticRegression
clf=LogisticRegression()
clf=clf.fit(data_train[:,1:],data_train[:,0].astype('int'))
(4)CART树模型训练
from sklearn import tree
clf=tree.DecisionTreeClassifier(max_depth=2)#参数可调节
clf.fit(data_train[:,1:],data_train[:,0].astype('int'))
(5)XGBoost模型训练
import xgboost as xgb
from xgboost importXGBClassifier
clf=XGBClassifier(max_depth=2,learning_rate=0.1,n_estimators=400)#参 数可调节
clf.fit(data_train[:,1:],data_train[:,0].astype('int'))。
3.3集成学习模型
使用BP神经网络进行基分类器集成,构建建设工程施工扬尘数据异常检测 集成学习模型。BP神经网络模型是一种反向传播误差的神经网络模型,在训练 过程中把误差反馈给神经元,从而调整隐藏层参数,寻得最优的神经网络结构; 鉴于有5个基分类器,构建三层BP神经网络,输入层有5个神经元,中间层有 3个神经元,输出层有1个神经元,使用Sigmoid()激活函数,将数据集划分为 训练数据集和测试数据集,使用训练集对BP神经网络进行训练,初始设置迭代 轮数为100,可视化迭代过程如图2所示,可见损失函数train_loss随着迭代不 断下降,且当迭代次数为50以后,loss接近收敛水平,为防止过拟合,选择50 作为迭代轮数,将训练次数调整为50,再次对集成模型进行训练;
当迭代次数为50时,F1=0.92682,acc=0.90833,基于BP神经网络策略的 集成学习模型在测试集上的准确率为90.833%,模型检测异常的准确率高、泛 化能力强,性能明显优于基分类器,模型构建完毕;
如图1所示,输入层的5个神经元分别是支持向量机y1,K-近邻模型y2, 逻辑回归模型y3,CART树模型y4,XGBoost模型y5,中间层的3个神经元分 别是权重w1,权重w2和权重w3,输出层的1个神经元为最优结果y0,将数据 集T1输入输入层进行运算,将运算后的结果分别与中间层的权重w1,权重w2 和权重w3进行相乘,选出相乘后的最优结果输出。
4输出异常检测结果
将待检测的施工扬尘数据序列输入模型,经过数据处理、基分类器预测和 集成学习模型预测三个环节,输出异常判断的结果,异常为1,非异常为0。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本 发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护 范围之内。

Claims (8)

1.一种扬尘监测数据异常检测方法,其特征在于,包括以下步骤:
获取施工扬尘数据并判断扬尘数据的异常类型;
基于扬尘数据异常类型构建数据集并进行数据处理和标记;
构建集成学习模型;其具体包括:
数据集的划分,将数据集划分为带有标记的训练数据集和测试数据集;
BP神经网络包括输入层,中间层和输出层;
基分类器作为BP神经网络中的输入层,构建集成学习模型;所述基分类器包括支持向量机,K-近邻模型,逻辑回归模型,CART树模型和XGBoost模型;
将带有标记的训练数据集输入集成学习模型进行训练;
将待检测的施工扬尘数据输入训练后的所述集成学习模型,判断施工扬尘数据是否异常。
2.根据权利要求1所述的一种扬尘监测数据异常检测方法,其特征在于,
所述数据的处理包括数据清洗,冗余数据处理,缺失数据处理,分段处理,标准化处理和特征提取。
3.根据权利要求2所述的一种扬尘监测数据异常检测方法,其特征在于,
所述冗余数据处理过程具体包括:
按分钟对数据集进行冗余统计;
对同一时刻的冗余点进行取均值处理;
将均值和前后两个时点的数据进行比较,若取均值处理超过前后两个时点均值的100%,则按缺失值处理;若没超过100%则用冗余点的均值填补;其处理规则为:
Figure RE-FDA0003975723450000011
其中,n代表当前时刻的冗余数,xt为数据按照每分钟1条采集。
4.根据权利要求2所述的一种扬尘监测数据异常检测方法,其特征在于,
所述缺失数据处理过程具体包括:
按分钟对数据集进行缺失统计,若当前分钟的数据记录数小于1则记为缺失;采用相邻两点的均值取填补缺失值,即
Figure FDA0003854734690000021
如果t+1时刻没有数据,则采用/>
Figure FDA0003854734690000022
依次对数据集进行缺失填补。
5.根据权利要求2所述的一种扬尘监测数据异常检测方法,其特征在于,
所述分段处理采用固定窗口方法,按窗口为60对PM10时间序列进行分段处理。
6.根据权利要求2所述的一种扬尘监测数据异常检测方法,其特征在于,
所述特征提取利用统计特征对数据进行降维处理。
7.根据权利要求1所述的一种扬尘监测数据异常检测方法,其特征在于,
所述施工扬尘数据的异常类型包括:固定值异常,固定范围波动异常,向上跃升异常,向下骤减异常和剧烈波动异常。
8.根据权利要求1所述的一种扬尘监测数据异常检测方法,其特征在于,
所述输入层有五个神经元,分别是支持向量机y1,K-近邻模型y2,逻辑回归模型y3,CART树模型y4,XGBoost模型y5;所述中间层有三个神经元,分别是权重w1,权重w2和权重w3;所述输出层有一个神经元为最优结果y0;其中所述输入层中的五个神经元对输入的数据集分别进行运算,将运算后的结果分别与所述中间层中的权重w1,权重w2和权重w3进行相乘,选出相乘后的最优结果y0。
CN202211143709.8A 2022-09-20 2022-09-20 一种扬尘监测数据异常检测方法 Pending CN115859198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211143709.8A CN115859198A (zh) 2022-09-20 2022-09-20 一种扬尘监测数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211143709.8A CN115859198A (zh) 2022-09-20 2022-09-20 一种扬尘监测数据异常检测方法

Publications (1)

Publication Number Publication Date
CN115859198A true CN115859198A (zh) 2023-03-28

Family

ID=85661033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211143709.8A Pending CN115859198A (zh) 2022-09-20 2022-09-20 一种扬尘监测数据异常检测方法

Country Status (1)

Country Link
CN (1) CN115859198A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702082A (zh) * 2023-08-09 2023-09-05 深圳市泽信智能装备有限公司 一种微米级粉料无尘装料系统的粉尘监测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702082A (zh) * 2023-08-09 2023-09-05 深圳市泽信智能装备有限公司 一种微米级粉料无尘装料系统的粉尘监测方法
CN116702082B (zh) * 2023-08-09 2023-10-27 深圳市泽信智能装备有限公司 一种微米级粉料无尘装料系统的粉尘监测方法

Similar Documents

Publication Publication Date Title
CN111061620B (zh) 一种混合策略的服务器异常智能检测方法及检测系统
CN113240011B (zh) 一种深度学习驱动的异常识别与修复方法及智能化系统
CN113568774B (zh) 使用无监督深度神经网络的多维时序数据实时异常检测方法
CN113064873B (zh) 一种高召回率的日志异常检测方法
CN112907222B (zh) 一种多源异构电网运监业务数据融合方法
CN115859198A (zh) 一种扬尘监测数据异常检测方法
CN116361059B (zh) 一种银行业务异常根因诊断方法及诊断系统
CN117349782B (zh) 智能数据预警决策树分析方法及系统
CN114580934A (zh) 基于无监督异常检测的食品检测数据风险的早预警方法
CN117421684A (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
CN115021679A (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN112905671A (zh) 时间序列异常处理方法、装置、电子设备及存储介质
CN111680107A (zh) 一种基于人工智能和区块链的金融预测系统
CN115719283A (zh) 一种智能化会计管理系统
CN115758908A (zh) 一种基于深度学习的报警泛滥情况下的报警在线预测方法
CN115576981A (zh) 一种基于有监督算法与无监督算法相结合的异常检测方法
CN111309718A (zh) 一种配网电压数据缺失填补方法及装置
CN114169998A (zh) 一种金融大数据分析与挖掘算法
CN114020811A (zh) 数据异常检测方法及其装置、电子设备
CN110399278B (zh) 基于数据中心异常监控的告警融合系统及方法
CN112039907A (zh) 一种基于物联网终端评测平台的自动测试方法及系统
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN116541222A (zh) 一种硬盘状态数据生成方法、系统、设备及介质
CN110489852A (zh) 提高风电系统数据质量的方法及装置
KR102486463B1 (ko) 열화에 따른 시계열 데이터를 이용한 실시간 이상 감지 방법 및 그를 위한 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination