CN115859198A

CN115859198A - 一种扬尘监测数据异常检测方法

Info

Publication number: CN115859198A
Application number: CN202211143709.8A
Authority: CN
Inventors: 龚习炜; 仵丹丹; 陈铭; 李明; 丰景春; 马佳佳; 王龙宝; 徐淑芳; 薛松
Original assignee: Nanjing Urban Construction Management Group Co ltd; Hohai University HHU
Current assignee: Nanjing Urban Construction Management Group Co ltd; Hohai University HHU
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-03-28

Abstract

本发明公开了一种扬尘监测数据异常检测方法，涉及计算机技术领域，获取施工扬尘数据并判断扬尘数据的异常类型；基于扬尘数据异常类型构建数据集；构建集成学习模型，包括：数据集的划分，将数据集划分为带有标记的训练数据集和测试数据集；BP神经网络包括输入层，中间层和输出层，基分类器作为BP神经网络中的输入层，构建集成学习模型；将带有标记的训练数据集输入集成学习模型进行训练；将待检测的施工扬尘数据输入训练后的集成学习模型判断施工扬尘数据是否异常；本发明提供了一种检测施工扬尘数据异常的模型，能够有效识别并检测出施工扬尘数据中的异常数据，为提升施工扬尘数据质量、改善施工扬尘管理困难现状提供有力支持。

Description

一种扬尘监测数据异常检测方法

技术领域

本发明涉及计算机技术领域，具体涉及一种扬尘监测数据异常检测方法。

背景技术

大多数异常检测方法将大部分数据定义为是正常数据，把偏离大部分数据的数据称为离群、奇异、异常，在数据质量较好的情况下异常检测效果好，但是对于当前施工扬尘数据质量整体较差、异常频率不确定的情况，常规异常检测方法的适用性不强。

举例说明，如果一个项目的扬尘数据的异常情况较多，使用基于距离的算法去进行异常检测，由于异常数据较多，彼此之间“距离”很近，难以有效检测出异常情况，甚至会产生将异常视为正常的极端结果；并且，当前针对施工扬尘数据异常的研究较少并且深度不足，缺乏成体系的施工扬尘数据异常类型知识以及解决方法。

因此，需要分析施工扬尘数据异常类型，在此基础上构建数据异常检测模型，针对性解决施工扬尘数据异常问题。为此提出一种扬尘监测数据异常检测方法以解决以上问题。

发明内容

针对现有技术的不足，本发明提供了一种扬尘监测数据异常检测方法，通过识别并确定施工扬尘数据异常类型，明确数据异常特征，构建异常检测模型，针对性解决施工扬尘数据异常检测问题，这样可以实现施工扬尘数据异常自动化检测功能。

为实现以上目的，本发明通过以下技术方案予以实现：

一种扬尘监测数据异常检测方法，包括以下步骤：

获取施工扬尘数据并判断扬尘数据的异常类型；

基于扬尘数据异常类型构建数据集并进行数据处理和标记；

构建集成学习模型；其具体包括：

数据集的划分，将数据集划分为带有标记的训练数据集和测试数据集；

BP神经网络包括输入层，中间层和输出层；

基分类器作为BP神经网络中的输入层，构建集成学习模型；所述基分类器包括支持向量机，K-近邻模型，逻辑回归模型，CART树模型，XGBoost模型；

将带有标记的训练数据集输入集成学习模型进行训练；

将待检测的施工扬尘数据输入训练后的所述集成学习模型，判断施工扬尘数据是否异常。

进一步地，所述数据的处理包括数据清洗，冗余数据处理，缺失数据处理，分段处理，标准化处理和特征提取。

进一步地，所述冗余数据处理过程具体包括：

按分钟对数据集进行冗余统计；

对同一时刻的冗余点进行取均值处理；

将均值和前后两个时点的数据进行比较，若取均值处理超过前后两个时点均值的100％，则按缺失值处理；若没超过100％则用冗余点的均值填补；其处理规则为：

其中，n代表当前时刻的冗余数，x_t为数据按照每分钟1条采集。

进一步地，所述缺失数据处理具体包括：

按分钟对数据集进行缺失统计，若当前分钟的数据记录数小于1则记为缺失；采用相邻两点的均值取填补缺失值，即

如果t+1时刻没有数据，则采用

依次对数据集进行缺失填补。

进一步地，所述分段处理过程具体包括：

采用固定窗口方法，按窗口为60对PM10时间序列进行分段处理，其中窗口为截取时间序列的长短。

进一步地，所述特征提取过程具体包括：基于统计特征对数据进行降维处理。

进一步地，所述施工扬尘数据的异常类型包括：固定值异常，固定范围波动异常，向上跃升异常，向下骤减异常和剧烈波动异常。

进一步地，所述输入层有五个神经元，分别是支持向量机y1，K-近邻模型 y2，逻辑回归模型y3，CART树模型y4，XGBoost模型y5；所述中间层有三个神经元，分别是权重w1,权重w2和权重w3；所述输出层有一个神经元为最优结果y0；其中所述输入层中的五个神经元对输入的数据集分别进行运算,将运算后的结果分别与所述中间层中的权重w1,权重w2和权重w3进行相乘，选择出相乘后的最优结果y0。

本发明提供了一种扬尘监测数据异常检测方法，具备以下有益效果：

本发明提供了一种检测施工扬尘数据异常的模型，能够有效识别并检测出施工扬尘数据中的异常数据，为提升施工扬尘数据质量、改善施工扬尘管理困难现状提供有力支持。

附图说明

图1集成学习模型结构示意图；

图2基于BP神经网络的集成学习模型训练损失函数变化过程示意图；

图3施工扬尘数据的异常类型为固定值异常的示意图；

图4施工扬尘数据的异常类型为固定范围波动异常a的示意图；

图5施工扬尘数据的异常类型为固定范围波动异常b的示意图；

图6施工扬尘数据的异常类型为向上跃升异常的示意图；

图7施工扬尘数据的异常类型为向下骤减异常的示意图；

图8施工扬尘数据的异常类型为剧烈波动异常的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在建设工程施工扬尘数据异常检测方法中，主要包含如下功能：

对施工扬尘数据进行处理；

对处理后的施工扬尘数据序列进行异常检测；

输出施工扬尘数据序列异常与否的判断结果。

建设工程施工扬尘数据异常检测模型结构如图1所示，具体包含3个功能部分：

1数据获取

使用MySQL Workbench 8.0进行数据库连接和施工扬尘数据获取。主要步骤包括：数据库连接、数据查询与数据导出，具体操作如下：

1.1数据库连接

监管平台给出开放的数据库连接，包括Connection Name、Hostname、Port、Username、Password等，通过开放的端口及账户密码连接该市建设工程施工扬尘数据库，查询一定时间段内的项目施工扬尘检测情况。

1.2数据查询

选择某一时间段内某个项目的施工扬尘数据，通过MySQL条件查询操作，按项目分别查询时间处于t1到t2间的施工扬尘数据，

SELECT*FROM TABLE

WHERE xmid＝’待检测项目id’AND t2≥get_time≥t1。

1.3数据导出

将条件查询获得的数据导出，以项目为单位进行存储，获得对应的csv文件，即某项目对应时间内的施工扬尘PM10数据。

2数据处理；

采集的施工扬尘数据会由于种种原因表现出缺失、冗余、错误等问题，如果不处理会给后续的数据挖掘过程造成很大影响，为减少对模型的影响，需要预先进行数据预处理，主要包括错误数据修正、冗余数据处理、多余属性处理、缺失数据处理等，具体如下：

2.1数据清洗

需要预先对错误数据进行清洗，比较典型的错误数据包括以下几种类型：数据格式错误，应当为整数的数据出现了浮点数或字符串；多值错误，一个字段里出现了多个数值；编码错误，如用ANSI编码UTF-8的数据；逻辑错误，如地区类型数据中出现了天气这种非地区数据。由于网络、传输、存储等环节均存在可变因素，导致错误数据情况，此类数据必须进行修正或删除；以扬尘数据为例，说明数据清洗过程；

if type(data)not in(int,float)：

Delete。

2.2冗余数据处理

施工扬尘监测数据按照每分钟1条采集，本文按分钟对数据集进行冗余统计，当前分钟的数据记录数大于1则记为冗余，一分钟可能存在不止一条冗余数据，为了兼顾冗余的情况和时间序列上下文的一致性，本文对同一时刻的冗余点进行取均值处理，再把均值和前后两个时点的数据进行比较，如果取均值处理超过前后两个时点均值的100％，则按缺失值处理，如果没超过100％则用冗余点的均值填补，规则如下：

其中，n代表当前时刻的冗余数。

2.3缺失数据处理

施工扬尘监测数据按照每分钟1条采集，该检测方法按分钟对数据集进行缺失统计，当前分钟的数据记录数小于1则记为缺失；处理缺失的方法有很多，鉴于扬尘数据是有时间关系的数据，也就是说正常情况下偏差相邻时间点偏差不大，在这里采用相邻两点的均值取填补缺失值，即

如果t+1时刻没有数据，则采用/>

依次对数据集进行缺失填补。

2.4分段处理

采用固定窗口方法，按窗口为60对PM10时间序列进行分段处理，其中窗口指的是截取时间序列的长短，步长指的是移动距离；采用固定窗口为60，步长为60对时间序列进行分段处理；分段处理函数cutline如下：

2.5标准化处理

标准化处理能在一定程度上消除量纲带来的差异，所以很多模型运算都会使用标准化处理，z-score标准化方法因其优秀的标准化性能和简单的处理方法被许多学者使用，在这里使用z-score方法；

定义标准化函数ZscoreNormalization:

def ZscoreNormalization(x):

x＝(x-np.mean(x))/np.std(x)

return x。

2.6特征提取

考虑施工扬尘作为时间序列的属性，基于统计特征对数据进行降维处理。

具体来说，在这里选择均值、标准差、最大值、最小值、极差、众数、25％分位点、50％分位点、75％分位点共计9种统计特征对施工扬尘数据进行降维处理，将预处理后的施工扬尘数据从60维降到9维；各统计特征提取对应的Excel 函数如下表所示的Excel统计特征函数；

函数名	作用
		SUM(B2:BI2)/60	求均值
STDEV.P(B2:BI2)	求标准差
		MAX(B2:BI2)	求最大值
MIN(B2:BI2)	求最小值
		MAX(B2:BI2)-MIN(B2:BI2)	求极差
MODE(B2:BI2)	求众数
		QUARTILE(B2:BI2,1)	求25％分位点
QUARTILE(B2:BI2,2)	求50％分位点
		QUARTILE(B2:BI2,3)	求75％分位点

其中B2:BI2表示施工扬尘数据序列的起始位置。

3数据异常检测

通过可视化分析与专家调查确定的5类施工扬尘数据异常类型，包括：固定值异常、固定范围波动异常、向上跃升异常、向下骤减异常和剧烈波动异常， 5类施工扬尘数据异常类型示意图如图3至图8所示，根据5类施工扬尘数据异常类型构建训练数据集，并进行数据处理与数据标注，使用有标签的训练样本数据集对模型进行训练，训练过程大致如下。

3.1数据集划分

将数据集划分为训练数据集和测试数据集：

data_train,data_test＝train_test_split(data,test_size＝0.4,random_state＝4)#参数可调节。

3.2基分类器训练

(1)支持向量机预测

from sklearn.svm import SVC

clf＝SVC()#核函数可调节

clf.fit(data_train[:,1:],data_train[:,0].astype('int'))

(2)K-近邻模型训练

from sklearn.neighbors import KNeighborsClassifier

K＝3#初始赋值，可调节

clf＝KNeighborsClassifier(n_neighbors＝K)

clf.fit(data_train[:,1:],data_train[:,0].astype('int'))

(3)逻辑回归模型训练

from sklearn.linear_model import LogisticRegression

clf＝LogisticRegression()

clf＝clf.fit(data_train[:,1:],data_train[:,0].astype('int'))

(4)CART树模型训练

from sklearn import tree

clf＝tree.DecisionTreeClassifier(max_depth＝2)#参数可调节

clf.fit(data_train[:,1:],data_train[:,0].astype('int'))

(5)XGBoost模型训练

import xgboost as xgb

from xgboost importXGBClassifier

clf＝XGBClassifier(max_depth＝2,learning_rate＝0.1,n_estimators＝400)#参数可调节

clf.fit(data_train[:,1:],data_train[:,0].astype('int'))。

3.3集成学习模型

使用BP神经网络进行基分类器集成，构建建设工程施工扬尘数据异常检测集成学习模型。BP神经网络模型是一种反向传播误差的神经网络模型，在训练过程中把误差反馈给神经元，从而调整隐藏层参数，寻得最优的神经网络结构；鉴于有5个基分类器，构建三层BP神经网络，输入层有5个神经元，中间层有 3个神经元，输出层有1个神经元，使用Sigmoid()激活函数，将数据集划分为训练数据集和测试数据集，使用训练集对BP神经网络进行训练，初始设置迭代轮数为100，可视化迭代过程如图2所示，可见损失函数train_loss随着迭代不断下降，且当迭代次数为50以后，loss接近收敛水平，为防止过拟合，选择50 作为迭代轮数，将训练次数调整为50，再次对集成模型进行训练；

当迭代次数为50时，F1＝0.92682,acc＝0.90833，基于BP神经网络策略的集成学习模型在测试集上的准确率为90.833％，模型检测异常的准确率高、泛化能力强，性能明显优于基分类器，模型构建完毕；

如图1所示，输入层的5个神经元分别是支持向量机y1，K-近邻模型y2，逻辑回归模型y3，CART树模型y4，XGBoost模型y5，中间层的3个神经元分别是权重w1,权重w2和权重w3，输出层的1个神经元为最优结果y0，将数据集T1输入输入层进行运算，将运算后的结果分别与中间层的权重w1,权重w2 和权重w3进行相乘，选出相乘后的最优结果输出。

4输出异常检测结果

将待检测的施工扬尘数据序列输入模型，经过数据处理、基分类器预测和集成学习模型预测三个环节，输出异常判断的结果，异常为1，非异常为0。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种扬尘监测数据异常检测方法，其特征在于，包括以下步骤：

获取施工扬尘数据并判断扬尘数据的异常类型；

基于扬尘数据异常类型构建数据集并进行数据处理和标记；

构建集成学习模型；其具体包括：

BP神经网络包括输入层，中间层和输出层；

基分类器作为BP神经网络中的输入层，构建集成学习模型；所述基分类器包括支持向量机，K-近邻模型，逻辑回归模型，CART树模型和XGBoost模型；

将带有标记的训练数据集输入集成学习模型进行训练；

2.根据权利要求1所述的一种扬尘监测数据异常检测方法，其特征在于，

所述数据的处理包括数据清洗，冗余数据处理，缺失数据处理，分段处理，标准化处理和特征提取。

3.根据权利要求2所述的一种扬尘监测数据异常检测方法，其特征在于，

所述冗余数据处理过程具体包括：

按分钟对数据集进行冗余统计；

对同一时刻的冗余点进行取均值处理；

4.根据权利要求2所述的一种扬尘监测数据异常检测方法，其特征在于，

所述缺失数据处理过程具体包括：

如果t+1时刻没有数据，则采用/>

依次对数据集进行缺失填补。

5.根据权利要求2所述的一种扬尘监测数据异常检测方法，其特征在于，

所述分段处理采用固定窗口方法，按窗口为60对PM10时间序列进行分段处理。

6.根据权利要求2所述的一种扬尘监测数据异常检测方法，其特征在于，

所述特征提取利用统计特征对数据进行降维处理。

7.根据权利要求1所述的一种扬尘监测数据异常检测方法，其特征在于，

所述施工扬尘数据的异常类型包括：固定值异常，固定范围波动异常，向上跃升异常，向下骤减异常和剧烈波动异常。

8.根据权利要求1所述的一种扬尘监测数据异常检测方法，其特征在于，

所述输入层有五个神经元，分别是支持向量机y1，K-近邻模型y2，逻辑回归模型y3，CART树模型y4，XGBoost模型y5；所述中间层有三个神经元，分别是权重w1,权重w2和权重w3；所述输出层有一个神经元为最优结果y0；其中所述输入层中的五个神经元对输入的数据集分别进行运算,将运算后的结果分别与所述中间层中的权重w1,权重w2和权重w3进行相乘，选出相乘后的最优结果y0。