CN117113264A - 一种实时在线的污水厂溶解氧仪表异常检测的方法 - Google Patents
一种实时在线的污水厂溶解氧仪表异常检测的方法 Download PDFInfo
- Publication number
- CN117113264A CN117113264A CN202311378064.0A CN202311378064A CN117113264A CN 117113264 A CN117113264 A CN 117113264A CN 202311378064 A CN202311378064 A CN 202311378064A CN 117113264 A CN117113264 A CN 117113264A
- Authority
- CN
- China
- Prior art keywords
- data
- dissolved oxygen
- real
- oxygen meter
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 title claims abstract description 68
- 239000001301 oxygen Substances 0.000 title claims abstract description 68
- 229910052760 oxygen Inorganic materials 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000010865 sewage Substances 0.000 title claims abstract description 36
- 230000005856 abnormality Effects 0.000 title claims abstract description 31
- 238000012544 monitoring process Methods 0.000 claims abstract description 67
- 230000002159 abnormal effect Effects 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 11
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 10
- 239000010802 sludge Substances 0.000 claims abstract description 9
- 238000005273 aeration Methods 0.000 claims abstract description 8
- XKMRRTOUMJRJIA-UHFFFAOYSA-N ammonia nh3 Chemical compound N.N XKMRRTOUMJRJIA-UHFFFAOYSA-N 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 13
- 238000002790 cross-validation Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000001590 oxidative effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000002351 wastewater Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W10/00—Technologies for wastewater treatment
- Y02W10/10—Biological treatment of water, waste water, or sewage
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Computation (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Activated Sludge Processes (AREA)
Abstract
本发明公开了一种实时在线的污水厂溶解氧仪表异常检测的方法,针对污水处理过程中影响溶解氧仪表监测结果的相关数据包括鼓风机曝气量、好氧池中溶解氧浓度、活性污泥浓度、氨氮浓度和进水流量进行在线监测,随后针对在线监测数据具有相关性的特点,利用交叉验证结合多元高斯分布模型更可靠的发现异常数据,进而高效地识别污水厂溶解氧仪表异常时间点,及时发现和解决问题,确保污水处理过程的安全、高效运行。在多元高斯分布模型基础上引入交叉验证方法,可以更好地模拟异常检测模型在未知数据上的泛化能力,从而提供对模型真实性能更可靠。
Description
技术领域
本发明属于污水数据处理技术领域,具体涉及一种实时在线的污水厂溶解氧仪表异常检测的方法。
背景技术
随着工业化和城市化的不断发展,污水处理成为了保护环境和人类健康的重要任务。污水处理厂是处理和净化废水的关键设施,其中溶解氧仪表在监测和控制污水处理过程中起着至关重要的作用。溶解氧浓度是衡量水体中活性生物体氧化能力的重要指标,对于污水处理过程的有效运行至关重要。
然而,由于现实中存在多种因素的干扰,溶解氧仪表在实时在线监测中常常会出现异常情况。这些异常可能包括仪表的故障、传感器的变性、供氧系统的问题等等。如果不及时检测和解决这些异常,将会导致污水处理过程的质量下降,甚至可能引发设备故障和环境污染。
现有的异常检测技术包括:
1.基于统计方法:包括均值-方差方法、基于概率分布的方法(如高斯混合模型)、基于离群因子(Outlier Factor)的方法等;
2.基于距离或相似度:包括离群点相似度、基于聚类的异常检测方法等,这类方法通常使用样本之间的距离或相似度来衡量异常程度;
3.基于机器学习:包括基于监督学习的方法(如支持向量机、决策树、随机森林等)和基于无监督学习的方法(如聚类、主成分分析等);
4.基于深度学习:近年来,深度学习在异常检测中得到广泛应用,如自编码器、变分自编码器、生成对抗网络等;
5.基于规则或模型:这类方法基于预定义的规则或模型,如知识库、专家系统等。
溶解氧仪表异常检测方法在保障污水处理厂运行稳定、提高处理效率、保护环境和公众健康等方面具有重要的意义。由于人工智能理论和统计学理论的发展,可以将异常检测技术应用于污水处理厂的仪表监控系统中。
发明内容
本发明的目的在于提供一种实时在线的污水厂溶解氧仪表异常检测的方法,可以高效地识别污水厂溶解氧仪表异常时间点,实现对仪表状态的实时监测和异常诊断,及时发现和解决问题,确保污水处理过程的安全、高效运行。
为达到上述目的,本发明采用的技术方案如下:
一种实时在线的污水厂溶解氧仪表异常检测的方法,包括:
S1:获取数据
选取实时在线目标时间段,获取影响溶解氧仪表监测结果的相关在线监测数据,组成溶解氧仪表异常检测的数据集;
S2:数据粗筛
对获得的影响溶解氧仪表监测结果的相关在线监测数据进行处理缺失值、平滑数据、去除离群值,获取异常值;
S3:标准化处理
通过聚类算法将经过粗筛的数据集根据实际场景聚类成多个簇,使每个簇内的数据集中各维影响溶解氧仪表监测结果的相关在线监测数据分别呈正态分布,随后分别对每个簇内的各维数据进行标准化预处理,将其转化为均值为0,方差为1的标准正态分布;
S4:异常检测
使用交叉验证的方法,将各个簇整合后划分为多个互斥的子集,选取某一个子集作为测试集,剩余的子集分别作为训练集;对上述各个训练集,分别建立多元高斯分布模型,根据业务场景设置阈值,计算测试集数据的概率密度,将计算得到的概率密度与设置的阈值比较,如果概率密度小于设置的阈值,则判断结果为异常,作为异常值,最后对各个测试集的异常值作去重处理;
S5:异常点输出,整合步骤S2和步骤S4中的异常值,作为目标时间段内数据集最终的异常值集合输出。
进一步,所述影响溶解氧仪表监测结果的相关在线监测数据包括鼓风机曝气量、好氧池中溶解氧浓度、活性污泥浓度、氨氮浓度和进水流量。
优选的,所述实时在线目标时间段为包括当前时刻前不少于1个小时的连续时间段。
优选的,全部数据集表示为:,n为全部数据集的数据维
度,表示n个影响溶解氧仪表监测结果的相关在线监测数据,每一个数
据集中的数据表示为:,m为数据集的数量。
进一步,所述处理缺失值的具体方法为:使用缺失值前后的数据点之间的单线性插值来填充缺失值;
所述单线性插值计算公式如下:
.式中:
为缺失值,
和分别为与缺失值相邻的前后值,
为缺失值对应时间点,
和分别为与缺失值相邻前后值对应的时间点。
进一步,所述平滑数据的具体方法为:设置滑动窗口的尺寸为s,前s-1个数据用原数据填充,此后每个时刻的数值为窗口包含当前时刻及其前s-1个时刻的数据的均值。
进一步,所述去除离群值的具体方法为:分别计算各维度数据的标准分数,再分别对应设定各维度数据异常值的阈值,最后将标准分数超出阈值的数值所在的数据集作为明显异常值去除;
所述各维度数据的标准分数计算公式如下:
式中:为
全部数据集X对应位置的标准分数;
为全部数据集X对应位置的原始数值。
.进一步,所述聚类算法为K-means算法,其具体操作步骤:
(1)随机选择K个对象作为初始聚类中心;
(2)根据每个数据与聚类中心的距离,将每个数据分配给离它最近的聚类中心,形成初始的K个簇;
(3)对于每个簇,计算簇内所有数据的平均值,得到新的聚类中心;
(4)将每个数据点重新分配给最近新的聚类中心,形成更新后的K个簇;
(5)重复步骤(3)和步骤(4),直到聚类中心不再改变或达到最大迭代次数;
(6)算法收敛后,每个数据点被分配到一个最终的簇中;
进一步,所述交叉验证方法的具体操作步骤:
(1)确定数据集的总样本数量m;
(2)计算每个折的样本数量,将其设为approx_fold_size = m // Z(使用整除运算符//,以确保每个折的大小相对均匀);
(3)初始化一个空列表folds,用于存储划分后的折;
(4)对整合后的标准化数据集进行随机化操作,确保每次划分折后的样本顺序都是随机的;
(5)循环遍历Z次
a. 计算当前折的开始索引start_index = i * approx_fold_size;
b. 计算当前折的结束索引end_index = (i+1) * approx_fold_size;
c. 对于最后一个折(i = Z-1),将结束索引设置为数据集的最后一个样本的索引(end_index = m-1);
d. 从标准化数据集中提取当前折的样本,将其存储在folds列表中;
(6)返回folds列表,其中包含划分后的Z个折。
本发明的技术方案中:针对影响溶解氧仪表监测结果的相关在线监测数据具有时间连续性、相关性和无监督的特点。
利用数据粗筛分别对获得的数据集中明显异常点进行识别并去除,增强监测数据的趋势性,有利于后续异常检测的准确性。
粗筛后的数据通过聚类算法进行标准化处理,因为后续需要结合多元高斯分布模型进行处理,而多元高斯分布模型是基于正态分布假设的,因此输入数据应该呈现出正态分布的形状,针对在线监测数据复杂多变,为此采用聚类方法结合标准化处理将原始数据转化成符合正态分布的数据集,用于后续异常检测。
然后,针对在线监测数据具有相关性的特点,基于多元高斯分布模型对各数据集进行异常检测,又在线监测数据具有无监督的特点,即数据集状态无标签,需根据业务经验设定异常点阈值,同时,为避免异常检测模型过拟合和欠拟合,在多元高斯分布模型基础上引入交叉验证方法,可以更好地模拟异常检测模型在未知数据上的泛化能力,从而提供对模型真实性能的更可靠估计。最后,整合粗筛异常点和深度异常点,作为目标时间段内数据集最终的异常点集合。
与现有技术相比,本发明的有益效果:
本发明针对污水处理过程中影响溶解氧仪表监测结果的相关数据包括鼓风机曝气量、好氧池中溶解氧浓度、活性污泥浓度、氨氮浓度和进水流量进行在线监测,随后针对在线监测数据具有相关性的特点,利用交叉验证结合多元高斯分布模型更可靠的发现异常数据,进而高效地识别污水厂溶解氧仪表异常时间点,及时发现和解决问题,确保污水处理过程的安全、高效运行。而现有的针对溶解氧仪表设备异常检测,更多依赖于有标签(正常/异常)的历史数据,但由于设置标签需要投入大量人力,且容易出错,实际生产数据往往是无标签的,所以很难及时、准确发现数据的异常,导致污水处理过程的质量下降。
本发明针对影响溶解氧仪表监测结果的相关在线监测数据具有时间连续性、相关性和无监督的特点,为避免异常检测模型过拟合和欠拟合,在多元高斯分布模型基础上引入交叉验证方法,可以更好地模拟异常检测模型在未知数据上的泛化能力,从而提供对模型真实性能的更可靠估计,高效地识别污水厂溶解氧仪表异常时间点,为系统运行状况诊断提供数据支撑。
附图说明
图1是本发明实施例所述方法的流程示意图;
图2是本发明实施例数据预处理前后各影响因素概率密度函数对比图;
图3是本发明实施例粗筛异常点和深度异常点图。
具体实施方式
下面结合实施例和附图对本发明做进一步说明。
以某污水厂为试点,如图1所示,本发明所述的一种实时在线的污水厂溶解氧仪表异常检测的方法,包括以下步骤:
步骤1:获取数据:获取影响溶解氧仪表监测结果的相关在线监测数据,选取目标时间段:5个小时共计3600个数据集,组成溶解氧仪表异常检测的全部数据集;
步骤2:数据粗筛:分别对各个影响溶解氧仪表监测结果的相关在线监测数据进行数据粗筛,去除明显异常值,获取异常值;
步骤3:标准化处理:通过聚类算法将经过粗筛的数据集聚类成5个簇,使每个簇内的数据集中各维影响溶解氧仪表监测结果的相关在线监测数据呈正态分布;分别对每个簇内的数据集中各维影响溶解氧仪表监测结果的相关在线监测数据进行适当的标准化预处理,将其转化为均值为0,方差为1的标准正态分布;
步骤4:异常检测:使用交叉验证的方法,将经预处理的各个簇数据集整合后划分为5个互斥的子集,选取某一个作为测试集,剩余的子集分别作为训练集;对上述各个训练集,分别建立多元高斯分布模型,根据业务场景设置合适的阈值,计算测试集数据的概率密度,将计算得到的概率密度与设置的阈值比较,如果概率密度小于设置的阈值,则判断结果为异常,获取异常值,最后对各个测试集的异常值作去重处理;
步骤5:异常点输出:整合经过数据粗筛的异常点和使用交叉验证的方法基于多元高斯分布模型检测出的异常点,作为目标数据集最终的异常点。
本发明实施例中,步骤1所述影响溶解氧仪表监测结果的相关在线监测数据包括鼓风机曝气量、好氧池中溶解氧浓度、活性污泥浓度、氨氮浓度和进水流量;
所述鼓风机曝气量、好氧池中溶解氧浓度、活性污泥浓度、氨氮浓度和进水流量的在线监测数据具有一定的相关性;
所述实时在线目标时间段为选取包括当前时刻前5个小时的连续实时在线监测数据;
所述全部数据集表示为:,n为全部数据集的数据维度,表示n个影响溶解氧仪表监测结果的相关在线监测数据,每一个数据
集中的数据表示为:,m为数据集的数量。
本发明依赖以下原理:
原理1:相同运行工况下的影响溶解氧仪表监测结果的相关在线监测数据符合多元高斯分布。即对于污水厂实际影响溶解氧仪表监测结果的相关在线监测数据,受设备精度,环境等影响,根据中心极限定理,数据误差在统计学上符合高斯分布。高斯分布概率密度函数:
其中x为观察变量,,分别为x数学期望以及方差。
多元高斯分布假设n个变量,则X的概率密度函数为:其中,,∑为变量X的协方差矩阵。
步骤1所述处理缺失值的方法为:使用缺失值前后的数据点之间的单线性插值来填充缺失值;
所述单线性插值计算公式如下:;
其中,为缺失值,和分别为缺失值的相邻前后值,为缺失值对应
时间点,和分别为缺失值的相邻前后值对应时间点;
步骤2所述平滑数据的方法为:设置滑动窗口的尺寸为12(1 min采样点数),前11个数据用原数据填充,此后每个时刻的数值为窗口包含当前时刻及其前11个时刻的数据的均值;
步骤3所述去除离群值的方法为:首先计算各维度数据的标准分数,再统一设定各维度数据异常值的阈值(本实施例设置为3),最后将标准分数超出阈值的数值所在的数据集作为明显异常值去除;
所述各维度数据的标准分数计算公式如下:
其中,为全部数据集X对应位置的标准分数。
本发明依赖的原理2:对于相同运行工况下的影响溶解氧仪表监测结果的相关在线监测数据发生不在原理1中的模型正常参数范围。这是因为对于实际生产数据,异常的发生通常概率极低。异常数据的指标往往会偏离正常数值,如偏离期望3倍标准差。如果数值仍在正常范围内,则溶解氧仪表监测结果不会有问题。
对于由于突变的运行工况(如水处理负荷突变)造成时间序列上的在线监测数据(鼓风机曝气量、好氧池中溶解氧浓度、活性污泥浓度、氨氮浓度和进水流量)分布不符合高斯分布的情形,通过聚类分析将不同工况下的数据进行聚类分割以满足后续异常检测的数据特性要求。
为此,步骤3采用K-means聚类算法对数据集进行聚类分割,其思路可以概括为以下步骤:
(1)本实施例随机选择5个初始聚类中心点(质心);
(2)根据每个数据点与聚类中心的距离,将每个数据点分配给离它最近的聚类中心,形成初始的5个簇;
(3)对于每个簇,计算所有数据点的平均值,得到新的聚类中心;
(4)将每个数据点重新分配到最近的新聚类中心,形成更新后的5个簇;
(5)重复步骤3和步骤4,直到达到最大迭代次数100;
(6)算法收敛后,每个数据点被分配到一个最终的簇中;
K-means算法的目标是最小化簇内误差平方和(SSE),即最小化每个数据点与其所属簇的聚类中心的距离之和,通过迭代更新聚类中心,K-means算法将数据点划分为不同的簇,使得簇内的数据点相似度较高,而不同簇之间的相似度较低;
所述簇内误差平方和(SSE)计算公式如下:;
其中,K为聚类簇数,为第i个簇内数据集,p为内的各个数据点,为第i个
簇内中心点;
为消除不同簇内相同维度数据集数量级差异,采用步骤3所述标准化预处理,计算公式如下:
其中,为每个簇内数据集X对应位置的标准值,为第k个簇内数据集的数
量。
步骤4所述交叉验证的方法,本实例将整合后的数据集划分为5个近似大小的折,其思路可以概括为以下步骤:
(1)确定数据集的总样本数量m为5个小时连续实时在线监测数据;
(2)计算每个折的样本数量,将其设为 approx_fold_size = m // 5(使用整除运算符 //,以确保每个折的大小相对均匀);
(3)初始化一个空列表 folds,用于存储划分后的折;
(4)对整合后的标准化数据集进行随机化操作,确保每次划分折后的样本顺序都是随机的;
(5)循环遍历5次:
a. 计算当前折的开始索引 start_index = i * approx_fold_size;
b. 计算当前折的结束索引 end_index = (i+1) * approx_fold_size;
c. 对于最后一个折(i = 4),将结束索引设置为数据集的最后一个样本的索引(end_index = m-1);
d. 从标准化数据集中提取当前折的样本,将其存储在folds列表中;
(6)返回folds列表,其中包含划分后的5个折;
交叉验证可以更好地模拟异常检测模型在未知数据上的泛化能力,从而提供对模型真实性能的更可靠估计。通过交叉验证,可以更好地避免异常检测模型过拟合和欠拟合;
所述多元高斯分布模型,其思路可以概括为以下步骤:
将不同折的训练集数据作为输入,分别计算溶解氧仪表监测结果影响因素变量对应的期望以及协方差∑;
将计算得到的,∑代入多元高斯分布函数,得到溶解氧仪表
监测结果的多元高斯分布模型f(x);
其中,;
为变量与变量的协方差,为中的任一值;
所述分别对对应的测试集进行异常检测的方法为:
对于不同折的测试集数据,根据步骤4)得到的多元高斯分布模型,计算测试集数据的概率密度,将计算得到的概率密度与异常检测阈值比较,如果概率密度小于异常检测阈值,则判断结果为异常。
高斯分布下,数据偏离均值的概率随着偏离增大而显著下降,例如,设置阈值为0.001,在一维高斯分布中即认为异常数据在统计上以0.1%的概率出现,则结合步骤c对于步骤4)得到的多元高斯分布模型,正常数据不会偏离均值的三倍标准差。
理论上的多元高斯分布模型一般直接选择阈值,通过该阈值进行异常数据的判定,即对于输入数据,在模型中出现概率低于阈值时,判定为异常。
本发明采用交叉验证的方法,不需要提前进行溶解氧仪表监测结果标注异常与否,因此需要预先设定异常发生的比例,本实例比例为0.5%。
图2是本发明实施例数据预处理前后鼓风机曝气量、好氧池中溶解氧浓度、活性污泥浓度、氨氮浓度和进水流量概率密度函数对比图,由图可见,实施例数据经聚类标准化预处理后,全部数据集中各维影响溶解氧仪表监测结果的相关在线监测数据分别呈正态分布。
图3是本发明实施例粗筛异常点和深度异常点图,粗筛异常点分别在影响溶解氧仪表监测结果的各因素曲线上标记,深度异常点在目标数据时间轴上进行异常点时间轴标记,由图可见,从各维监测数据分别看,活性污泥浓度和溶解氧浓度存在若干粗筛异常点,从各数据集综合看,存在若干深度异常点,粗筛异常点和深度异常点综合即为溶解氧仪表异常检测点。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (9)
1.一种实时在线污水厂溶解氧仪表异常检测的方法,其特征在于,包括:
S1:获取数据
选取实时在线目标时间段,获取影响溶解氧仪表监测结果的相关在线监测数据,组成溶解氧仪表异常检测的数据集;
S2:数据粗筛
对获得的影响溶解氧仪表监测结果的相关在线监测数据进行处理缺失值、平滑数据、去除离群值,获取异常值;
S3:标准化处理
通过聚类算法将经过粗筛的数据集根据实际场景聚类成多个簇,使每个簇内的数据集中各维影响溶解氧仪表监测结果的相关在线监测数据分别呈正态分布,随后分别对每个簇内的各维数据进行标准化预处理,将其转化为均值为0,方差为1的标准正态分布;
S4:异常检测
使用交叉验证的方法,将各个簇整合后划分为多个互斥的子集,选取某一个子集作为测试集,剩余的子集分别作为训练集;对上述各个训练集,分别建立多元高斯分布模型,根据业务场景设置阈值,计算测试集数据的概率密度,将计算得到的概率密度与设置的阈值比较,如果概率密度小于设置的阈值,则判断结果为异常,获取异常值,最后对各个测试集的异常值作去重处理;
S5:异常点输出
整合步骤S2和步骤S4中的异常值,作为目标时间段内数据集最终的异常值集合输出。
2.根据权利要求1所述的实时在线污水厂溶解氧仪表异常检测的方法,其特征在于,所述影响溶解氧仪表监测结果的相关在线监测数据包括鼓风机曝气量、好氧池中溶解氧浓度、活性污泥浓度、氨氮浓度和进水流量。
3.根据权利要求1所述的实时在线污水厂溶解氧仪表异常检测的方法,其特征在于,所述实时在线目标时间段为包括当前时刻前不少于1个小时的连续时间段。
4.根据权利要求1所述的实时在线污水厂溶解氧仪表异常检测的方法,其特征在于,全
部数据集表示为:,n为全部数据集的数据维度,,表示n个影响溶解氧仪表监测结果的相关在线监测数据;每个维度数
据集中的数据表示为:,m为每个维度数据集中
数据的数量。
5.根据权利要求1所述的实时在线污水厂溶解氧仪表异常检测的方法,其特征在于,所述处理缺失值的具体方法为:使用缺失值前后的数据点之间的单线性插值来填充缺失值;所述单线性插值计算公式如下:式中:
为缺失值,
和分别为与缺失值相邻的前后值,
为缺失值对应时间点,
和分别为与缺失值相邻前后值对应的时间点。
6.根据权利要求1所述的实时在线污水厂溶解氧仪表异常检测的方法,其特征在于,所述平滑数据的具体方法为:设置滑动窗口的尺寸为s,前s-1个数据用原数据填充,此后每个时刻的数值为窗口包含当前时刻及其前s-1个时刻数据的均值。
7.根据权利要求1所述的实时在线污水厂溶解氧仪表异常检测的方法,其特征在于,所述去除离群值的具体方法为:分别计算各维度数据的标准分数,再分别对应设定各维度数据异常值的阈值,最后将标准分数超出阈值的数值所在的数据集作为明显异常值去除;
所述各维度数据的标准分数计算公式如下:
式中:为全部
数据集X对应位置的标准分数;
为全部数据集X对应位置的原始数值。
8.根据权利要求1所述的实时在线污水厂溶解氧仪表异常检测的方法,其特征在于,所述聚类算法为K-means算法,其具体操作步骤包括:
(1)随机选择K个对象作为初始聚类中心;
(2)根据每个数据与聚类中心的距离,将每个数据分配给离它最近的聚类中心,形成初始的K个簇;
(3)对于每个簇,计算簇内所有数据的平均值,得到新的聚类中心;
(4)将每个数据点重新分配给最近新的聚类中心,形成更新后的K个簇;
(5)重复步骤(3)和步骤(4),直到聚类中心不再改变或达到最大迭代次数;
(6)算法收敛后,每个数据点被分配到一个最终的簇中。
9.根据权利要求1所述的实时在线的污水厂溶解氧仪表异常检测的方法,其特征在于,所述交叉验证方法的具体操作步骤:
(1)确定数据集的总样本数量m;
(2)将其随机划分成Z等份,每份形成一个折,计算每个折的样本数量approx_fold_size = m // Z;
(3)初始化一个空列表folds,用于存储划分后的折;
(4)对数据集进行随机化操作,确保每次划分折后的样本顺序都是随机的;
(5)循环遍历 Z 次
a. 计算当前折的开始索引 start_index = i * approx_fold_size;
b. 计算当前折的结束索引 end_index = (i+1) * approx_fold_size;
c. 对于最后一个折,将结束索引设置为数据集的最后一个样本的索引;
d. 从标准化数据集中提取当前折的样本,将其存储在folds列表中;
(6)返回folds列表,其中包含划分后的Z个折。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311378064.0A CN117113264B (zh) | 2023-10-24 | 2023-10-24 | 一种实时在线的污水厂溶解氧仪表异常检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311378064.0A CN117113264B (zh) | 2023-10-24 | 2023-10-24 | 一种实时在线的污水厂溶解氧仪表异常检测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117113264A true CN117113264A (zh) | 2023-11-24 |
CN117113264B CN117113264B (zh) | 2024-02-09 |
Family
ID=88806060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311378064.0A Active CN117113264B (zh) | 2023-10-24 | 2023-10-24 | 一种实时在线的污水厂溶解氧仪表异常检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117113264B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312617A (zh) * | 2023-11-29 | 2023-12-29 | 山东优控智能技术有限公司 | 基于污水数据监测的实时污水处理方法及系统 |
CN118643451A (zh) * | 2024-08-15 | 2024-09-13 | 中国水利水电第十工程局有限公司 | 一种隧洞瓦斯监测预警方法和系统 |
CN118643451B (zh) * | 2024-08-15 | 2024-10-22 | 中国水利水电第十工程局有限公司 | 一种隧洞瓦斯监测预警方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889194A (zh) * | 2021-10-14 | 2022-01-04 | 上海上实龙创智能科技股份有限公司 | 一种污水生化处理中溶解氧的预测方法 |
CN113962259A (zh) * | 2021-10-11 | 2022-01-21 | 燕山大学 | 一种燃料电池系统多模式双层故障诊断方法 |
CN114527249A (zh) * | 2022-01-17 | 2022-05-24 | 南方海洋科学与工程广东省实验室(广州) | 一种水质监测数据质量控制方法及系统 |
CN115062272A (zh) * | 2021-07-21 | 2022-09-16 | 浙江水利水电学院 | 一种水质监测数据异常识别及预警方法 |
CN115223365A (zh) * | 2022-07-15 | 2022-10-21 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 一种基于阻尼Holt模型的路网速度预测及异常识别方法 |
CN116199351A (zh) * | 2023-03-01 | 2023-06-02 | 华自科技股份有限公司 | 曝气池溶解氧仪表故障容错控制方法、装置、系统及介质 |
CN116307059A (zh) * | 2022-12-30 | 2023-06-23 | 国网河北省电力有限公司电力科学研究院 | 配电网区域故障预测模型构建方法及装置、电子设备 |
-
2023
- 2023-10-24 CN CN202311378064.0A patent/CN117113264B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115062272A (zh) * | 2021-07-21 | 2022-09-16 | 浙江水利水电学院 | 一种水质监测数据异常识别及预警方法 |
CN113962259A (zh) * | 2021-10-11 | 2022-01-21 | 燕山大学 | 一种燃料电池系统多模式双层故障诊断方法 |
CN113889194A (zh) * | 2021-10-14 | 2022-01-04 | 上海上实龙创智能科技股份有限公司 | 一种污水生化处理中溶解氧的预测方法 |
CN114527249A (zh) * | 2022-01-17 | 2022-05-24 | 南方海洋科学与工程广东省实验室(广州) | 一种水质监测数据质量控制方法及系统 |
CN115223365A (zh) * | 2022-07-15 | 2022-10-21 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 一种基于阻尼Holt模型的路网速度预测及异常识别方法 |
CN116307059A (zh) * | 2022-12-30 | 2023-06-23 | 国网河北省电力有限公司电力科学研究院 | 配电网区域故障预测模型构建方法及装置、电子设备 |
CN116199351A (zh) * | 2023-03-01 | 2023-06-02 | 华自科技股份有限公司 | 曝气池溶解氧仪表故障容错控制方法、装置、系统及介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312617A (zh) * | 2023-11-29 | 2023-12-29 | 山东优控智能技术有限公司 | 基于污水数据监测的实时污水处理方法及系统 |
CN117312617B (zh) * | 2023-11-29 | 2024-04-12 | 山东优控智能技术有限公司 | 基于污水数据监测的实时污水处理方法及系统 |
CN118643451A (zh) * | 2024-08-15 | 2024-09-13 | 中国水利水电第十工程局有限公司 | 一种隧洞瓦斯监测预警方法和系统 |
CN118643451B (zh) * | 2024-08-15 | 2024-10-22 | 中国水利水电第十工程局有限公司 | 一种隧洞瓦斯监测预警方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117113264B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117113264B (zh) | 一种实时在线的污水厂溶解氧仪表异常检测的方法 | |
CN112414694B (zh) | 基于多元状态估计技术的设备多级异常状态识别方法及装置 | |
CN112527604A (zh) | 一种基于深度学习的运维检测方法、系统、电子设备及介质 | |
CN115021679B (zh) | 一种基于多维离群点检测的光伏设备故障检测方法 | |
CN112783938B (zh) | 一种水文遥测实时数据异常检测方法 | |
CN112288597A (zh) | 一种基于层次聚类和直方图算法的能耗在线异常检测方法 | |
CN111611961A (zh) | 一种基于变点分段与序列聚类的谐波异常识别方法 | |
CN110533314A (zh) | 一种基于概率密度分布的风电场异常机组识别方法 | |
CN107808209B (zh) | 基于加权kNN距离的风电场异常数据辨识方法 | |
CN114580572B (zh) | 一种异常值的识别方法、装置、电子设备及存储介质 | |
CN110084301B (zh) | 一种基于隐马尔可夫模型的多工况过程工况辨识方法 | |
CN116720743A (zh) | 基于数据聚类和机器学习的碳排放测算方法 | |
CN117633688A (zh) | 一种基于岭回归-k均值聚类-LOF-LSTM融合算法的大规模电力数据异常检测方法 | |
CN111623905B (zh) | 风电机组轴承温度预警方法及装置 | |
CN113048012A (zh) | 基于混合高斯模型的风电机组偏航角度识别方法和装置 | |
CN116483602A (zh) | 一种异常检测方法、装置以及计算机存储介质 | |
CN116522993A (zh) | 一种基于对抗自编码网络的化工过程故障检测方法 | |
CN114565004A (zh) | 一种风电机组功率曲线异常散点剔除方法及装置 | |
CN113468818A (zh) | 风力发电机组的绕组运行状态监测方法和装置 | |
CN117948295A (zh) | 一种实时在线的污水厂鼓风机异常检测的方法 | |
CN118392255B (zh) | 一种水厂机电设备运行工况监测方法、系统和设备 | |
CN117171678B (zh) | 一种微生物修复过程中土壤微生物菌群调控方法及系统 | |
CN116089860B (zh) | 多阶段分布校正引导的设备故障诊断方法及装置 | |
CN112631255B (zh) | 一种基于变分自编码器模型的污水处理过程故障监测方法 | |
CN107918828B (zh) | 基于最小充分统计量模式分析的给水泵故障检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |