CN113157674A - 一种基于动态插值的城市污水处理过程数据清洗方法 - Google Patents

一种基于动态插值的城市污水处理过程数据清洗方法 Download PDF

Info

Publication number
CN113157674A
CN113157674A CN202110221279.6A CN202110221279A CN113157674A CN 113157674 A CN113157674 A CN 113157674A CN 202110221279 A CN202110221279 A CN 202110221279A CN 113157674 A CN113157674 A CN 113157674A
Authority
CN
China
Prior art keywords
data
data set
abnormal
sewage treatment
urban sewage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110221279.6A
Other languages
English (en)
Inventor
韩红桂
赵子凡
杨宏燕
乔俊飞
郑江
顾剑
赵楠
王思维
李谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110221279.6A priority Critical patent/CN113157674A/zh
Publication of CN113157674A publication Critical patent/CN113157674A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Activated Sludge Processes (AREA)

Abstract

一种基于动态插值的城市污水处理过程数据清洗方法于污水处理领域,针对城市污水处理过程数据中含有离群值和连续重复值混合导致数据质量差的问题。该动态插值方法通过滑动窗口对数据段进行分割,计算分割后数据段的异常因子系数,判定数据段异常情况,剔除异常数据段内的离群值和连续异常值,采用随机森林回归模型对缺失数据进行补偿,提高了城市污水处理过程数据的质量;实验结果表明该方法提高了数据补偿的精度,保障在城市污水处理工业中数据库的数据质量,提高了污水处理厂的研究提的可信度。

Description

一种基于动态插值的城市污水处理过程数据清洗方法
技术领域
本发明在城市污水处理过程运行数据的分析基础上,通过滑动窗口对数据进行分段,计算每一段数据内异常因子系数,判定数据段异常情况,对异常数据段进行异常值剔除,用随机森林回归模型预测插值,以动态插值的方式实现城市污水处理过程数据的清洗。这种基于动态插值的城市污水处理过程数据清洗方法在实际过程中,能够清洗城市污水处理过程数据中含有的离群值和连续重复值混合数据,提高了城市污水处理过程数据的可信度,属于污水处理领域。
背景技术
在城市污水处理工业领域,由于受数据来源多样性、网络设备环境的复杂性以及推流等影响,检测数据质量低成为了城市污水处理工业中面临的一个比较突出的问题,这将会对城市污水处理工业中数据仓库的建立造成不良影响。得到高质量数据可以提高对城市污水处理过程研究的可信度,因此,本发明的研究成果对城市污水处理研究具有广阔的应用前景。
城市污水处理数据是实现城市污水处理过程运行状态监测、操作优化控制以及故障诊断等环节的重要依据,是提高城市污水处理效率和运营监管水平的信息基础。由于城市污水处理过程是一个包含许多复杂处理工艺的生化过程,长期稳定运行较为困难,系统工作环境复杂干扰较强,运行过程多处于泥水混合状态,具有腐蚀性强、干扰多、滞后性等特点,导致异常数据难以精确识别、剔除和补偿,从而无法进行有效的处理,严重降低了数据应用的数据可靠性,这为城市污水处理过程数据的分析、处理和运用挖掘带来困扰。如何获取高质量数据,降低异常数据影响已成为城市污水处理过程数据应用面临过程的挑战,为此,污水处理厂通常在数据应用过程中采用数据预处理方法,首先识别异常数据特征,对异常数据进行剔除,形成缺失数据集,再对缺数据集进行数据补偿操作,以提高数据质量,保证数据应用过程的可信度。然而,城市污水处理过程数据存在异常特征多样,包括离群数据、重复数据和缺失数据等,异常数据难以被识别和重新补偿,导致数据清洗效果不理想,因此本发明在提高出异常数据清洗效果上具有重要的现实意义。
本发明设计了一种基于动态插值的城市污水处理过程数据清洗方法,该方法利用滑动窗口对数据段进行分割,计算分割后数据段的异常因子系数,判定数据段异常情况,并剔除异常数据断内的异常值,用随机森林回归算法对缺失数据进行补偿,提高了数据异常处理过程中的准确度,以动态插值的方式为获得高质量的城市污水处理过程数据提供了一种有效的方法,实现污水处理厂的实际需求。
发明内容
本发明获得了一种基于动态插值的城市污水处理过程数据清洗方法,该方法通过滑动窗口对数据段进行分割,计算分割后数据段的异常因子系数,判定数据段异常情况;剔除异常数据段内的离群值和连续重复值;采用随机森林回归模型对缺失数据进行补偿,获得高质量城市污水处理过程数据,解决了城市污水处理过程数据中离群值和连续重复值处理效果不理想的问题,提高了城市污水处理过程数据的数据质量并具有较好的数据准确度。
本发明采用了如下的技术方案及实现步骤:
一种基于动态插值的城市污水处理过程数据清洗方法,其特征在于,包括以下步骤:
(1)数据选择:
数据清洗是为了提高数据的质量,对数据进行审查和校验的过程,在清洗前需要进行数据选择,选择质量较低的数据进行审查和校验,通过观察城市污水处理过程运行数据中好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水端酸碱度和进水端悬浮物的数据相对变化趋势,分析数据的稳定性,选择数据质量较低的好氧池前端溶解氧数据进行动态插值处理,采用主成分分析法筛选得到关键特征变量:缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度;
(2)识别异常值:
①初始化滑动窗口长度l,滑动窗口移动步长m,异常识别数据集第k距离为30,迭代次数n=1;
②滑动窗口内好氧池前端溶解氧数集为L,距数据集L第k距离的数据集为O,数据集O需要满足:至少存在k个数据集O’,O’∈D,使d(L,O’)≤d(L,O)成立,至多存在k-1个数据集O’,O’∈D,使d(L,O’)<d(L,O)成立,
Figure BDA0002955157030000031
其中,数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段,D是分割后数据段的集合,d(L,O)是数据集L和数据集O的距离,q是好氧池前端溶解氧数集异常属性个数,异常属性包括均值、最大值、最小值、峰值区间和均方差,q=5,f(Lp)和f(Op)是数据集L和数据集O的第p维属性值,p=1,2,3,…q,计算L的异常因子系数:
r-dis(L,O)=max{k-dis(O),d(L,O)} (2)
Figure BDA0002955157030000032
Figure BDA0002955157030000033
其中,r-dis(L,O)表示数据集L与数据集O的可达距离,k-dis(O)是数据集L和数据集O的第k距离,Idrk(L)是数据集L的局部可达密度,Nk(L)是输入好氧池前端溶解氧数据点与数据集L的距离小于数据集L第k距离数据点的集合,∑o∈Nk(L)Idrk(O)是集合Nk(L)中局部可达密度总和,LOFk(L)是数据集L的异常因子系数,计算数据集L的异常阈值V:
V=μ+λσ (5)
其中,μ是数据集L中异常因子的均值,σ是数据集L的标准差,λ是异常程度的控制量,λ∈[0,1],λ越大数据结果误差越小,为提高正常数据与异常数据的可分辨性,λ=1,若LOFk(L)>V或数据集L中含连续r个重复数据,则标记数据集L为异常数据集,跳转步骤③,否则则标记数据集L为正常数据集,跳转步骤④;
③若n<l,则比较数据集L中第n个数据L(n)与V的大小,大于V的L(n)置0,复数据置0,重迭代次数n加1返回步骤③,否则跳转步骤④;
④滑动窗口移动步长m,若窗口内数据含空值,则输出异常识别后的数据,否则迭代次数n=1,返回步骤②;
(3)建立随机森林回归模型:
①初始化回归树数目为100,当前迭代次数t=1;
②从训练样本中有放回随机抽样一个g×f的节点矩阵Dt,f为训练样本中输入变量个数,g为训练样本单一变量包含数据样本的个数,计算最大树高hmax:
hmax=log2(gf) (6)
③从Dt中无放回抽样一个e×w的切割矩阵Xcut,e、w均为随机数,0<e<<g,0<w<f,计算矩阵Xcut中的切割点系数,选择最小值作为当前切割点:
Figure BDA0002955157030000041
其中,i=1,2,3,...,e,j=1,2,3,...,w,e为Xcut中变量的个数,w为单一变量包含数据样本的个数,C(i,j)是以Xcut(i,j)为切割点分枝后的最优系数,Rleft(i,j)是切割后左子树矩阵,Rright(i,j)是切割后右子树矩阵,Q1是Rleft(i,j)的样本个数,Q2是Rright(i,j)的样本个数,
④以最优C(i,j)为切割点划分,记录Rleft(i,j)所在节点路径长度hl,若hl≥hmax或Q1<Q,则停止当前节点的分枝生长,跳转步骤⑤,否则用Rleft(i,j)更新Dt,跳转步骤③,
⑤记录未分支的Rright(i,j)所在节点径长度hr,若hr≥hmax或Q2<Q,则停止当前节点的分枝生长,跳转步骤⑥,否则用Rright(i,j)更新Dt,返回步骤③;
⑥若t<100,则迭代次数t加1,返回步骤②,否则停止训练,完成随机森林回归插值模型的建立,模型输出为:
Figure BDA0002955157030000042
其中,
Figure BDA0002955157030000043
是第v棵回归树划分后叶子节点内集合的平均值,v=1,2,3,...,100;
(4)插值处理:选择标记异常的数据集,以缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度为随机森林回归模型输入,好氧池前端溶解氧为随机森林回归模型模型输出进行预测,用预测值代替异常数据集中数值为0的点,更新异常数据集,输出清洗后的数据。
本发明的创造性主要体现在:
(1)本发明针城市污水处理数据中含有离群值和连续重复值混合的问题,提出了一种动态异常因子检测异常数据的方法,通过滑动窗口对数据进行分段,计算数据段内异常因子系数,判断数据段异常情况,提高了异常数据识别的准确率;
(2)本发明针城市污水处理数据中异常值剔除的问题,仅对判断的异常数据段进行异常值剔除操作,形成缺失数据集,提高了异常值的剔除效率;
(3)本发明针对当前数据集中含缺失数据的问题,提出了一种基于随机森林回归的数据补偿方法,通过相关变量对缺失数据进行预测补偿,解决了数据中含缺失数据的问题,得到高质量城市污水处理过程运行数据。
附图说明
图1是本发明动态插值数据清洗方法的异常数据段预测补偿值效果图,其中实线为好氧池前端溶解氧实际值,虚线为测试样本异常数据段中预测补偿值;
图2是本发明动态插值数据清洗方法的异常数据段误差图;
具体实施方式
采用某污水处理厂2020年水质分析表为实验数据;分别取好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水小室酸碱度、进水小室悬浮物、外回流流量计的实际污水处理过程数据为实验样本数据,选取500组数据,其中350组用作训练样本,150组作为测试样本,在测试样本中随机加入10组噪声数据以验证方法有效性。
本发明采用了如下的技术方案及实现步骤:
1.一种基于动态插值的城市污水处理过程数据清洗方法,其特征在于,包括以下步骤:
(1)数据选择:
数据清洗是为了提高数据的质量,对数据进行审查和校验的过程,在清洗前需要进行数据选择,选择质量较低的数据进行审查和校验,通过观察城市污水处理过程运行数据中好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水小室酸碱度和进水小室悬浮物的数据相对变化趋势,分析数据的稳定性,选择数据质量较低的好氧池前端溶解氧数据进行动态插值处理,采用主成分分析法筛选得到关键特征变量:缺氧池前端氧化还原电位,进水小室悬浮物,缺氧池末端硝态氮,进水小室酸碱度;
(2)识别异常值:
1)初始化滑动窗口长度l,l=30,移动步长m,m=1,可允许最大连续重复次数为r,r=5,数据集距离设定为k,k=30,迭代次数n=1;
2)滑动窗口内好氧池前端溶解氧数据集为L,距数据集L第k距离的数据集为O,数据集O需要满足:至少存在k个数据集O’,O’∈D,使d(L,F)≤d(L,O)成立,至多存在k-1个数据集O’,O’∈D,使d(L,O’)<d(L,O)成立,
Figure BDA0002955157030000061
其中,数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段,D是滑窗将好氧池前端溶解氧数据分割后的数据段集合,d(L,O)是数据集L和数据集O的距离,q是异常属性个数,包括均值、最大值、峰值区间和均方差,f(Lp)和f(Op)是数据集L和数据集O的第p维属性值,p=1,2,3,…q,计算L的异常因子系数:
r-dis(L,O)=max{k-dis(O),d(L,O)} (10)
Figure BDA0002955157030000062
Figure BDA0002955157030000063
其中,r-dis(L,O)表示数据集L与数据集O的可达距离,k-dis(O)是数据集L和数据集O的第k距离,Idrk(L)是数据集L的局部可达密度,Nk(L)是输入好氧池前端溶解氧数据集中与数据集L的距离不超过其第k距离的所有数据集合,∑o∈Nk(L)Idrk(O)是集合Nk(L)中局部可达密度总和,LOFk(L)是数据集L的异常因子系数,计算数据集L的异常阈值:
V=μ+λσ (13)
其中,μ是数据集L中异常因子的均值,σ是数据集L的标准差,λ是异常程度的控制量,λ=1,若LOFk(L)>V或数据集L中含连续r个重复数据,则标记数据集L为异常数据集,跳转步骤3),否则则标记数据集L为正常数据集,跳转步骤4);
3)若n<l,则比较数据集L中第n个数据L(n)与V的大小,大于V的L(n)置0,并将连续r个重复数据置0,迭代次数n加1返回步骤3),否则跳转步骤4);
4)若滑动窗口无法移动步长,则输出异常识别后的数据,否则滑动窗口移动步长m,迭代次数n=1,返回步骤2);
(3)建立随机森林回归模型:
①初始化回归树数目100,当前迭代次数t=1;
②从训练样本中有放回抽样一个样本大小为256的节点矩阵Dt,计算最大树高hmax:
hmax=log2(u) (14)
其中,u=256;
③从Dt中无放回抽样一个e×w的切割矩阵Xcut,计算矩阵Xcut中C(i,j)的值,选择最小值作为当前切割点:
Figure BDA0002955157030000071
其中,i=1,2,3,...,e,j=1,2,3,...,w,e为Xcut中变量的个数,w为单一变量包含数据样本的个数,C(i,j)是以Xcut(i,j)为切割点分枝后的最优系数,Rleft(i,j)是切割后左子树矩阵,Rright(i,j)是切割后右子树矩阵,Q1是Rleft(i,j)的样本个数,Q2是Rright(i,j)的样本个数,
④以最优C(i,j)为切割点划分,记录Rleft(i,j)所在节点路径长度hl,Rright(i,j)所在节点径长度hr,若hl≥hmax或Q1<Q,则停止当前节点的分枝生长,否则用Rleft(i,j)更新Dt,返回步骤③,若hd≥hmax或Q2<Q,则停止当前节点的分枝生长,否则用Rright(i,j)更新Dt,返回步骤③;
⑤若t<T,则迭代次数t加1,返回步骤②,否则停止训练,完成随机森林回归插值模型的建立,模型输出为:
Figure BDA0002955157030000072
其中,
Figure BDA0002955157030000073
是第v棵回归树划分后叶子节点内集合的平均值,v=1,2,3,...,T;
(4)插值处理:选择标记异常的数据集,以缺氧池前端氧化还原电位,进水小室悬浮物,缺氧池末端硝态氮,进水小室酸碱度为随机森林回归模型输入,好氧池前端溶解氧为随机森林回归模型模型输出进行预测,用预测值代替异常数据集中数值为0的点,更新异常数据集,输出清洗后的数据。
实际数据:
表1.好氧池前端溶解氧输入值(mg/L)
0.39 0.41 0.4 0.39 0.41 0.39 0.38 0.39 0.4 0.37
0.35 0.35 0.49 0.51 0.49 0.46 0.48 0.49 0.48 0.47
0.5 0.5 0.57 0.62 0.46 0.29 0.27 0.28 0.27 0.24
0.23 0.21 0.21 0.21 0.22 0.21 0.21 0.21 0.2 0.23
0.2 0.22 0.22 0.23 0.24 0.25 0.24 0.24 0.26 0.25
0.24 0.23 0.23 0.25 0.25 0.26 0.26 0.26 0.26 0.26
0.27 0.25 0.27 0.28 0.28 0.28 0.27 0.27 0.26 0.27
0.19 0.2 0.18 0.18 0.19 0.2 0.19 0.21 0.2 0.2
0.21 0.25 0.25 0.24 0.25 0.24 0.24 0.25 0.25 0.26
0.24 0.25 0.24 0.25 0.23 0.23 0.23 0.22 0.23 0.34
0.37 0.31 0.29 0.3 0.29 0.3 0.29 0.3 0.3 0.31
0.32 0.31 0.32 0.32 0.3 0.32 0.29 0.26 0.26 0.26
0.26 0.27 0.26 0.26 0.27 0.26 0.27 0.26 0.26 0.26
0.26 0.25 0.25 0.27 0.26 0.26 0.26 0.26 0.26 0.26
表2.进水小室酸碱度输入值
Figure BDA0002955157030000081
Figure BDA0002955157030000091
表3.进水小室悬浮物输入值(mg/L)
103.64 103.64 103.7 103.7 103.7 103.7 103.7 103.58 103.64 103.64
103.7 103.7 103.7 103.7 103.7 103.7 103.64 103.64 103.64 103.7
103.7 103.64 103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.7
103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.7
103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.7
103.76 103.76 103.82 103.76 103.76 103.76 103.76 103.76 103.76 103.7
103.7 103.76 103.76 103.76 103.76 103.76 103.76 103.76 103.76 103.76
103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.64
103.64 103.64 103.58 103.64 103.64 103.58 103.58 103.52 103.52 103.52
103.52 103.52 103.52 103.52 103.52 103.52 103.52 103.52 103.52 103.52
103.52 103.52 103.52 103.52 103.52 103.52 103.52 103.52 103.52 103.52
103.52 103.52 103.52 103.64 103.64 103.64 103.7 103.7 103.7 103.7
103.7 103.7 103.7 103.7 103.58 103.64 103.58 103.64 103.7 103.7
103.7 103.7 103.7 103.7 103.7 103.7 103.7 103.64 103.58 103.58
表4.缺氧池前端氧化还原电位输入值(mg/L)
Figure BDA0002955157030000092
Figure BDA0002955157030000101
表5.缺氧池末端硝态氮输入值(mg/L)
4.35 4.69 4.7 4.82 4.54 4.61 4.64 4.59 4.77 4.19
4.15 4.2 4.46 4.27 4.54 4.31 4.99 4.85 4.51 4.97
4.88 5.18 5.46 5.18 4.65 4.1 4.04 3.95 3.13 3.46
2.97 2.99 2.89 2.88 2.97 2.72 2.62 2.74 2.57 2.86
2.76 2.49 2.28 2.47 1.81 1.75 1.79 1.22 1.33 1.17
1.01 2.33 2.79 3.3 3.4 2.92 3.17 3.25 2.91 3.16
3.3 3.57 3.22 3.33 3.23 3.09 3.52 3.75 3.57 3.98
1.16 1.13 0.94 1.4 1.35 1.04 2.15 3.8 3.72 3.72
3.6 3.68 3.99 4.13 4.37 4.28 4.35 4.44 4.12 4.5
4.44 4.35 4.83 4.61 4.47 4.48 4.61 4.88 4.98 5.1
5.41 5.4 6.05 6.05 6.3 5.68 5.9 5.96 5.9 5.93
6.24 6.16 6.14 6.23 6.15 6.21 6.51 6.48 6.39 6.12
6.67 6.19 6.03 6.83 6.02 5.88 7.04 6.24 6.53 5.91
5.87 5.86 5.84 5.59 5.69 5.76 5.99 6.03 6.01 6.48

Claims (1)

1.一种基于动态插值的城市污水处理过程数据清洗方法,其特征在于,包括以下步骤:
(1)数据选择:
采用主成分分析法筛选得到关键特征变量:缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度;
(2)识别异常值:
①初始化滑动窗口长度l,滑动窗口移动步长m,异常识别数据集第k距离为30,迭代次数n=1;
②滑动窗口内好氧池前端溶解氧数集为L,距数据集L第k距离的数据集为O,数据集O需要满足:至少存在k个数据集O’,O’∈D,使d(L,O’)≤d(L,O)成立,至多存在k-1个数据集O’,O’∈D,使d(L,O’)<d(L,O)成立,
Figure FDA0002955157020000011
其中,数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段,D是分割后数据段的集合,d(L,O)是数据集L和数据集O的距离,q是好氧池前端溶解氧数集异常属性个数,异常属性包括均值、最大值、最小值、峰值区间和均方差,q=5,f(Lp)和f(Op)是数据集L和数据集O的第p维属性值,p=1,2,3,…q,计算L的异常因子系数:
r-dis(L,O)=max{k-dis(O),d(L,O)} (2)
Figure FDA0002955157020000012
Figure FDA0002955157020000013
其中,r-dis(L,O)表示数据集L与数据集O的可达距离,k-dis(O)是数据集L和数据集O的第k距离,Idrk(L)是数据集L的局部可达密度,Nk(L)是输入好氧池前端溶解氧数据点与数据集L的距离小于数据集L第k距离数据点的集合,∑o∈Nk(L)Idrk(O)是集合Nk(L)中局部可达密度总和,LOFk(L)是数据集L的异常因子系数,计算数据集L的异常阈值V:
V=μ+λσ (5)
其中,μ是数据集L中异常因子的均值,σ是数据集L的标准差,λ=1,若LOFk(L)>V或数据集L中含连续r个重复数据,则标记数据集L为异常数据集,跳转步骤③,否则则标记数据集L为正常数据集,跳转步骤④;
③若n<l,则比较数据集L中第n个数据L(n)与V的大小,大于V的L(n)置0,复数据置0,重迭代次数n加1返回步骤③,否则跳转步骤④;
④滑动窗口移动步长m,若窗口内数据含空值,则输出异常识别后的数据,否则迭代次数n=1,返回步骤②;
(3)建立随机森林回归模型:
①初始化回归树数目为100,当前迭代次数t=1;
②从训练样本中有放回随机抽样一个g×f的节点矩阵Dt,f为训练样本中输入变量个数,g为训练样本单一变量包含数据样本的个数,计算最大树高hmax:
hmax=log2(gf) (6)
③从Dt中无放回抽样一个e×w的切割矩阵Xcut,e、w均为随机数,0<e<<g,0<w<f,计算矩阵Xcut中的切割点系数,选择最小值作为当前切割点:
Figure FDA0002955157020000021
其中,i=1,2,3,...,e,j=1,2,3,...,w,e为Xcut中变量的个数,w为单一变量包含数据样本的个数,C(i,j)是以Xcut(i,j)为切割点分枝后的最优系数,Rleft(i,j)是切割后左子树矩阵,Rright(i,j)是切割后右子树矩阵,Q1是Rleft(i,j)的样本个数,Q2是Rright(i,j)的样本个数,
④以最优C(i,j)为切割点划分,记录Rleft(i,j)所在节点路径长度hl,若hl≥hmax或Q1<Q,则停止当前节点的分枝生长,跳转步骤⑤,否则用Rleft(i,j)更新Dt,跳转步骤③,
⑤记录未分支的Rright(i,j)所在节点径长度hr,若hr≥hmax或Q2<Q,则停止当前节点的分枝生长,跳转步骤⑥,否则用Rright(i,j)更新Dt,返回步骤③;
⑥若t<100,则迭代次数t加1,返回步骤②,否则停止训练,完成随机森林回归插值模型的建立,模型输出为:
Figure FDA0002955157020000022
其中,
Figure FDA0002955157020000023
是第v棵回归树划分后叶子节点内集合的平均值,v=1,2,3,...,100;
(4)插值处理:选择标记异常的数据集,以缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度为随机森林回归模型输入,好氧池前端溶解氧为随机森林回归模型模型输出进行预测,用预测值代替异常数据集中数值为0的点,更新异常数据集,输出清洗后的数据。
CN202110221279.6A 2021-02-27 2021-02-27 一种基于动态插值的城市污水处理过程数据清洗方法 Pending CN113157674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110221279.6A CN113157674A (zh) 2021-02-27 2021-02-27 一种基于动态插值的城市污水处理过程数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110221279.6A CN113157674A (zh) 2021-02-27 2021-02-27 一种基于动态插值的城市污水处理过程数据清洗方法

Publications (1)

Publication Number Publication Date
CN113157674A true CN113157674A (zh) 2021-07-23

Family

ID=76883649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110221279.6A Pending CN113157674A (zh) 2021-02-27 2021-02-27 一种基于动态插值的城市污水处理过程数据清洗方法

Country Status (1)

Country Link
CN (1) CN113157674A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115290286A (zh) * 2022-10-10 2022-11-04 中国空气动力研究与发展中心高速空气动力研究所 一种亚跨超声速风洞流场稳定性的集成学习评估系统
CN115547508A (zh) * 2022-11-29 2022-12-30 联仁健康医疗大数据科技股份有限公司 数据校正方法、装置、电子设备及存储介质
US11809517B1 (en) * 2022-09-21 2023-11-07 Southwest Jiaotong University Adaptive method of cleaning structural health monitoring data based on local outlier factor
CN117077051A (zh) * 2023-07-18 2023-11-17 重庆交通大学 一种大坝监测异常数据自适应识别方法
CN117331921A (zh) * 2023-09-28 2024-01-02 石家庄铁道大学 一种轴承监测多源数据处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN109214355A (zh) * 2018-09-29 2019-01-15 西安交通大学 一种基于核估计lof的机械监测数据异常段检测方法
CN111398886A (zh) * 2020-04-09 2020-07-10 国网山东省电力公司电力科学研究院 一种自动化检定流水线表位在线异常的检测方法及系统
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN112101174A (zh) * 2020-09-09 2020-12-18 洛阳师范学院 一种基于LOF-Kurtogram的机械故障诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN109214355A (zh) * 2018-09-29 2019-01-15 西安交通大学 一种基于核估计lof的机械监测数据异常段检测方法
CN111398886A (zh) * 2020-04-09 2020-07-10 国网山东省电力公司电力科学研究院 一种自动化检定流水线表位在线异常的检测方法及系统
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN112101174A (zh) * 2020-09-09 2020-12-18 洛阳师范学院 一种基于LOF-Kurtogram的机械故障诊断方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11809517B1 (en) * 2022-09-21 2023-11-07 Southwest Jiaotong University Adaptive method of cleaning structural health monitoring data based on local outlier factor
CN115290286A (zh) * 2022-10-10 2022-11-04 中国空气动力研究与发展中心高速空气动力研究所 一种亚跨超声速风洞流场稳定性的集成学习评估系统
CN115547508A (zh) * 2022-11-29 2022-12-30 联仁健康医疗大数据科技股份有限公司 数据校正方法、装置、电子设备及存储介质
CN117077051A (zh) * 2023-07-18 2023-11-17 重庆交通大学 一种大坝监测异常数据自适应识别方法
CN117331921A (zh) * 2023-09-28 2024-01-02 石家庄铁道大学 一种轴承监测多源数据处理方法

Similar Documents

Publication Publication Date Title
CN113157674A (zh) 一种基于动态插值的城市污水处理过程数据清洗方法
Stoffel et al. inbreedR: an R package for the analysis of inbreeding based on genetic markers
CN108417033B (zh) 基于多维因素的高速路交通事故分析预测方法
CN110782658B (zh) 一种基于LightGBM算法的交通量预测方法
CN112132333B (zh) 一种基于深度学习的短期水质水量预测方法及系统
CN110134919B (zh) 风电机组异常数据清洗方法
CN112508243B (zh) 电力信息系统多故障预测网络模型的训练方法及装置
CN113051683B (zh) 一种数控机床刀具寿命预测方法、系统、设备及存储介质
CN111160776A (zh) 利用分块主成分分析的污水处理过程异常工况检测方法
CN112417765B (zh) 一种基于改进师生网络模型的污水处理过程故障检测方法
CN114527249B (zh) 一种水质监测数据质量控制方法及系统
CN110905478B (zh) 一种基于箱线图法和马氏平方距离法的钻井数据清洗方法
CN110542748B (zh) 一种基于知识的鲁棒型出水氨氮软测量方法
CN110632191B (zh) 一种基于决策树算法的变压器色谱峰定性方法和系统
CN114707424B (zh) 基于质量相关慢特征分析算法的化工过程软测量方法
CN116522993A (zh) 一种基于对抗自编码网络的化工过程故障检测方法
CN115169691A (zh) 基于人工智能的污染因子排放预测系统、方法及存储介质
CN110837886A (zh) 一种基于elm-sl0神经网络的出水nh4-n软测量方法
CN113539386A (zh) 基于clmvo-elm的溶解氧浓度预测方法、装置、设备及存储介质
CN112631255B (zh) 一种基于变分自编码器模型的污水处理过程故障监测方法
CN117388457B (zh) 一种耦合水力停留时间提高污水厂出水预测精度的方法
CN114626300B (zh) 一种基于数据离散化的出水总氮智能预测方法
CN112924646B (zh) 一种基于自适应剪枝前馈小世界神经网络的出水bod软测量方法
CN113848307A (zh) 一种针对污泥膨胀的特征提取主成分分析在线监测方法
CN118152992A (zh) 基于机器学习的管道腐蚀预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination