CN113157674A

CN113157674A - 一种基于动态插值的城市污水处理过程数据清洗方法

Info

Publication number: CN113157674A
Application number: CN202110221279.6A
Authority: CN
Inventors: 韩红桂; 赵子凡; 杨宏燕; 乔俊飞; 郑江; 顾剑; 赵楠; 王思维; 李谦
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-27
Filing date: 2021-02-27
Publication date: 2021-07-23

Abstract

一种基于动态插值的城市污水处理过程数据清洗方法于污水处理领域，针对城市污水处理过程数据中含有离群值和连续重复值混合导致数据质量差的问题。该动态插值方法通过滑动窗口对数据段进行分割，计算分割后数据段的异常因子系数，判定数据段异常情况，剔除异常数据段内的离群值和连续异常值，采用随机森林回归模型对缺失数据进行补偿，提高了城市污水处理过程数据的质量；实验结果表明该方法提高了数据补偿的精度，保障在城市污水处理工业中数据库的数据质量，提高了污水处理厂的研究提的可信度。

Description

一种基于动态插值的城市污水处理过程数据清洗方法

技术领域

本发明在城市污水处理过程运行数据的分析基础上，通过滑动窗口对数据进行分段，计算每一段数据内异常因子系数，判定数据段异常情况，对异常数据段进行异常值剔除，用随机森林回归模型预测插值，以动态插值的方式实现城市污水处理过程数据的清洗。这种基于动态插值的城市污水处理过程数据清洗方法在实际过程中，能够清洗城市污水处理过程数据中含有的离群值和连续重复值混合数据，提高了城市污水处理过程数据的可信度，属于污水处理领域。

背景技术

在城市污水处理工业领域，由于受数据来源多样性、网络设备环境的复杂性以及推流等影响，检测数据质量低成为了城市污水处理工业中面临的一个比较突出的问题，这将会对城市污水处理工业中数据仓库的建立造成不良影响。得到高质量数据可以提高对城市污水处理过程研究的可信度，因此，本发明的研究成果对城市污水处理研究具有广阔的应用前景。

城市污水处理数据是实现城市污水处理过程运行状态监测、操作优化控制以及故障诊断等环节的重要依据，是提高城市污水处理效率和运营监管水平的信息基础。由于城市污水处理过程是一个包含许多复杂处理工艺的生化过程，长期稳定运行较为困难，系统工作环境复杂干扰较强，运行过程多处于泥水混合状态，具有腐蚀性强、干扰多、滞后性等特点，导致异常数据难以精确识别、剔除和补偿，从而无法进行有效的处理，严重降低了数据应用的数据可靠性，这为城市污水处理过程数据的分析、处理和运用挖掘带来困扰。如何获取高质量数据，降低异常数据影响已成为城市污水处理过程数据应用面临过程的挑战，为此，污水处理厂通常在数据应用过程中采用数据预处理方法，首先识别异常数据特征，对异常数据进行剔除，形成缺失数据集，再对缺数据集进行数据补偿操作，以提高数据质量，保证数据应用过程的可信度。然而，城市污水处理过程数据存在异常特征多样，包括离群数据、重复数据和缺失数据等，异常数据难以被识别和重新补偿，导致数据清洗效果不理想，因此本发明在提高出异常数据清洗效果上具有重要的现实意义。

本发明设计了一种基于动态插值的城市污水处理过程数据清洗方法，该方法利用滑动窗口对数据段进行分割，计算分割后数据段的异常因子系数，判定数据段异常情况，并剔除异常数据断内的异常值，用随机森林回归算法对缺失数据进行补偿，提高了数据异常处理过程中的准确度，以动态插值的方式为获得高质量的城市污水处理过程数据提供了一种有效的方法，实现污水处理厂的实际需求。

发明内容

本发明获得了一种基于动态插值的城市污水处理过程数据清洗方法，该方法通过滑动窗口对数据段进行分割，计算分割后数据段的异常因子系数，判定数据段异常情况；剔除异常数据段内的离群值和连续重复值；采用随机森林回归模型对缺失数据进行补偿，获得高质量城市污水处理过程数据，解决了城市污水处理过程数据中离群值和连续重复值处理效果不理想的问题，提高了城市污水处理过程数据的数据质量并具有较好的数据准确度。

本发明采用了如下的技术方案及实现步骤：

一种基于动态插值的城市污水处理过程数据清洗方法，其特征在于，包括以下步骤：

(1)数据选择：

数据清洗是为了提高数据的质量，对数据进行审查和校验的过程，在清洗前需要进行数据选择，选择质量较低的数据进行审查和校验，通过观察城市污水处理过程运行数据中好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水端酸碱度和进水端悬浮物的数据相对变化趋势，分析数据的稳定性，选择数据质量较低的好氧池前端溶解氧数据进行动态插值处理，采用主成分分析法筛选得到关键特征变量：缺氧池前端氧化还原电位，进水端悬浮物，缺氧池末端硝态氮，进水端酸碱度；

(2)识别异常值：

①初始化滑动窗口长度l，滑动窗口移动步长m，异常识别数据集第k距离为30，迭代次数n＝1；

②滑动窗口内好氧池前端溶解氧数集为L，距数据集L第k距离的数据集为O，数据集O需要满足：至少存在k个数据集O’，O’∈D，使d(L,O’)≤d(L,O)成立，至多存在k-1个数据集O’，O’∈D，使d(L,O’)＜d(L,O)成立，

其中，数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段，D是分割后数据段的集合，d(L,O)是数据集L和数据集O的距离，q是好氧池前端溶解氧数集异常属性个数，异常属性包括均值、最大值、最小值、峰值区间和均方差，q＝5，f(L_p)和f(O_p)是数据集L和数据集O的第p维属性值，p＝1,2,3,…q，计算L的异常因子系数：

r-dis(L,O)＝max{k-dis(O),d(L,O)} (2)

其中，r-dis(L,O)表示数据集L与数据集O的可达距离，k-dis(O)是数据集L和数据集O的第k距离，Idr_k(L)是数据集L的局部可达密度，N_k(L)是输入好氧池前端溶解氧数据点与数据集L的距离小于数据集L第k距离数据点的集合，∑_o∈Nk(L)Idr_k(O)是集合N_k(L)中局部可达密度总和，LOF_k(L)是数据集L的异常因子系数，计算数据集L的异常阈值V：

V＝μ+λσ (5)

其中，μ是数据集L中异常因子的均值，σ是数据集L的标准差，λ是异常程度的控制量，λ∈[0,1]，λ越大数据结果误差越小，为提高正常数据与异常数据的可分辨性，λ＝1，若LOF_k(L)>V或数据集L中含连续r个重复数据，则标记数据集L为异常数据集，跳转步骤③，否则则标记数据集L为正常数据集，跳转步骤④；

③若n＜l，则比较数据集L中第n个数据L(n)与V的大小，大于V的L(n)置0，复数据置0，重迭代次数n加1返回步骤③，否则跳转步骤④；

④滑动窗口移动步长m，若窗口内数据含空值，则输出异常识别后的数据，否则迭代次数n＝1，返回步骤②；

(3)建立随机森林回归模型：

①初始化回归树数目为100，当前迭代次数t＝1；

②从训练样本中有放回随机抽样一个g×f的节点矩阵D_t，f为训练样本中输入变量个数，g为训练样本单一变量包含数据样本的个数，计算最大树高h_max:

h_max＝log₂(gf) (6)

③从D_t中无放回抽样一个e×w的切割矩阵X_cut，e、w均为随机数，0＜e＜＜g，0＜w＜f,计算矩阵X_cut中的切割点系数，选择最小值作为当前切割点：

其中，i＝1,2,3,...,e,j＝1,2,3,...,w,e为X_cut中变量的个数，w为单一变量包含数据样本的个数，C(i,j)是以X_cut(i,j)为切割点分枝后的最优系数，R_left(i,j)是切割后左子树矩阵，R_right(i,j)是切割后右子树矩阵，Q₁是R_left(i,j)的样本个数，Q₂是R_right(i,j)的样本个数，

④以最优C(i,j)为切割点划分，记录R_left(i,j)所在节点路径长度h_l，若h_l≥h_max或Q₁＜Q，则停止当前节点的分枝生长，跳转步骤⑤，否则用R_left(i,j)更新D_t，跳转步骤③，

⑤记录未分支的R_right(i,j)所在节点径长度h_r，若h_r≥h_max或Q₂＜Q，则停止当前节点的分枝生长，跳转步骤⑥，否则用R_right(i,j)更新D_t，返回步骤③；

⑥若t＜100，则迭代次数t加1，返回步骤②，否则停止训练，完成随机森林回归插值模型的建立，模型输出为:

其中，

是第v棵回归树划分后叶子节点内集合的平均值，v＝1,2,3,...,100；

(4)插值处理：选择标记异常的数据集，以缺氧池前端氧化还原电位，进水端悬浮物，缺氧池末端硝态氮，进水端酸碱度为随机森林回归模型输入，好氧池前端溶解氧为随机森林回归模型模型输出进行预测，用预测值代替异常数据集中数值为0的点，更新异常数据集，输出清洗后的数据。

本发明的创造性主要体现在：

(1)本发明针城市污水处理数据中含有离群值和连续重复值混合的问题，提出了一种动态异常因子检测异常数据的方法，通过滑动窗口对数据进行分段，计算数据段内异常因子系数，判断数据段异常情况，提高了异常数据识别的准确率；

(2)本发明针城市污水处理数据中异常值剔除的问题，仅对判断的异常数据段进行异常值剔除操作，形成缺失数据集，提高了异常值的剔除效率；

(3)本发明针对当前数据集中含缺失数据的问题，提出了一种基于随机森林回归的数据补偿方法，通过相关变量对缺失数据进行预测补偿，解决了数据中含缺失数据的问题，得到高质量城市污水处理过程运行数据。

附图说明

图1是本发明动态插值数据清洗方法的异常数据段预测补偿值效果图，其中实线为好氧池前端溶解氧实际值，虚线为测试样本异常数据段中预测补偿值；

图2是本发明动态插值数据清洗方法的异常数据段误差图；

具体实施方式

采用某污水处理厂2020年水质分析表为实验数据；分别取好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水小室酸碱度、进水小室悬浮物、外回流流量计的实际污水处理过程数据为实验样本数据，选取500组数据，其中350组用作训练样本，150组作为测试样本，在测试样本中随机加入10组噪声数据以验证方法有效性。

本发明采用了如下的技术方案及实现步骤：

1.一种基于动态插值的城市污水处理过程数据清洗方法，其特征在于，包括以下步骤：

(1)数据选择：

数据清洗是为了提高数据的质量，对数据进行审查和校验的过程，在清洗前需要进行数据选择，选择质量较低的数据进行审查和校验，通过观察城市污水处理过程运行数据中好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水小室酸碱度和进水小室悬浮物的数据相对变化趋势，分析数据的稳定性，选择数据质量较低的好氧池前端溶解氧数据进行动态插值处理,采用主成分分析法筛选得到关键特征变量：缺氧池前端氧化还原电位，进水小室悬浮物，缺氧池末端硝态氮，进水小室酸碱度；

(2)识别异常值：

1)初始化滑动窗口长度l，l＝30，移动步长m，m＝1，可允许最大连续重复次数为r，r＝5，数据集距离设定为k，k＝30，迭代次数n＝1；

2)滑动窗口内好氧池前端溶解氧数据集为L，距数据集L第k距离的数据集为O，数据集O需要满足：至少存在k个数据集O’，O’∈D，使d(L,F)≤d(L,O)成立，至多存在k-1个数据集O’，O’∈D，使d(L,O’)＜d(L,O)成立，

其中，数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段，D是滑窗将好氧池前端溶解氧数据分割后的数据段集合，d(L,O)是数据集L和数据集O的距离，q是异常属性个数，包括均值、最大值、峰值区间和均方差，f(L_p)和f(O_p)是数据集L和数据集O的第p维属性值，p＝1,2,3,…q，计算L的异常因子系数：

r-dis(L,O)＝max{k-dis(O),d(L,O)} (10)

其中，r-dis(L,O)表示数据集L与数据集O的可达距离，k-dis(O)是数据集L和数据集O的第k距离，Idr_k(L)是数据集L的局部可达密度，N_k(L)是输入好氧池前端溶解氧数据集中与数据集L的距离不超过其第k距离的所有数据集合，∑_o∈Nk(L)Idr_k(O)是集合N_k(L)中局部可达密度总和，LOF_k(L)是数据集L的异常因子系数，计算数据集L的异常阈值：

V＝μ+λσ (13)

其中，μ是数据集L中异常因子的均值，σ是数据集L的标准差，λ是异常程度的控制量，λ＝1，若LOF_k(L)>V或数据集L中含连续r个重复数据，则标记数据集L为异常数据集，跳转步骤3)，否则则标记数据集L为正常数据集，跳转步骤4)；

3)若n＜l，则比较数据集L中第n个数据L(n)与V的大小，大于V的L(n)置0，并将连续r个重复数据置0，迭代次数n加1返回步骤3)，否则跳转步骤4)；

4)若滑动窗口无法移动步长，则输出异常识别后的数据，否则滑动窗口移动步长m，迭代次数n＝1，返回步骤2)；

(3)建立随机森林回归模型：

①初始化回归树数目100，当前迭代次数t＝1；

②从训练样本中有放回抽样一个样本大小为256的节点矩阵D_t，计算最大树高h_max:

h_max＝log₂(u) (14)

其中，u＝256；

③从D_t中无放回抽样一个e×w的切割矩阵X_cut，计算矩阵X_cut中C(i,j)的值，选择最小值作为当前切割点：

④以最优C(i,j)为切割点划分，记录R_left(i,j)所在节点路径长度h_l，R_right(i,j)所在节点径长度h_r，若h_l≥h_max或Q₁＜Q，则停止当前节点的分枝生长，否则用R_left(i,j)更新D_t，返回步骤③，若h_d≥h_max或Q₂＜Q，则停止当前节点的分枝生长，否则用R_right(i,j)更新D_t，返回步骤③；

⑤若t＜T，则迭代次数t加1，返回步骤②，否则停止训练，完成随机森林回归插值模型的建立，模型输出为:

其中，

是第v棵回归树划分后叶子节点内集合的平均值，v＝1,2,3,...,T；

(4)插值处理：选择标记异常的数据集，以缺氧池前端氧化还原电位，进水小室悬浮物，缺氧池末端硝态氮，进水小室酸碱度为随机森林回归模型输入，好氧池前端溶解氧为随机森林回归模型模型输出进行预测，用预测值代替异常数据集中数值为0的点，更新异常数据集，输出清洗后的数据。

实际数据：

表1.好氧池前端溶解氧输入值(mg/L)

0.39	0.41	0.4	0.39	0.41	0.39	0.38	0.39	0.4	0.37
										0.35	0.35	0.49	0.51	0.49	0.46	0.48	0.49	0.48	0.47
0.5	0.5	0.57	0.62	0.46	0.29	0.27	0.28	0.27	0.24
										0.23	0.21	0.21	0.21	0.22	0.21	0.21	0.21	0.2	0.23
0.2	0.22	0.22	0.23	0.24	0.25	0.24	0.24	0.26	0.25
										0.24	0.23	0.23	0.25	0.25	0.26	0.26	0.26	0.26	0.26
0.27	0.25	0.27	0.28	0.28	0.28	0.27	0.27	0.26	0.27
										…
…
										…
0.19	0.2	0.18	0.18	0.19	0.2	0.19	0.21	0.2	0.2
										0.21	0.25	0.25	0.24	0.25	0.24	0.24	0.25	0.25	0.26
0.24	0.25	0.24	0.25	0.23	0.23	0.23	0.22	0.23	0.34
										0.37	0.31	0.29	0.3	0.29	0.3	0.29	0.3	0.3	0.31
0.32	0.31	0.32	0.32	0.3	0.32	0.29	0.26	0.26	0.26
										0.26	0.27	0.26	0.26	0.27	0.26	0.27	0.26	0.26	0.26
0.26	0.25	0.25	0.27	0.26	0.26	0.26	0.26	0.26	0.26

表2.进水小室酸碱度输入值

表3.进水小室悬浮物输入值(mg/L)

103.64	103.64	103.7	103.7	103.7	103.7	103.7	103.58	103.64	103.64
										103.7	103.7	103.7	103.7	103.7	103.7	103.64	103.64	103.64	103.7
103.7	103.64	103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.7
										103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.7
103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.7
										103.76	103.76	103.82	103.76	103.76	103.76	103.76	103.76	103.76	103.7
103.7	103.76	103.76	103.76	103.76	103.76	103.76	103.76	103.76	103.76
										…
…
										…
103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.64
										103.64	103.64	103.58	103.64	103.64	103.58	103.58	103.52	103.52	103.52
103.52	103.52	103.52	103.52	103.52	103.52	103.52	103.52	103.52	103.52
										103.52	103.52	103.52	103.52	103.52	103.52	103.52	103.52	103.52	103.52
103.52	103.52	103.52	103.64	103.64	103.64	103.7	103.7	103.7	103.7
										103.7	103.7	103.7	103.7	103.58	103.64	103.58	103.64	103.7	103.7
103.7	103.7	103.7	103.7	103.7	103.7	103.7	103.64	103.58	103.58

表4.缺氧池前端氧化还原电位输入值(mg/L)

表5.缺氧池末端硝态氮输入值(mg/L)

4.35	4.69	4.7	4.82	4.54	4.61	4.64	4.59	4.77	4.19
										4.15	4.2	4.46	4.27	4.54	4.31	4.99	4.85	4.51	4.97
4.88	5.18	5.46	5.18	4.65	4.1	4.04	3.95	3.13	3.46
										2.97	2.99	2.89	2.88	2.97	2.72	2.62	2.74	2.57	2.86
2.76	2.49	2.28	2.47	1.81	1.75	1.79	1.22	1.33	1.17
										1.01	2.33	2.79	3.3	3.4	2.92	3.17	3.25	2.91	3.16
3.3	3.57	3.22	3.33	3.23	3.09	3.52	3.75	3.57	3.98
										…
…
										…
1.16	1.13	0.94	1.4	1.35	1.04	2.15	3.8	3.72	3.72
										3.6	3.68	3.99	4.13	4.37	4.28	4.35	4.44	4.12	4.5
4.44	4.35	4.83	4.61	4.47	4.48	4.61	4.88	4.98	5.1
										5.41	5.4	6.05	6.05	6.3	5.68	5.9	5.96	5.9	5.93
6.24	6.16	6.14	6.23	6.15	6.21	6.51	6.48	6.39	6.12
										6.67	6.19	6.03	6.83	6.02	5.88	7.04	6.24	6.53	5.91
5.87	5.86	5.84	5.59	5.69	5.76	5.99	6.03	6.01	6.48

Claims

(1)数据选择：

采用主成分分析法筛选得到关键特征变量：缺氧池前端氧化还原电位，进水端悬浮物，缺氧池末端硝态氮，进水端酸碱度；

(2)识别异常值：

②滑动窗口内好氧池前端溶解氧数集为L，距数据集L第k距离的数据集为O，数据集O需要满足：至少存在k个数据集O’，O’∈D，使d(L,O’)≤d(L,O)成立，至多存在k-1个数据集O’，O’∈D，使d(L,O’)<d(L,O)成立，

r-dis(L,O)＝max{k-dis(O),d(L,O)} (2)

V＝μ+λσ (5)

其中，μ是数据集L中异常因子的均值，σ是数据集L的标准差，λ＝1，若LOF_k(L)>V或数据集L中含连续r个重复数据，则标记数据集L为异常数据集，跳转步骤③，否则则标记数据集L为正常数据集，跳转步骤④；

③若n<l，则比较数据集L中第n个数据L(n)与V的大小，大于V的L(n)置0，复数据置0，重迭代次数n加1返回步骤③，否则跳转步骤④；

(3)建立随机森林回归模型：

①初始化回归树数目为100，当前迭代次数t＝1；

h_max＝log₂(gf) (6)

③从D_t中无放回抽样一个e×w的切割矩阵X_cut，e、w均为随机数，0<e＜＜g，0<w<f,计算矩阵X_cut中的切割点系数，选择最小值作为当前切割点：

④以最优C(i,j)为切割点划分，记录R_left(i,j)所在节点路径长度h_l，若h_l≥h_max或Q₁<Q，则停止当前节点的分枝生长，跳转步骤⑤，否则用R_left(i,j)更新D_t，跳转步骤③，

⑤记录未分支的R_right(i,j)所在节点径长度h_r，若h_r≥h_max或Q₂<Q，则停止当前节点的分枝生长，跳转步骤⑥，否则用R_right(i,j)更新D_t，返回步骤③；

⑥若t<100，则迭代次数t加1，返回步骤②，否则停止训练，完成随机森林回归插值模型的建立，模型输出为:

其中，