CN113157674A - 一种基于动态插值的城市污水处理过程数据清洗方法 - Google Patents
一种基于动态插值的城市污水处理过程数据清洗方法 Download PDFInfo
- Publication number
- CN113157674A CN113157674A CN202110221279.6A CN202110221279A CN113157674A CN 113157674 A CN113157674 A CN 113157674A CN 202110221279 A CN202110221279 A CN 202110221279A CN 113157674 A CN113157674 A CN 113157674A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- abnormal
- sewage treatment
- urban sewage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000010865 sewage Substances 0.000 title claims abstract description 44
- 238000004140 cleaning Methods 0.000 title claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 claims abstract description 58
- 238000007637 random forest analysis Methods 0.000 claims abstract description 17
- 229910052760 oxygen Inorganic materials 0.000 claims description 28
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 22
- 239000001301 oxygen Substances 0.000 claims description 22
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 21
- 238000005520 cutting process Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 11
- MMDJDBSEMBIJBB-UHFFFAOYSA-N [O-][N+]([O-])=O.[O-][N+]([O-])=O.[O-][N+]([O-])=O.[NH6+3] Chemical compound [O-][N+]([O-])=O.[O-][N+]([O-])=O.[O-][N+]([O-])=O.[NH6+3] MMDJDBSEMBIJBB-UHFFFAOYSA-N 0.000 claims description 10
- 230000033116 oxidation-reduction process Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 4
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000002547 anomalous effect Effects 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 4
- 239000000203 mixture Substances 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 239000007788 liquid Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000006285 cell suspension Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000010992 reflux Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Activated Sludge Processes (AREA)
Abstract
一种基于动态插值的城市污水处理过程数据清洗方法于污水处理领域,针对城市污水处理过程数据中含有离群值和连续重复值混合导致数据质量差的问题。该动态插值方法通过滑动窗口对数据段进行分割,计算分割后数据段的异常因子系数,判定数据段异常情况,剔除异常数据段内的离群值和连续异常值,采用随机森林回归模型对缺失数据进行补偿,提高了城市污水处理过程数据的质量;实验结果表明该方法提高了数据补偿的精度,保障在城市污水处理工业中数据库的数据质量,提高了污水处理厂的研究提的可信度。
Description
技术领域
本发明在城市污水处理过程运行数据的分析基础上,通过滑动窗口对数据进行分段,计算每一段数据内异常因子系数,判定数据段异常情况,对异常数据段进行异常值剔除,用随机森林回归模型预测插值,以动态插值的方式实现城市污水处理过程数据的清洗。这种基于动态插值的城市污水处理过程数据清洗方法在实际过程中,能够清洗城市污水处理过程数据中含有的离群值和连续重复值混合数据,提高了城市污水处理过程数据的可信度,属于污水处理领域。
背景技术
在城市污水处理工业领域,由于受数据来源多样性、网络设备环境的复杂性以及推流等影响,检测数据质量低成为了城市污水处理工业中面临的一个比较突出的问题,这将会对城市污水处理工业中数据仓库的建立造成不良影响。得到高质量数据可以提高对城市污水处理过程研究的可信度,因此,本发明的研究成果对城市污水处理研究具有广阔的应用前景。
城市污水处理数据是实现城市污水处理过程运行状态监测、操作优化控制以及故障诊断等环节的重要依据,是提高城市污水处理效率和运营监管水平的信息基础。由于城市污水处理过程是一个包含许多复杂处理工艺的生化过程,长期稳定运行较为困难,系统工作环境复杂干扰较强,运行过程多处于泥水混合状态,具有腐蚀性强、干扰多、滞后性等特点,导致异常数据难以精确识别、剔除和补偿,从而无法进行有效的处理,严重降低了数据应用的数据可靠性,这为城市污水处理过程数据的分析、处理和运用挖掘带来困扰。如何获取高质量数据,降低异常数据影响已成为城市污水处理过程数据应用面临过程的挑战,为此,污水处理厂通常在数据应用过程中采用数据预处理方法,首先识别异常数据特征,对异常数据进行剔除,形成缺失数据集,再对缺数据集进行数据补偿操作,以提高数据质量,保证数据应用过程的可信度。然而,城市污水处理过程数据存在异常特征多样,包括离群数据、重复数据和缺失数据等,异常数据难以被识别和重新补偿,导致数据清洗效果不理想,因此本发明在提高出异常数据清洗效果上具有重要的现实意义。
本发明设计了一种基于动态插值的城市污水处理过程数据清洗方法,该方法利用滑动窗口对数据段进行分割,计算分割后数据段的异常因子系数,判定数据段异常情况,并剔除异常数据断内的异常值,用随机森林回归算法对缺失数据进行补偿,提高了数据异常处理过程中的准确度,以动态插值的方式为获得高质量的城市污水处理过程数据提供了一种有效的方法,实现污水处理厂的实际需求。
发明内容
本发明获得了一种基于动态插值的城市污水处理过程数据清洗方法,该方法通过滑动窗口对数据段进行分割,计算分割后数据段的异常因子系数,判定数据段异常情况;剔除异常数据段内的离群值和连续重复值;采用随机森林回归模型对缺失数据进行补偿,获得高质量城市污水处理过程数据,解决了城市污水处理过程数据中离群值和连续重复值处理效果不理想的问题,提高了城市污水处理过程数据的数据质量并具有较好的数据准确度。
本发明采用了如下的技术方案及实现步骤:
一种基于动态插值的城市污水处理过程数据清洗方法,其特征在于,包括以下步骤:
(1)数据选择:
数据清洗是为了提高数据的质量,对数据进行审查和校验的过程,在清洗前需要进行数据选择,选择质量较低的数据进行审查和校验,通过观察城市污水处理过程运行数据中好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水端酸碱度和进水端悬浮物的数据相对变化趋势,分析数据的稳定性,选择数据质量较低的好氧池前端溶解氧数据进行动态插值处理,采用主成分分析法筛选得到关键特征变量:缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度;
(2)识别异常值:
①初始化滑动窗口长度l,滑动窗口移动步长m,异常识别数据集第k距离为30,迭代次数n=1;
②滑动窗口内好氧池前端溶解氧数集为L,距数据集L第k距离的数据集为O,数据集O需要满足:至少存在k个数据集O’,O’∈D,使d(L,O’)≤d(L,O)成立,至多存在k-1个数据集O’,O’∈D,使d(L,O’)<d(L,O)成立,
其中,数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段,D是分割后数据段的集合,d(L,O)是数据集L和数据集O的距离,q是好氧池前端溶解氧数集异常属性个数,异常属性包括均值、最大值、最小值、峰值区间和均方差,q=5,f(Lp)和f(Op)是数据集L和数据集O的第p维属性值,p=1,2,3,…q,计算L的异常因子系数:
r-dis(L,O)=max{k-dis(O),d(L,O)} (2)
其中,r-dis(L,O)表示数据集L与数据集O的可达距离,k-dis(O)是数据集L和数据集O的第k距离,Idrk(L)是数据集L的局部可达密度,Nk(L)是输入好氧池前端溶解氧数据点与数据集L的距离小于数据集L第k距离数据点的集合,∑o∈Nk(L)Idrk(O)是集合Nk(L)中局部可达密度总和,LOFk(L)是数据集L的异常因子系数,计算数据集L的异常阈值V:
V=μ+λσ (5)
其中,μ是数据集L中异常因子的均值,σ是数据集L的标准差,λ是异常程度的控制量,λ∈[0,1],λ越大数据结果误差越小,为提高正常数据与异常数据的可分辨性,λ=1,若LOFk(L)>V或数据集L中含连续r个重复数据,则标记数据集L为异常数据集,跳转步骤③,否则则标记数据集L为正常数据集,跳转步骤④;
③若n<l,则比较数据集L中第n个数据L(n)与V的大小,大于V的L(n)置0,复数据置0,重迭代次数n加1返回步骤③,否则跳转步骤④;
④滑动窗口移动步长m,若窗口内数据含空值,则输出异常识别后的数据,否则迭代次数n=1,返回步骤②;
(3)建立随机森林回归模型:
①初始化回归树数目为100,当前迭代次数t=1;
②从训练样本中有放回随机抽样一个g×f的节点矩阵Dt,f为训练样本中输入变量个数,g为训练样本单一变量包含数据样本的个数,计算最大树高hmax:
hmax=log2(gf) (6)
③从Dt中无放回抽样一个e×w的切割矩阵Xcut,e、w均为随机数,0<e<<g,0<w<f,计算矩阵Xcut中的切割点系数,选择最小值作为当前切割点:
其中,i=1,2,3,...,e,j=1,2,3,...,w,e为Xcut中变量的个数,w为单一变量包含数据样本的个数,C(i,j)是以Xcut(i,j)为切割点分枝后的最优系数,Rleft(i,j)是切割后左子树矩阵,Rright(i,j)是切割后右子树矩阵,Q1是Rleft(i,j)的样本个数,Q2是Rright(i,j)的样本个数,
④以最优C(i,j)为切割点划分,记录Rleft(i,j)所在节点路径长度hl,若hl≥hmax或Q1<Q,则停止当前节点的分枝生长,跳转步骤⑤,否则用Rleft(i,j)更新Dt,跳转步骤③,
⑤记录未分支的Rright(i,j)所在节点径长度hr,若hr≥hmax或Q2<Q,则停止当前节点的分枝生长,跳转步骤⑥,否则用Rright(i,j)更新Dt,返回步骤③;
⑥若t<100,则迭代次数t加1,返回步骤②,否则停止训练,完成随机森林回归插值模型的建立,模型输出为:
(4)插值处理:选择标记异常的数据集,以缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度为随机森林回归模型输入,好氧池前端溶解氧为随机森林回归模型模型输出进行预测,用预测值代替异常数据集中数值为0的点,更新异常数据集,输出清洗后的数据。
本发明的创造性主要体现在:
(1)本发明针城市污水处理数据中含有离群值和连续重复值混合的问题,提出了一种动态异常因子检测异常数据的方法,通过滑动窗口对数据进行分段,计算数据段内异常因子系数,判断数据段异常情况,提高了异常数据识别的准确率;
(2)本发明针城市污水处理数据中异常值剔除的问题,仅对判断的异常数据段进行异常值剔除操作,形成缺失数据集,提高了异常值的剔除效率;
(3)本发明针对当前数据集中含缺失数据的问题,提出了一种基于随机森林回归的数据补偿方法,通过相关变量对缺失数据进行预测补偿,解决了数据中含缺失数据的问题,得到高质量城市污水处理过程运行数据。
附图说明
图1是本发明动态插值数据清洗方法的异常数据段预测补偿值效果图,其中实线为好氧池前端溶解氧实际值,虚线为测试样本异常数据段中预测补偿值;
图2是本发明动态插值数据清洗方法的异常数据段误差图;
具体实施方式
采用某污水处理厂2020年水质分析表为实验数据;分别取好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水小室酸碱度、进水小室悬浮物、外回流流量计的实际污水处理过程数据为实验样本数据,选取500组数据,其中350组用作训练样本,150组作为测试样本,在测试样本中随机加入10组噪声数据以验证方法有效性。
本发明采用了如下的技术方案及实现步骤:
1.一种基于动态插值的城市污水处理过程数据清洗方法,其特征在于,包括以下步骤:
(1)数据选择:
数据清洗是为了提高数据的质量,对数据进行审查和校验的过程,在清洗前需要进行数据选择,选择质量较低的数据进行审查和校验,通过观察城市污水处理过程运行数据中好氧池前端溶解氧、好氧池末端混合悬浮物、缺氧池前端氧化还原电位、缺氧池末端液位、缺氧池末端硝态氮、进水小室酸碱度和进水小室悬浮物的数据相对变化趋势,分析数据的稳定性,选择数据质量较低的好氧池前端溶解氧数据进行动态插值处理,采用主成分分析法筛选得到关键特征变量:缺氧池前端氧化还原电位,进水小室悬浮物,缺氧池末端硝态氮,进水小室酸碱度;
(2)识别异常值:
1)初始化滑动窗口长度l,l=30,移动步长m,m=1,可允许最大连续重复次数为r,r=5,数据集距离设定为k,k=30,迭代次数n=1;
2)滑动窗口内好氧池前端溶解氧数据集为L,距数据集L第k距离的数据集为O,数据集O需要满足:至少存在k个数据集O’,O’∈D,使d(L,F)≤d(L,O)成立,至多存在k-1个数据集O’,O’∈D,使d(L,O’)<d(L,O)成立,
其中,数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段,D是滑窗将好氧池前端溶解氧数据分割后的数据段集合,d(L,O)是数据集L和数据集O的距离,q是异常属性个数,包括均值、最大值、峰值区间和均方差,f(Lp)和f(Op)是数据集L和数据集O的第p维属性值,p=1,2,3,…q,计算L的异常因子系数:
r-dis(L,O)=max{k-dis(O),d(L,O)} (10)
其中,r-dis(L,O)表示数据集L与数据集O的可达距离,k-dis(O)是数据集L和数据集O的第k距离,Idrk(L)是数据集L的局部可达密度,Nk(L)是输入好氧池前端溶解氧数据集中与数据集L的距离不超过其第k距离的所有数据集合,∑o∈Nk(L)Idrk(O)是集合Nk(L)中局部可达密度总和,LOFk(L)是数据集L的异常因子系数,计算数据集L的异常阈值:
V=μ+λσ (13)
其中,μ是数据集L中异常因子的均值,σ是数据集L的标准差,λ是异常程度的控制量,λ=1,若LOFk(L)>V或数据集L中含连续r个重复数据,则标记数据集L为异常数据集,跳转步骤3),否则则标记数据集L为正常数据集,跳转步骤4);
3)若n<l,则比较数据集L中第n个数据L(n)与V的大小,大于V的L(n)置0,并将连续r个重复数据置0,迭代次数n加1返回步骤3),否则跳转步骤4);
4)若滑动窗口无法移动步长,则输出异常识别后的数据,否则滑动窗口移动步长m,迭代次数n=1,返回步骤2);
(3)建立随机森林回归模型:
①初始化回归树数目100,当前迭代次数t=1;
②从训练样本中有放回抽样一个样本大小为256的节点矩阵Dt,计算最大树高hmax:
hmax=log2(u) (14)
其中,u=256;
③从Dt中无放回抽样一个e×w的切割矩阵Xcut,计算矩阵Xcut中C(i,j)的值,选择最小值作为当前切割点:
其中,i=1,2,3,...,e,j=1,2,3,...,w,e为Xcut中变量的个数,w为单一变量包含数据样本的个数,C(i,j)是以Xcut(i,j)为切割点分枝后的最优系数,Rleft(i,j)是切割后左子树矩阵,Rright(i,j)是切割后右子树矩阵,Q1是Rleft(i,j)的样本个数,Q2是Rright(i,j)的样本个数,
④以最优C(i,j)为切割点划分,记录Rleft(i,j)所在节点路径长度hl,Rright(i,j)所在节点径长度hr,若hl≥hmax或Q1<Q,则停止当前节点的分枝生长,否则用Rleft(i,j)更新Dt,返回步骤③,若hd≥hmax或Q2<Q,则停止当前节点的分枝生长,否则用Rright(i,j)更新Dt,返回步骤③;
⑤若t<T,则迭代次数t加1,返回步骤②,否则停止训练,完成随机森林回归插值模型的建立,模型输出为:
(4)插值处理:选择标记异常的数据集,以缺氧池前端氧化还原电位,进水小室悬浮物,缺氧池末端硝态氮,进水小室酸碱度为随机森林回归模型输入,好氧池前端溶解氧为随机森林回归模型模型输出进行预测,用预测值代替异常数据集中数值为0的点,更新异常数据集,输出清洗后的数据。
实际数据:
表1.好氧池前端溶解氧输入值(mg/L)
0.39 | 0.41 | 0.4 | 0.39 | 0.41 | 0.39 | 0.38 | 0.39 | 0.4 | 0.37 |
0.35 | 0.35 | 0.49 | 0.51 | 0.49 | 0.46 | 0.48 | 0.49 | 0.48 | 0.47 |
0.5 | 0.5 | 0.57 | 0.62 | 0.46 | 0.29 | 0.27 | 0.28 | 0.27 | 0.24 |
0.23 | 0.21 | 0.21 | 0.21 | 0.22 | 0.21 | 0.21 | 0.21 | 0.2 | 0.23 |
0.2 | 0.22 | 0.22 | 0.23 | 0.24 | 0.25 | 0.24 | 0.24 | 0.26 | 0.25 |
0.24 | 0.23 | 0.23 | 0.25 | 0.25 | 0.26 | 0.26 | 0.26 | 0.26 | 0.26 |
0.27 | 0.25 | 0.27 | 0.28 | 0.28 | 0.28 | 0.27 | 0.27 | 0.26 | 0.27 |
… | |||||||||
… | |||||||||
… | |||||||||
0.19 | 0.2 | 0.18 | 0.18 | 0.19 | 0.2 | 0.19 | 0.21 | 0.2 | 0.2 |
0.21 | 0.25 | 0.25 | 0.24 | 0.25 | 0.24 | 0.24 | 0.25 | 0.25 | 0.26 |
0.24 | 0.25 | 0.24 | 0.25 | 0.23 | 0.23 | 0.23 | 0.22 | 0.23 | 0.34 |
0.37 | 0.31 | 0.29 | 0.3 | 0.29 | 0.3 | 0.29 | 0.3 | 0.3 | 0.31 |
0.32 | 0.31 | 0.32 | 0.32 | 0.3 | 0.32 | 0.29 | 0.26 | 0.26 | 0.26 |
0.26 | 0.27 | 0.26 | 0.26 | 0.27 | 0.26 | 0.27 | 0.26 | 0.26 | 0.26 |
0.26 | 0.25 | 0.25 | 0.27 | 0.26 | 0.26 | 0.26 | 0.26 | 0.26 | 0.26 |
表2.进水小室酸碱度输入值
表3.进水小室悬浮物输入值(mg/L)
103.64 | 103.64 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.58 | 103.64 | 103.64 |
103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.64 | 103.64 | 103.64 | 103.7 |
103.7 | 103.64 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 |
103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 |
103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 |
103.76 | 103.76 | 103.82 | 103.76 | 103.76 | 103.76 | 103.76 | 103.76 | 103.76 | 103.7 |
103.7 | 103.76 | 103.76 | 103.76 | 103.76 | 103.76 | 103.76 | 103.76 | 103.76 | 103.76 |
… | |||||||||
… | |||||||||
… | |||||||||
103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.64 |
103.64 | 103.64 | 103.58 | 103.64 | 103.64 | 103.58 | 103.58 | 103.52 | 103.52 | 103.52 |
103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 |
103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 | 103.52 |
103.52 | 103.52 | 103.52 | 103.64 | 103.64 | 103.64 | 103.7 | 103.7 | 103.7 | 103.7 |
103.7 | 103.7 | 103.7 | 103.7 | 103.58 | 103.64 | 103.58 | 103.64 | 103.7 | 103.7 |
103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.7 | 103.64 | 103.58 | 103.58 |
表4.缺氧池前端氧化还原电位输入值(mg/L)
表5.缺氧池末端硝态氮输入值(mg/L)
4.35 | 4.69 | 4.7 | 4.82 | 4.54 | 4.61 | 4.64 | 4.59 | 4.77 | 4.19 |
4.15 | 4.2 | 4.46 | 4.27 | 4.54 | 4.31 | 4.99 | 4.85 | 4.51 | 4.97 |
4.88 | 5.18 | 5.46 | 5.18 | 4.65 | 4.1 | 4.04 | 3.95 | 3.13 | 3.46 |
2.97 | 2.99 | 2.89 | 2.88 | 2.97 | 2.72 | 2.62 | 2.74 | 2.57 | 2.86 |
2.76 | 2.49 | 2.28 | 2.47 | 1.81 | 1.75 | 1.79 | 1.22 | 1.33 | 1.17 |
1.01 | 2.33 | 2.79 | 3.3 | 3.4 | 2.92 | 3.17 | 3.25 | 2.91 | 3.16 |
3.3 | 3.57 | 3.22 | 3.33 | 3.23 | 3.09 | 3.52 | 3.75 | 3.57 | 3.98 |
… | |||||||||
… | |||||||||
… | |||||||||
1.16 | 1.13 | 0.94 | 1.4 | 1.35 | 1.04 | 2.15 | 3.8 | 3.72 | 3.72 |
3.6 | 3.68 | 3.99 | 4.13 | 4.37 | 4.28 | 4.35 | 4.44 | 4.12 | 4.5 |
4.44 | 4.35 | 4.83 | 4.61 | 4.47 | 4.48 | 4.61 | 4.88 | 4.98 | 5.1 |
5.41 | 5.4 | 6.05 | 6.05 | 6.3 | 5.68 | 5.9 | 5.96 | 5.9 | 5.93 |
6.24 | 6.16 | 6.14 | 6.23 | 6.15 | 6.21 | 6.51 | 6.48 | 6.39 | 6.12 |
6.67 | 6.19 | 6.03 | 6.83 | 6.02 | 5.88 | 7.04 | 6.24 | 6.53 | 5.91 |
5.87 | 5.86 | 5.84 | 5.59 | 5.69 | 5.76 | 5.99 | 6.03 | 6.01 | 6.48 |
Claims (1)
1.一种基于动态插值的城市污水处理过程数据清洗方法,其特征在于,包括以下步骤:
(1)数据选择:
采用主成分分析法筛选得到关键特征变量:缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度;
(2)识别异常值:
①初始化滑动窗口长度l,滑动窗口移动步长m,异常识别数据集第k距离为30,迭代次数n=1;
②滑动窗口内好氧池前端溶解氧数集为L,距数据集L第k距离的数据集为O,数据集O需要满足:至少存在k个数据集O’,O’∈D,使d(L,O’)≤d(L,O)成立,至多存在k-1个数据集O’,O’∈D,使d(L,O’)<d(L,O)成立,
其中,数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段,D是分割后数据段的集合,d(L,O)是数据集L和数据集O的距离,q是好氧池前端溶解氧数集异常属性个数,异常属性包括均值、最大值、最小值、峰值区间和均方差,q=5,f(Lp)和f(Op)是数据集L和数据集O的第p维属性值,p=1,2,3,…q,计算L的异常因子系数:
r-dis(L,O)=max{k-dis(O),d(L,O)} (2)
其中,r-dis(L,O)表示数据集L与数据集O的可达距离,k-dis(O)是数据集L和数据集O的第k距离,Idrk(L)是数据集L的局部可达密度,Nk(L)是输入好氧池前端溶解氧数据点与数据集L的距离小于数据集L第k距离数据点的集合,∑o∈Nk(L)Idrk(O)是集合Nk(L)中局部可达密度总和,LOFk(L)是数据集L的异常因子系数,计算数据集L的异常阈值V:
V=μ+λσ (5)
其中,μ是数据集L中异常因子的均值,σ是数据集L的标准差,λ=1,若LOFk(L)>V或数据集L中含连续r个重复数据,则标记数据集L为异常数据集,跳转步骤③,否则则标记数据集L为正常数据集,跳转步骤④;
③若n<l,则比较数据集L中第n个数据L(n)与V的大小,大于V的L(n)置0,复数据置0,重迭代次数n加1返回步骤③,否则跳转步骤④;
④滑动窗口移动步长m,若窗口内数据含空值,则输出异常识别后的数据,否则迭代次数n=1,返回步骤②;
(3)建立随机森林回归模型:
①初始化回归树数目为100,当前迭代次数t=1;
②从训练样本中有放回随机抽样一个g×f的节点矩阵Dt,f为训练样本中输入变量个数,g为训练样本单一变量包含数据样本的个数,计算最大树高hmax:
hmax=log2(gf) (6)
③从Dt中无放回抽样一个e×w的切割矩阵Xcut,e、w均为随机数,0<e<<g,0<w<f,计算矩阵Xcut中的切割点系数,选择最小值作为当前切割点:
其中,i=1,2,3,...,e,j=1,2,3,...,w,e为Xcut中变量的个数,w为单一变量包含数据样本的个数,C(i,j)是以Xcut(i,j)为切割点分枝后的最优系数,Rleft(i,j)是切割后左子树矩阵,Rright(i,j)是切割后右子树矩阵,Q1是Rleft(i,j)的样本个数,Q2是Rright(i,j)的样本个数,
④以最优C(i,j)为切割点划分,记录Rleft(i,j)所在节点路径长度hl,若hl≥hmax或Q1<Q,则停止当前节点的分枝生长,跳转步骤⑤,否则用Rleft(i,j)更新Dt,跳转步骤③,
⑤记录未分支的Rright(i,j)所在节点径长度hr,若hr≥hmax或Q2<Q,则停止当前节点的分枝生长,跳转步骤⑥,否则用Rright(i,j)更新Dt,返回步骤③;
⑥若t<100,则迭代次数t加1,返回步骤②,否则停止训练,完成随机森林回归插值模型的建立,模型输出为:
(4)插值处理:选择标记异常的数据集,以缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度为随机森林回归模型输入,好氧池前端溶解氧为随机森林回归模型模型输出进行预测,用预测值代替异常数据集中数值为0的点,更新异常数据集,输出清洗后的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221279.6A CN113157674A (zh) | 2021-02-27 | 2021-02-27 | 一种基于动态插值的城市污水处理过程数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221279.6A CN113157674A (zh) | 2021-02-27 | 2021-02-27 | 一种基于动态插值的城市污水处理过程数据清洗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113157674A true CN113157674A (zh) | 2021-07-23 |
Family
ID=76883649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110221279.6A Pending CN113157674A (zh) | 2021-02-27 | 2021-02-27 | 一种基于动态插值的城市污水处理过程数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157674A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115290286A (zh) * | 2022-10-10 | 2022-11-04 | 中国空气动力研究与发展中心高速空气动力研究所 | 一种亚跨超声速风洞流场稳定性的集成学习评估系统 |
CN115547508A (zh) * | 2022-11-29 | 2022-12-30 | 联仁健康医疗大数据科技股份有限公司 | 数据校正方法、装置、电子设备及存储介质 |
US11809517B1 (en) * | 2022-09-21 | 2023-11-07 | Southwest Jiaotong University | Adaptive method of cleaning structural health monitoring data based on local outlier factor |
CN117077051A (zh) * | 2023-07-18 | 2023-11-17 | 重庆交通大学 | 一种大坝监测异常数据自适应识别方法 |
CN117331921A (zh) * | 2023-09-28 | 2024-01-02 | 石家庄铁道大学 | 一种轴承监测多源数据处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN109214355A (zh) * | 2018-09-29 | 2019-01-15 | 西安交通大学 | 一种基于核估计lof的机械监测数据异常段检测方法 |
CN111398886A (zh) * | 2020-04-09 | 2020-07-10 | 国网山东省电力公司电力科学研究院 | 一种自动化检定流水线表位在线异常的检测方法及系统 |
CN111833172A (zh) * | 2020-05-25 | 2020-10-27 | 百维金科(上海)信息科技有限公司 | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 |
CN112101174A (zh) * | 2020-09-09 | 2020-12-18 | 洛阳师范学院 | 一种基于LOF-Kurtogram的机械故障诊断方法 |
-
2021
- 2021-02-27 CN CN202110221279.6A patent/CN113157674A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN109214355A (zh) * | 2018-09-29 | 2019-01-15 | 西安交通大学 | 一种基于核估计lof的机械监测数据异常段检测方法 |
CN111398886A (zh) * | 2020-04-09 | 2020-07-10 | 国网山东省电力公司电力科学研究院 | 一种自动化检定流水线表位在线异常的检测方法及系统 |
CN111833172A (zh) * | 2020-05-25 | 2020-10-27 | 百维金科(上海)信息科技有限公司 | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 |
CN112101174A (zh) * | 2020-09-09 | 2020-12-18 | 洛阳师范学院 | 一种基于LOF-Kurtogram的机械故障诊断方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11809517B1 (en) * | 2022-09-21 | 2023-11-07 | Southwest Jiaotong University | Adaptive method of cleaning structural health monitoring data based on local outlier factor |
CN115290286A (zh) * | 2022-10-10 | 2022-11-04 | 中国空气动力研究与发展中心高速空气动力研究所 | 一种亚跨超声速风洞流场稳定性的集成学习评估系统 |
CN115547508A (zh) * | 2022-11-29 | 2022-12-30 | 联仁健康医疗大数据科技股份有限公司 | 数据校正方法、装置、电子设备及存储介质 |
CN117077051A (zh) * | 2023-07-18 | 2023-11-17 | 重庆交通大学 | 一种大坝监测异常数据自适应识别方法 |
CN117331921A (zh) * | 2023-09-28 | 2024-01-02 | 石家庄铁道大学 | 一种轴承监测多源数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113157674A (zh) | 一种基于动态插值的城市污水处理过程数据清洗方法 | |
Stoffel et al. | inbreedR: an R package for the analysis of inbreeding based on genetic markers | |
CN108417033B (zh) | 基于多维因素的高速路交通事故分析预测方法 | |
CN110782658B (zh) | 一种基于LightGBM算法的交通量预测方法 | |
CN112132333B (zh) | 一种基于深度学习的短期水质水量预测方法及系统 | |
CN110134919B (zh) | 风电机组异常数据清洗方法 | |
CN112508243B (zh) | 电力信息系统多故障预测网络模型的训练方法及装置 | |
CN113051683B (zh) | 一种数控机床刀具寿命预测方法、系统、设备及存储介质 | |
CN111160776A (zh) | 利用分块主成分分析的污水处理过程异常工况检测方法 | |
CN112417765B (zh) | 一种基于改进师生网络模型的污水处理过程故障检测方法 | |
CN114527249B (zh) | 一种水质监测数据质量控制方法及系统 | |
CN110905478B (zh) | 一种基于箱线图法和马氏平方距离法的钻井数据清洗方法 | |
CN110542748B (zh) | 一种基于知识的鲁棒型出水氨氮软测量方法 | |
CN110632191B (zh) | 一种基于决策树算法的变压器色谱峰定性方法和系统 | |
CN114707424B (zh) | 基于质量相关慢特征分析算法的化工过程软测量方法 | |
CN116522993A (zh) | 一种基于对抗自编码网络的化工过程故障检测方法 | |
CN115169691A (zh) | 基于人工智能的污染因子排放预测系统、方法及存储介质 | |
CN110837886A (zh) | 一种基于elm-sl0神经网络的出水nh4-n软测量方法 | |
CN113539386A (zh) | 基于clmvo-elm的溶解氧浓度预测方法、装置、设备及存储介质 | |
CN112631255B (zh) | 一种基于变分自编码器模型的污水处理过程故障监测方法 | |
CN117388457B (zh) | 一种耦合水力停留时间提高污水厂出水预测精度的方法 | |
CN114626300B (zh) | 一种基于数据离散化的出水总氮智能预测方法 | |
CN112924646B (zh) | 一种基于自适应剪枝前馈小世界神经网络的出水bod软测量方法 | |
CN113848307A (zh) | 一种针对污泥膨胀的特征提取主成分分析在线监测方法 | |
CN118152992A (zh) | 基于机器学习的管道腐蚀预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |