CN116796905A

CN116796905A - 一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法

Info

Publication number: CN116796905A
Application number: CN202310799401.7A
Authority: CN
Inventors: 王孝强; 叶兵; 张海瑞; 张慧敏; 董长青; 赵莹; 胡笑颖; 程桂石
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-22

Abstract

本发明提供了垃圾渗滤液处理过程中微生物反应器出水指标的预测方法。运行参数有因素X和具体出水指标y两类，监测数据有控制系统监测的一分钟一记录的分钟数据集、人工每天固定时间段TF取样分析一次而得的天数据集。分钟数据集只保留TF时间段内的记录，按天分成若干子集，用四分位法剔除各子集及天数据集的异常记录。变异系数c_v小的子集用平均值记录代替，弃用c_v大的子集，分钟数据集就统一成了天数据集。按日子顺序合并所有天数据集得并集，为缺记录的日子插入空记录。并集记录若缺因素X向量的某个具体因素x_i，用线性插值生成，若缺y值用半监督回归算法生成，所得数据集用来训练改进型长短期记忆神经网络模型，能准确预测出水指标。

Description

一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法

技术领域

本发明涉及污水处理智能预测领域，具体涉及一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，基于半监督回归算法和改进型长短期记忆(Long Short TermMemory，LSTM)神经网络实现垃圾渗滤液处理过程中微生物反应器出水指标的准确预测。

背景技术

城镇生活垃圾常含有大量水分，加之雨水淋漓，在填埋处理过程或者垃圾燃烧电厂堆放存储过程，都会产生渗滤液污水，含有化学需氧量(Chemical Oxygen Demand，COD)和氨氮(NH₄-N)等污染物。常见的处理工艺中，可能有前端调节池的物理混合和后端的高级氧化或者膜法物理过滤，但运营成本低的微生物反应器(如厌氧发酵罐、反硝化-硝化池)常常不可或缺，特别是污水量较大的情况，微生物反应器可以承担主要的污染物降解作用。

渗滤液污水处理运维中需要对每个反应器进行运行参数监测，一是对出水指标y的监测，即出水状态，如出水污染物浓度、出水pH等；二是影响因素X的监测，包括进水状态和反应器工况两类，进水状态有进水污染物浓度、进水流量、进水pH等，反应器工况有温度、曝气等。在这些指标y和因素X中，还可按监测方式分为两类，(1)污染物浓度，由人工化验监测，因分析步骤复杂耗时无法自动化在线监测，每天都在某个时间段(TF,Time Frame)由人工取样测定一次；(2)其他，由DCS系统自动监测，渗滤液处理DCS控制系统(DistributedControl System)的传感器实时在线自动监测，并作为自动化控制的依据。在生产中要根据反应器进水状态X的波动变化，提前预判反应器工况X的控制调节方案，每级反应器都如此预判控制，最后级反应器的出水指标y就能达到排放标准。因此，如果能建立反应器出水指标y受因素X影响的数学模型y＝h(X),依据模型提前预判预测y,就能提升智能化运维水平。模型中的y是反应器的具体出水指标，X是影响y的因素X向量，X含有多个具体的反应器因素(x₁,x₂,…,x_i,…,x_m)，y和X统称为运行参数。

渗滤液污水处理过程中物理类、化学类反应器的影响因素少，可以用较为确定的公式理论模型进行描述。微生物反应器是生物过程，影响因素复杂，不确定性高，是重点环节，可以用神经网络建立模型。与数据拟合回归类模型一样，神经网络模型也属于数据驱动的经验模型，只是因素x_i较多即维度较多的情况，无法通过回归算法建模。从生产监测的历史大数据中，整理出若干条数据形成数据集，每条数据称为一条记录，都是由具体出水指标y(因变量)、以及影响y的因素X向量(自变量)组成，然后可以通过神经网络算法建立y和X之间的数据关系模型。数据集的整理是建模的关键，但源数据即监测的运行参数历史大数据经常存在如下两个问题：(1)监测频次不同，DCS系统自动监测的运行参数是小周期高频的分钟数据集，常常是一分一记录，而人工化验监测的是大周期低频的天数据集，常常是一天一记录，来自每天固定时间段TF内的一次取样测定，没有确定的具体时刻，不能确定何时何分。(2)记录不齐备，出水污染物浓度y和进水污染物浓度(属因素X)是人工化验监测的天数据集，其他因素X是DCS自动监测的分钟数据集，因此大量来自DCS系统的因素X没有对应的y，即缺乏标签。

中国专利文献CN111027776A公开了一种基于改进型长短期记忆LSTM神经网络的污水处理水质预测方法，该方法表明LSTM神经网络引入dropout网络结构层后可以很好对大时滞和强耦合类数据进行分析。中国专利文献CN115345344A公开了一种基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法，该方法通过向LSTM神经网络中引入注意力机制的方式较好地获取了历史数据对出水水质的影响权重。中国专利文献CN104965971B公开了一种基于模糊神经网络的氨氮浓度软测量方法，采用模糊神经网络建立了氨氮浓度的软测量模型。美国专利文献US11370679B2公开了一种分散式污水处理设施出水水质预测方法，通过收集历史数据建立支持向量机预测模型有效预测了分散式污水处理设施出水水平。上述文献方法表明人工神经网络等智能预测方法可以有效用于污水处理过程中污染物浓度指标的预测，但这些专利文献所描述的都是数据集完整的场景，不存在前述的各运行参数监测频次不同、大量记录缺乏标签的问题。

针对运行参数监测频次不同、记录不齐备的问题，本发明提出一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，有助于提升智能化运维水平。

发明内容

渗滤液污水处理过程中的微生物反应器，如厌氧发酵罐、反硝化-硝化池，因素复杂、波动性大，是重点环节，可采用基于生产历史大数据的神经网络模型进行出水指标(如COD浓度、NH₄-N浓度、pH)的预测预判，提升智能化运维水平。为了解决运行参数监测频次不同、记录不齐备的问题，本发明提出了一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，包括以下步骤。

步骤1：收集运行参数监测数据，有控制系统监测的一分钟一记录的分钟数据集、人工每天固定时间段TF取样分析一次而得的天数据集；

步骤2：分钟数据集只保留TF时间段内的记录，按天划分成若干分钟数据子集，用四分位法剔除各分钟数据子集、天数据集的异常记录；

步骤3：计算各分钟数据子集的变异系数c_v，c_v≤5-30％即波动小的子集由其平均值记录代替，弃用c_v大的子集，分钟数据集就统一成了天数据集；

步骤4：按日子顺序合并所有天数据集，得到因素X和具体出水指标y两类运行参数组成的并集，为缺记录的日子插入无参数值的空记录；

步骤5：因素X向量包括多个具体影响因素x_i，若并集记录无某个x_i值，用线性插值生成；

步骤6：若并集记录无出水指标y值，用半监督回归算法生成，获得完整的时间序列数据集；

步骤7：用时间序列数据集，训练获得改进型长短期记忆神经网络模型；

步骤8：用神经网络模型，预测渗滤液处理过程中微生物反应器出水指标。

优选地，所述步骤1中，所述运行参数有两类：反应器的具体出水指标y、以及影响y的多个反应器因素(x₁,x₂,…,x_i,…,x_m，统称为因素X向量)。因素X中的进水污染物浓度和出水污染物浓度y的监测数据一般是大周期低频的天数据集，周期常为1天，1天1记录，来自人工监测化验，每天都在某个时间段TF(Time Frame)取样分析1次，具体时刻常常未记而未知。其他因素X的监测数据一般是小周期高频的分钟数据集，周期常为1分钟，1分钟1记录，来自DCS控制系统(Distributed Control System)自动监测。因素X中的进水污染物浓度,就是上级反应器出水或来水中的污染物浓度。大量X缺乏对应的y即缺乏标签，即使有y,因监测频次不同，在时刻上也不是严格一一对应的。所述数据集都是某个具体运行参数的数据集，由若干条数据组成。所述记录就是数据集的一条数据，由时间、一个运行参数(某x_i或某y)数据值组成。所述天数据集记录的时间为日子(年月日)，所述分钟数据集记录的时间为分(年月日时分)。

优选地，所述步骤2中，所述四分位法的具体计算过程为：将所有记录依据运行参数的数据值从小到大依次排序，将处在1/4和3/4位置的数据值记为Q₁和Q₃，进而利用公式IQR＝(Q₃-Q₁)计算出四分位距IQR，那么正常数据的区间范围就是[Q₁-1.5×IQR，Q₃+1.5×IQR]，处于区间范围外的数据值认为是异常值，删除异常值所在的记录。

优选地，所述步骤3中，所述c_v的具体计算过程为：先计算子集所有记录运行参数的标准差σ、平均值μ，然后通过c_v＝σ/μ获得子集的变异系数c_v；所述平均值记录，由子集所在的时间日子(年月日)及平均值μ组成。

优选地，所述步骤5中，所述线性插值的具体过程为：若某日子的并集记录无某个x_i值，则这日子在内的连续d天(d≥1,依次记为第1,2,…,d天)都缺乏x_i,找到这连续d天的前后最邻近记录，即前一条记录和后一条记录，这两条记录的因素x_i分别记为x_i前和x_i后，计算Δx_i＝x_i前-x_i后,及步长s_i＝Δx_i/(d+1)，则第d天的x_id＝x_i前+s_i×d，即第d天所对应日子记录的因素x_i的数据值为x_id。

优选地，所述步骤6中，所述半监督回归算法包括以下具体步骤：

步骤601、所述步骤5所得并集分为有标签y的L和无y的U；保留L，将L按3:1分成LT和验证集LV，复制LT成训练集LTA和LTB；

步骤602、保留数据集U的同时，从U中随机选出n(≥1)条记录形成子集U₁，剩下的记录组成子集U₁'；

步骤603、训练LTA和LTB得到不同距离度量的knn邻近算法模型h₁和h₂，非第一次执行本步骤时，若训练集与上次无变化，不用重复训练；

步骤604、取U₁一记录u₁(有X无y)，计算值h₁(X)/h₂(X)充当y，分别与X形成记录R₁/R₂；将R₁/R₂分别追加给LTA/LTB，重新训练LTA/LTB得到模型h₁'/h₂'；以u₁在L中的k个最近邻点记录计算偏差Δy₁和Δy₂：

步骤605、若Δy₁＞0，将新记录R₁追加给训练集LTB，删除U₁中的记录u，若Δy₂＞0亦然。若U₁'还有记录，且未达到设定的最大循环次数N，随机移动一条U₁'的记录到U₁，跳到步骤603执行步骤603-605；

步骤606、按h＝0.5(h₁+h₂)得最终knn邻近算法模型h，对U中的所有记录，用h函数计算，得到的值h(X)作为X所对应的y,形成完整记录追加到L中，按日子先后排序后，L即是完整的时间序列数据集。

优选地，所述步骤7中，所述神经网络模型的结构为：因素X向量输入第一层LSTM神经网络，经过dropout层后到第二层LSTM神经网络，再经过另一个dropout层后到Dense全连接层，输出指标y预测值。

本发明的上述技术方案，覆盖了从监测数据到模型、到预测应用的如下环节：异常记录剔除、分钟数据集统一成天数据集、合并天数据集得并集、生成补足并集记录中缺乏的因素x_i和出水指标y、训练获得改进型长短期记忆神经网络模型、模型预测应用，解决了渗滤液污水处理运行参数监测频次不同、记录不齐备的问题，其有益效果如下：

(1)分钟数据集只保留TF时间段内的记录，按天划分成若干分钟数据子集，通过变异系数c_v判定分钟数据子集的变化波动；为了减小误差，变化波动小(c_v≤5-30％)的子集才用平均值记录代替，弃用变化波动大的子集，由此分钟数据集统一成天数据集；按日子顺序合并所有天数据集，得到因素X和具体出水指标y两类运行参数组成的并集，为缺记录的日子插入无参数值的空记录，有效地整合了监测频次不同的运行参数历史大数据。

(2)并集记录若缺因素X向量的某个具体因素x_i，用线性插值生成，若缺y值用半监督回归算法生成，解决了记录不齐备的问题，有效地构建了完整的时间序列数据集，为神经网络模型训练提供了数据样本基础。

(3)构建了改进型LSTM神经网络模型结构，两次LSTM神经网络层的嵌入能够更深入地反映因素X和具体出水指标y之间的隐藏关系；每个LSTM层连接一个dropout层，有效避免了模型的过拟合的问题，提高了模型的泛化性。

需要说明的是，数据集的整理是神经网络建模的关键之一。本发明提供的一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，主要是解决渗滤液污水处理运行参数监测频次不同、记录不齐备的问题，主要提供了数据集整理的流程方法，也提供了包括数据集整理、神经网络建模及模型应用在内的出水指标预测全流程方法。流程中使用到的半监督回归算法、knn邻近算法、长短期记忆LSTM神经网络，是本领域技术人员所熟知的、容易从资料中获取的具体人工智能技术，本发明未展开赘述。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明的一种垃圾渗滤液处理过程中微生物反应器出水指标预测方法的流程图；

图2是本发明的半监督回归算法流程图；

图3是本发明的改进型LSTM神经网络模型结构示意图；

图4是本发明对垃圾渗滤液处理过程中微生物反应器出水指标预测的效果图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

本发明针对垃圾渗滤液处理的生产历史大数据存在监测频次不同、记录不齐备的问题，提出了一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，基于半监督回归算法和改进型LSTM神经网络实现了对于微生物反应器出水指标的准确预测，有助于提升智能化运维水平。

本发明实施例的数据来自某城镇生活垃圾燃烧电厂，电厂采用微生物反应器(厌氧发酵罐、反硝化-硝化池)及后续膜法物理过滤处理垃圾在堆放过程中渗出的渗滤液污水。监测的各运行参数数据集由若干条数据组成，一条数据就是一条记录，记录由时间、一个运行参数数据值组成，有两类：天数据集记录的时间为日子(年月日)，分钟数据集记录的时间为分(年月日时分)。运行参数存在监测频次不同、记录不齐备的问题。本发明以该电厂渗滤液处理过程中“反硝化-硝化池”出水化学需氧量COD浓度预测为例，介绍具体实施方式，NH₄-N等其他出水指标、以及厌氧发酵罐出水指标的预测都类似、不再赘述。实施流程如图1所示，具体实施过程如下。

步骤1：收集运行参数监测数据，有控制系统监测的一分钟一记录的分钟数据集、人工每天固定时间段TF取样分析一次而得的天数据集。为了预测微生物反应器“反硝化-硝化池”的出水化学需氧量COD浓度，需收集“反硝化-硝化池”2021-2022两年运行参数监测数据，运行参数包括“反硝化-硝化池”反应器的具体出水指标y(即出水指标COD浓度)、以及影响y的多个反应器因素(统称为因素X向量)。收集到的数据有控制系统监测的分钟数据集，包括进水流量、反硝化池液位、硝化池温度、溶解氧浓度、曝气风管压力五个因素；还有人工每天都在8:30-9:30这个时间段TF(Time Frame)取样分析一次而得的天数据集，包括出水指标COD浓度和进水COD浓度。后文实施例介绍中，“X”字母的含义就是因素X向量，包括了“反硝化-硝化池”的六因素：进水COD浓度、进水流量、反硝化池液位、硝化池温度、溶解氧浓度、曝气风管压力，“x_i”指的就是这六因素之一；“y”字母的含义就是“反硝化-硝化池”出水COD浓度这一具体的出水指标，后文实施例介绍中的“y”与“COD”含义等同。

步骤2：分钟数据集只保留TF时间段内的记录，按天划分成若干分钟数据子集，用四分位法分别剔除各分钟数据子集、天数据集的异常记录。四分位法的具体计算过程为：将所有记录依据运行参数的数据值从小到大依次排序，将处在1/4和3/4位置的数据值记为Q₁和Q₃，进而利用公式IQR＝(Q₃-Q₁)计算出四分位距IQR，那么正常数据的区间范围就是[Q₁-1.5×IQR，Q₃+1.5×IQR]，处于区间范围外的数据值认为是异常值，删除异常值所在的记录。

步骤3：计算各分钟数据子集的变异系数c_v，c_v≤15％即波动小的子集由其平均值记录代替，弃用c_v大的子集，分钟数据集就统一成了天数据集。所述c_v的具体计算过程为：先计算子集所有记录运行参数的标准差σ、平均值μ，然后通过c_v＝σ/μ获得子集的变异系数c_v；所述平均值记录，由子集所在的时间日子(年月日)及平均值μ组成。

步骤4：按日子顺序合并所有天数据集，得到因素X和具体出水指标y两类运行参数组成的并集，为缺记录的日子插入无参数值的空记录。

步骤5：因素X向量包括多个具体影响因素x_i，若并集记录无某个x_i值，用线性插值生成。所述线性插值的具体过程为：若某日子的并集记录无某个x_i值，则这日子在内的连续d天(d≥1,依次记为第1,2,…,d天)都缺乏x_i,找到这连续d天的前后最邻近记录，即前一条记录和后一条记录，这两条记录的因素x_i分别记为x_i前和x_i后，计算Δx_i＝x_i前-x_i后,及步长s_i＝Δx_i/(d+1)，则第d天的x_id＝x_i前+s_i×d，即第d天所对应日子记录的因素x_i的数据值为x_id。

步骤6：若并集记录无出水指标COD值，用半监督回归算法生成，获得完整的时间序列数据集。所述半监督回归算法的流程如图2所示，具体实施过程包括：

步骤601、所述步骤5所得并集分为有标签COD的L和无COD的U；保留L，将L按3:1分成LT和验证集LV，复制LT成训练集LTA和LTB；

步骤602、保留数据集U的同时，从U中随机选出30条记录形成子集U₁，剩下的记录组成子集U₁'；

步骤603、训练LTA和LTB得到距离度量分别为2和5的knn邻近算法模型h₁和h₂，非第一次执行本步骤时，若训练集与上次无变化，不用重复训练；

步骤604、取U₁一记录u₁(有X无COD)，计算值h₁(X)/h₂(X)充当COD，分别与X与形成记录R₁/R₂；将R₁/R₂分别追加给LTA/LTB，重新训练LTA/LTB得到模型h₁'/h₂'；以u₁在L中的3(k＝3)个最近邻点记录计算偏差Δy₁和Δy₂：

步骤605、若Δy₁＞0，将新记录R₁追加给训练集LTB，删除U₁中的记录u₁，若Δy₂＞0亦然。若U₁'还有记录，且未达到设定的最大循环次数300，随机移动一条U₁'的记录到U₁，跳到步骤603执行步骤603-605；

步骤606、按h＝0.5(h₁+h₂)得最终knn邻近算法模型h，对U中的所有记录，用h函数计算，得到的值h(X)作为X所对应的COD值,形成完整记录追加到L中，按日子先后排序后，L即是完整的时间序列数据集。

步骤7：用时间序列数据集，训练获得改进型长短期记忆神经网络模型，其结构示意图如图3所示，因素X向量输入第一层LSTM神经网络，经过dropout层后到第二层LSTM神经网络，再经过另一个dropout层后到Dense全连接层，输出指标y预测值——垃圾燃烧电厂渗滤液处理过程中“反硝化-硝化池”的出水COD浓度。通过训练优化，模型的结构参数为：时间步长step为20，第一层、第二层LSTM神经网络的输出空间维度units分别为70、50，两个dropout层的dropout率均为0.2。

步骤8：利用训练优化获得的神经网络模型，预测垃圾燃烧电厂渗滤液处理过程中“反硝化池-硝化池”出水指标COD浓度，如图4所示，获得了较为准确的预测效果。

最后需要说明的是，以上仅为本申请的实施例，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，其特征在于，包括以下步骤：

步骤1：收集运行参数监测数据，有控制系统监测的一分一记录的分钟数据集、人工每天在固定时间段TF取样分析一次而得的天数据集；

2.根据权利要求1所述的一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，其特征在于，所述出水指标指的是出水状态，如污染物(如化学需氧量、氨氮)的浓度、pH等。

3.根据权利要求1所述的一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，其特征在于，所述步骤1中，所述运行参数有两类：反应器的具体出水指标y、以及影响y的多个反应器因素(x₁,x₂,…,x_i,…,x_m，统称为因素X向量)，所述数据集都是某个具体运行参数的数据集，所述记录就是数据集的一条数据(由时间和运行参数组成)。

4.根据权利要求1所述的一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，其特征在于，所述步骤3中，所述c_v的具体计算过程为：先计算子集所有记录运行参数的标准差σ、平均值μ，然后通过c_v＝σ/μ获得子集的变异系数c_v；所述平均值记录，由子集所在的时间日子(年月日)及平均值μ组成。

5.根据权利要求1所述的一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，其特征在于，所述步骤5中，所述线性插值的流程为：若某日子的并集记录无某个x_i值，则这日子在内的连续d天(d≥1,依次记为第1,2,…,d天)都缺乏x_i,找到这连续d天的前后最邻近记录，即前一条记录和后一条记录，这两条记录的因素x_i分别记为x_i前和x_i后，计算Δx_i＝x_i前-x_i后,及步长s_i＝Δx_i/(d+1)，则第d天的x_id＝x_i前+s_i×d，即第d天所对应日子记录的因素x_i的数据值为x_id。

6.根据权利要求1所述的一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，其特征在于，所述步骤6中，所述半监督回归算法包括以下具体步骤：

步骤605、若Δy₁＞0，将新记录R₁追加给训练集LTB，删除U₁中的记录u₁，若Δy₂＞0亦然；若U₁'还有记录，且未达到设定的最大循环次数N，随机移动一条U₁'的记录到U₁，跳到步骤603执行步骤603-605；

7.根据权利要求1所述的一种垃圾渗滤液处理过程中微生物反应器出水指标的预测方法，其特征在于，所述步骤7中，所述神经网络模型的结构为：因素X向量输入第一层LSTM神经网络，经过dropout层后到第二层LSTM神经网络，再经过另一个dropout层后到Dense全连接层，输出指标y预测值。