CN115345344A

CN115345344A - 基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法

Info

Publication number: CN115345344A
Application number: CN202210765813.4A
Authority: CN
Inventors: 陈博; 王颖; 沈怡俊; 刘炯; 杨望卓
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-11-15

Abstract

基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法，包括：对污水处理厂实际运行和监测数据进行采集与清洗，保留与出水水质存在相关性的特征并归一化作为深度神经网络的输入，根据所要预测的时间点建立数据样本与数据集；对特征进行分组，按照工艺段划分，其中进水流量特征单独置于一组中，与其它进水数据区分开；搭建深度神经网络，包括时序特征提取模块，用于获取时滞信息的注意力机制模块，以及回归模块；把进水流量数据喂入注意力机制模块的输入层，其余历史特征喂入时序特征提取模块的输入层，待预测时刻的出水水质数据喂入回归模块的输出层，设置损失函数，进行训练；调用训练好的深度神经网络来进行出水水质预测。

Description

基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法

技术领域

本发明应用于污水处理厂出水水质的预测，具体涉及一种基于注意力机制和长短期记忆网络的深度学习方法。

背景技术

水是人类的必须品，是人类赖以生存和发展的宝贵资源。人类在生产活动中会不可避免地产生污水，如果不对其进行处理而直接排放，将严重危害环境，造成无法挽回的后果。作为水资源保护的关键环节，污水处理厂承担着净化污水的重任。污水处理厂是一个包含众多工序的系统，能够利用物理、化学和生物的方法将污水中的有机物、氨氮、磷等污染物去除，以达到污水净化与回收的目的。由其处理完成后的污水流至自然水循环中时，不会对生态环境和水生生物造成危害。因此，及时预判污水处理厂的异常工况与潜在风险，确保污水处理厂的安全稳定运行，使其出水水质满足排放标准对于水污染防治来说极为重要。

目前广泛用于城市生活污水处理的厌氧-缺氧-好氧(A²O)工艺是一种基于活性污泥法的污水处理工艺。活性污泥法是一种污水生物处理技术，它以活性污泥为主体，利用微生物活动降解污染物质，是一种公认的兼具经济性和可持续性的方法。然而，此类工艺过程的建模具备很大挑战性。首先，活性污泥法的处理过程是复杂的动态生化反应过程，具有高度非线性、强耦合性的特点。其次，污水处理系统具有长时滞性，对于比较大型的污水处理厂来说，一批污水由进水端流至出水端的耗时可能超过十个小时。此外，污水处理系统具有滞后时间不定性，在工程实践中，污水处理厂的进水流量无法保持恒定，而进水流量的不规则变化将使污水流经各工艺段的耗时变得难以确定，同时也难以确定各时段流入的污水对未来某时刻出水水质的影响程度。

发明内容

为了克服现有污水处理厂出水水质预测方法无法同时将系统本身的高度非线性、长时滞性和滞后时间不定性作统一考虑的问题，本发明提出一种基于注意力机制和长短期记忆(LSTM)网络的污水处理厂出水水质预测方法。通过长短期记忆网络对时序输入数据作特征提取，通过注意力机制模块获取输入特征在时间上对未来出水水质的影响权重分布。

本发明解决其技术问题所采用的技术方案是：

一种基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法，所述方法包括以下步骤：

1)对污水处理厂实际运行和监测数据进行采集与清洗，保留与出水水质存在相关性的特征并将这些特征归一化作为深度神经网络的输入，根据所要预测的时间点和所要利用的历史数据时间尺度来建立数据样本与数据集；

2)对特征进行分组，按照工艺段划分，同一组特征位于相同工艺段，因此在时间上与出水水质具备相同或相似的关联性，其中进水流量特征单独置于一组中，与其它进水数据区分开；

3)搭建深度神经网络，包括由长短期记忆网络组成的时序特征提取模块，由卷积网络组成的用于获取时滞信息的注意力机制模块，以及由全连接网络组成的回归模块；

4)把进水流量数据喂入注意力机制模块的输入层，其余历史特征喂入时序特征提取模块的输入层，待预测时刻的出水水质数据喂入回归模块的输出层，设置损失函数，进行训练；

5)调用训练好的深度神经网络来进行出水水质预测。

进一步，在所述步骤1)中，本发明在建立用于神经网络训练和测试的数据集时根据所要预测的时间点和所要利用的历史数据时间尺度来建立样本，通过以下步骤建立样本以实现利用过去r小时数据预测未来第l小时的出水水质：第一步，在数据对应的完整时间轴上设置一个滑动窗口，其中包含起始时刻起共r个小时，将该时段内的全部特征作为首个样本的输入，将该滑动窗口末端时刻之后l小时时刻的出水水质特征作为首个样本对应的输出；第二步，滑动窗口沿着时间轴正向移动一个单位，按照同样的方式获得第二个样本的输入及输出。以此类推，得到所有样本。当全部样本建立完成后，执行步骤2)，得到特征分组后的数据集。

在所述步骤3)中，对单组特征作提取的长短期记忆网络由若干长短期记忆单元连接而成；

长短期记忆单元内部具有三种特定的门控结构，分别为：输入门、遗忘门和输出门。门控用于实现选择性信息传递，它的一般形式可以表示为：

g(x)＝σ(Wx+b) (1)

其中，W和b是网络中可学习的权重矩阵和偏置，σ(x)＝1/(1+e^-x)，为Sigmoid函数，它将一个实数映射到(0，1)区间；门的输出越接近于0，信息通过越少，越接近于1则表示信息通过越多；

长短期记忆单元内部包含两条信息流转的通路，分别为单元状态和隐藏状态。单元状态能够对重要的历史信息进行长期记忆，即便时间跨度很大；隐藏状态负责信息的传递并做出当下的决策；

通过以下步骤，长短期记忆单元完成在时间步t上的前向计算过程：

遗忘门选择性地将历史信息中的重要部分保留，而忘记那些对预测用处较小的部分；通过遗忘门的信息选择，梯度沿时间反向传播时的梯度消失问题将得到缓解；遗忘门f_t的计算公式为：

f_t＝σ(W_f[h_t-1，x_t]+b_f) (2)

其中，h_t-1为前一时间步t-1上长短期记忆单元输出的隐藏状态，x_t为当前时间步t的输入数据，W_f和b_f是遗忘门中可学习的权重矩阵和偏置；

输入门控制当前时间步的输入数据x_t中有多少信息需要存入单元状态，输入门i_t和单元状态更新值

分别由x_t和h_t-1经一个神经网络层得到，激活函数分别为Sigmoid与Tanh：

i_t＝σ(W_i[h_t-1，x_t]+b_i) (3)

其中，W_i和b_i表示输入门中可学习的权重矩阵和偏置，W_c和b_c表示单元状态更新值计算的神经网络层中可学习的权重矩阵和偏置；

当前时间步的单元状态c_t由上个时间步的单元状态c_t-1与当前时间步的单元状态更新值

分别以遗忘门f_t和输入门i_t作为加权系数得到：

其中，符号*表示点乘；

长短期记忆单元输出的隐藏状态h_t根据单元状态c_t确定；输出门控制单元状态c_t对隐藏状态h_t的影响，同遗忘门和输入门一样，输出门o_t也是由x_t和h_t-1计算得到：

o_t＝σ(W_o[h_t-1，x_t]+b_o) (6)

最终，由单元状态c_t和输出门o_t经过点乘得到当前时间步长短期记忆单元输出的隐藏状态h_t：

h_t＝o_t*tanh(c_t) (7)

对于被提取的单组特征中包含的T个时间步的数据，共有T个长短期记忆单元组合成一层长短期记忆网络来实现特征提取，输出的隐藏状态序列H中包含T个隐藏状态：

H＝[h₁，h₂，...，h_t-1，h_t，h_t+1，...，h_T-1，h_T] (8)

在所述步骤3)中，对单组特征实现时滞信息获取的注意力机制模块由卷积网络组成；

卷积网络由卷积层、池化层、线性层和激活层组成；

卷积层可以用数学公式表述为：

其中，x^⊙表示卷积操作输出值，n表示输入数据的通道数，⊙表示一维卷积运算，k^j表示卷积核参数，

表示卷积操作的区域，i表示卷积的起点，h表示卷积区域的长度，b表示偏差；

池化层通过下采样来降低特征维度，去除冗余信息，对特征进行进一步压缩，简化网络复杂度。池化层可由下面式子表示：

其中，x_i表示区域，

中指定神经元的活动值，

是池化层输出值；

线性层可用下式表示：

y＝Wx+b (11)

其中，x表示该层输入，W和b是可学习的权重矩阵和偏置，y是线性层输出值；

激活层有两种使用场景，一种是在各个隐藏层中使用，通过ReLU函数实现：

其作用是使神经网络具备非线性函数的拟合能力；另一种场景是将激活层用于注意力机制模块的输出层中，通过Softmax函数实现：

其中，x_i为第i个节点的输出值，D为输出节点的个数；其作用是将注意力机制模块的输出值转换为范围在[0，1]，总和为1的概率分布，达到输出注意力权重的目的；

注意力权重向量A的维度和长短期记忆网络输出的隐藏状态的个数T一致：

A＝[a₁，a₂，...，a_t-1，a_t，a_t+1，...，a_T-1，a_T] (14)

其中，a_t表示长短期记忆网络在时间步t上输出的隐藏状态h_t所对应的注意力权重；

在得到注意力权重向量和长短期记忆网络输出的隐藏状态向量后，对各个特征分组计算上下文向量；对于单个特征分组来说，其上下文向量计算公式如下：

C＝a₁h₁+a₂h₂+…+a_Th_T (15)

其中，C为上下文向量。

在所述步骤3)中，回归模块由全连接神经网络构成，其中包含若干线性层和激活层；

回归模块的输入Z由每个特征分组的上下文向量拼接而成：

Z＝[C₁，C₂，...，C_k-1，C_k，C_k+1，...，C_K-1，C_K] (16)

其中，C_k表示第k个特征分组的上下文向量，K表示特征分组的个数；

回归模块中线性层的计算公式与注意力机制模块中一致，激活层仅使用ReLU函数，应用于除输出层外的所有线性层后；回归模块的作用是对提取到的特征表示作进一步运算，将提取到的特征表示映射到预测目标即未来出水水质所在的特征空间中。

在所述步骤4)中，损失函数设定为均方误差：

其中，n为样本个数，y_i表示第i个样本目标的真实值，

表示第i个样本目标的预测值。

与现有技术相比，本发明的有益效果在于：针对污水处理厂预测出水水质时难以避免的系统高度非线性、长时滞性和滞后时间不定性问题，设计了一种基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法。具体而言，设计长短期记忆网络实现对时序输入数据的特征提取，设计注意力机制模块获取输入特征在时间上对未来出水水质的影响权重分布。通过神经网络的训练，使模型能够依据进水流量自动判断时滞性的影响，并将不同时段的特征有效用于预测，从而进一步提高污水处理厂出水水质的预测精度。

附图说明

图1为本发明出水水质预测方法流程图。

图2为长短期记忆单元结构图。

图3为长短期记忆网络结构图。

图4为注意力机制模块结构图。

图5为所设计神经网络的完整结构图。

具体实施方式

为使本发明的实施例的目的、设计思路、技术方案更加清晰，下面结合附图对本发明做进一步说明。

参照图1～图5，一种基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法，所述方法包括以下步骤：

1)对污水处理厂实际运行和监测数据进行采集与清洗，保留与出水水质存在相关性的特征并将这些特征归一化作为深度神经网络的输入。本发明在建立用于神经网络训练和测试的数据集时根据所要预测的时间点和所要利用的历史数据时间尺度来建立样本，通过以下步骤建立样本以实现利用过去r小时数据预测未来第l小时的出水水质：第一步，在数据对应的完整时间轴上设置一个滑动窗口，其中包含起始时刻起共r个小时，将该时段内的全部特征作为首个样本的输入，将该滑动窗口末端时刻之后l小时时刻的出水水质特征作为该样本对应的输出；第二步，滑动窗口沿着时间轴正向移动一个单位，按照同样的方式获得第二个样本的输入及输出。以此类推，得到所有样本；

2)对特征进行分组，按照工艺段划分，同一组特征位于相同工艺段，因此在时间上与出水水质具备相同或相似的关联性，其中进水流量特征单独置于一组中，与其它进水数据区分开。定义进水流量数据

为第n个样本的进水流量向量，N为样本总数，T₁为单个样本设定的时间跨度内采样进水流量值的次数)；定义除进水流量数据外的其它历史特征数据

为第n个样本的历史特征数据，

为第n个样本第k组特征构成的矩阵，K为特征分组数，T₂为单个样本设定的时间跨度内采样历史特征的次数)；定义待预测时刻的出水水质数据Y＝{Y⁽ⁿ⁾|n＝1…N}(Y⁽ⁿ⁾为第n个样本的出水水质向量)。由此得到特征分组后的数据集；

3)搭建深度神经网络如图5所示，包括由长短期记忆网络组成的时序特征提取模块，由卷积网络组成的用于获取时滞信息的注意力机制模块，以及由全连接网络组成的回归模块；

进一步，在所述步骤3)中，对单组特征作提取的长短期记忆网络由若干长短期记忆单元连接而成，单个长短期记忆单元的结构如图2所示；

g(x)＝σ(Wx+b) (1)

f_t＝σ(W_f[h_t-1，x_t]+b_f) (2)

i_t＝σ(W_i[h_t-1，x_t]+b_i) (3)

分别以遗忘门f_t和输入门i_t作为加权系数得到：

其中，符号*表示点乘；

o_t＝σ(W_o[h_t-1，x_t]+b_o) (6)

h_t＝o_t*tanh(c_t) (7)

H＝[h₁，h₂，...，h_t-1，h_t，h_t+1，...，h_T-1，h_T] (8)

对单组特征作提取的长短期记忆网络结构图如图3所示。

在所述步骤3)中，对单组特征实现时滞信息获取的注意力机制模块由卷积网络组成，其结构如图4所示；

卷积网络由卷积层、池化层、线性层和激活层组成；

卷积层可以用数学公式表述为：

其中，x_i表示区域，

中指定神经元的活动值，

是池化层输出值；

线性层可用下式表示：

y＝Wx+b (11)

A＝[a₁，a₂，...，a_t-1，a_t，a_t+1，...，a_T-1，a_T] (14)

C＝a₁h₁+a₂h₂+…+a_Th_T (15)

其中，C为上下文向量。

回归模块的输入Z由每个特征分组的上下文向量拼接而成：

Z＝[C₁，C₂，...，C_k-1，C_k，C_k+1，...，C_K-1，C_K] (16)

所设计的深度神经网络由各模块连接而成，其完整结构如图5所示。

4)把进水流量数据Q喂入注意力机制模块的输入层，其余历史特征X喂入时序特征提取模块的输入层，待预测时刻的出水水质数据Y喂入回归模块的输出层，设置损失函数，进行训练；

在所述步骤4)中，损失函数设定为均方误差：

其中，n为样本个数，y_i表示第i个样本目标的真实值，

表示第i个样本目标的预测值。

5)调用训练好的深度神经网络来进行出水水质预测。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法，其特征在于，包括以下步骤：

5)调用训练好的深度神经网络来进行出水水质预测。

2.如权利要求1所述的基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法，其特征在于，所述步骤1)中，本发明在建立用于神经网络训练和测试的数据集时根据所要预测的时间点和所要利用的历史数据时间尺度来建立样本，通过以下步骤建立样本以实现利用过去r小时数据预测未来第l小时的出水水质：第一步，在数据对应的完整时间轴上设置一个滑动窗口，其中包含起始时刻起共r个小时，将该时段内的全部特征作为首个样本的输入，将该滑动窗口末端时刻之后l小时时刻的出水水质特征作为首个样本对应的输出；第二步，滑动窗口沿着时间轴正向移动一个单位，按照同样的方式获得第二个样本的输入及输出。以此类推，得到所有样本。当全部样本建立完成后，执行步骤2)，得到特征分组后的数据集。

3.如权利要求1所述的基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法，其特征在于，所述步骤3)中，对单组特征作提取的长短期记忆网络由若干长短期记忆单元连接而成；

长短期记忆单元内部具有三种特定的门控结构，分别为：输入门、遗忘门和输出门。门控用于实现选择性信息传递，它的一般形式可以表示为:

g(x)＝σ(Wx+b) (1)

其中，W和b是网络中可学习的权重矩阵和偏置，σ(x)＝1/(1+e^-x)，为Sigmoid函数，它将一个实数映射到(0,1)区间；门的输出越接近于0，信息通过越少，越接近于1则表示信息通过越多；

f_t＝σ(W_f[h_t-1,x_t]+b_f) (2)