CN115345344A - 基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法 - Google Patents

基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法 Download PDF

Info

Publication number
CN115345344A
CN115345344A CN202210765813.4A CN202210765813A CN115345344A CN 115345344 A CN115345344 A CN 115345344A CN 202210765813 A CN202210765813 A CN 202210765813A CN 115345344 A CN115345344 A CN 115345344A
Authority
CN
China
Prior art keywords
term memory
long
layer
time
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210765813.4A
Other languages
English (en)
Inventor
陈博
王颖
沈怡俊
刘炯
杨望卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210765813.4A priority Critical patent/CN115345344A/zh
Publication of CN115345344A publication Critical patent/CN115345344A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/08Fluids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W10/00Technologies for wastewater treatment
    • Y02W10/10Biological treatment of water, waste water, or sewage

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Operations Research (AREA)

Abstract

基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法,包括:对污水处理厂实际运行和监测数据进行采集与清洗,保留与出水水质存在相关性的特征并归一化作为深度神经网络的输入,根据所要预测的时间点建立数据样本与数据集;对特征进行分组,按照工艺段划分,其中进水流量特征单独置于一组中,与其它进水数据区分开;搭建深度神经网络,包括时序特征提取模块,用于获取时滞信息的注意力机制模块,以及回归模块;把进水流量数据喂入注意力机制模块的输入层,其余历史特征喂入时序特征提取模块的输入层,待预测时刻的出水水质数据喂入回归模块的输出层,设置损失函数,进行训练;调用训练好的深度神经网络来进行出水水质预测。

Description

基于注意力机制和长短期记忆网络的污水处理厂出水水质预 测方法
技术领域
本发明应用于污水处理厂出水水质的预测,具体涉及一种基于注意力机制和长短期记忆网络的深度学习方法。
背景技术
水是人类的必须品,是人类赖以生存和发展的宝贵资源。人类在生产活动中会不可避免地产生污水,如果不对其进行处理而直接排放,将严重危害环境,造成无法挽回的后果。作为水资源保护的关键环节,污水处理厂承担着净化污水的重任。污水处理厂是一个包含众多工序的系统,能够利用物理、化学和生物的方法将污水中的有机物、氨氮、磷等污染物去除,以达到污水净化与回收的目的。由其处理完成后的污水流至自然水循环中时,不会对生态环境和水生生物造成危害。因此,及时预判污水处理厂的异常工况与潜在风险,确保污水处理厂的安全稳定运行,使其出水水质满足排放标准对于水污染防治来说极为重要。
目前广泛用于城市生活污水处理的厌氧-缺氧-好氧(A2O)工艺是一种基于活性污泥法的污水处理工艺。活性污泥法是一种污水生物处理技术,它以活性污泥为主体,利用微生物活动降解污染物质,是一种公认的兼具经济性和可持续性的方法。然而,此类工艺过程的建模具备很大挑战性。首先,活性污泥法的处理过程是复杂的动态生化反应过程,具有高度非线性、强耦合性的特点。其次,污水处理系统具有长时滞性,对于比较大型的污水处理厂来说,一批污水由进水端流至出水端的耗时可能超过十个小时。此外,污水处理系统具有滞后时间不定性,在工程实践中,污水处理厂的进水流量无法保持恒定,而进水流量的不规则变化将使污水流经各工艺段的耗时变得难以确定,同时也难以确定各时段流入的污水对未来某时刻出水水质的影响程度。
发明内容
为了克服现有污水处理厂出水水质预测方法无法同时将系统本身的高度非线性、长时滞性和滞后时间不定性作统一考虑的问题,本发明提出一种基于注意力机制和长短期记忆(LSTM)网络的污水处理厂出水水质预测方法。通过长短期记忆网络对时序输入数据作特征提取,通过注意力机制模块获取输入特征在时间上对未来出水水质的影响权重分布。
本发明解决其技术问题所采用的技术方案是:
一种基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法,所述方法包括以下步骤:
1)对污水处理厂实际运行和监测数据进行采集与清洗,保留与出水水质存在相关性的特征并将这些特征归一化作为深度神经网络的输入,根据所要预测的时间点和所要利用的历史数据时间尺度来建立数据样本与数据集;
2)对特征进行分组,按照工艺段划分,同一组特征位于相同工艺段,因此在时间上与出水水质具备相同或相似的关联性,其中进水流量特征单独置于一组中,与其它进水数据区分开;
3)搭建深度神经网络,包括由长短期记忆网络组成的时序特征提取模块,由卷积网络组成的用于获取时滞信息的注意力机制模块,以及由全连接网络组成的回归模块;
4)把进水流量数据喂入注意力机制模块的输入层,其余历史特征喂入时序特征提取模块的输入层,待预测时刻的出水水质数据喂入回归模块的输出层,设置损失函数,进行训练;
5)调用训练好的深度神经网络来进行出水水质预测。
进一步,在所述步骤1)中,本发明在建立用于神经网络训练和测试的数据集时根据所要预测的时间点和所要利用的历史数据时间尺度来建立样本,通过以下步骤建立样本以实现利用过去r小时数据预测未来第l小时的出水水质:第一步,在数据对应的完整时间轴上设置一个滑动窗口,其中包含起始时刻起共r个小时,将该时段内的全部特征作为首个样本的输入,将该滑动窗口末端时刻之后l小时时刻的出水水质特征作为首个样本对应的输出;第二步,滑动窗口沿着时间轴正向移动一个单位,按照同样的方式获得第二个样本的输入及输出。以此类推,得到所有样本。当全部样本建立完成后,执行步骤2),得到特征分组后的数据集。
在所述步骤3)中,对单组特征作提取的长短期记忆网络由若干长短期记忆单元连接而成;
长短期记忆单元内部具有三种特定的门控结构,分别为:输入门、遗忘门和输出门。门控用于实现选择性信息传递,它的一般形式可以表示为:
g(x)=σ(Wx+b) (1)
其中,W和b是网络中可学习的权重矩阵和偏置,σ(x)=1/(1+e-x),为Sigmoid函数,它将一个实数映射到(0,1)区间;门的输出越接近于0,信息通过越少,越接近于1则表示信息通过越多;
长短期记忆单元内部包含两条信息流转的通路,分别为单元状态和隐藏状态。单元状态能够对重要的历史信息进行长期记忆,即便时间跨度很大;隐藏状态负责信息的传递并做出当下的决策;
通过以下步骤,长短期记忆单元完成在时间步t上的前向计算过程:
遗忘门选择性地将历史信息中的重要部分保留,而忘记那些对预测用处较小的部分;通过遗忘门的信息选择,梯度沿时间反向传播时的梯度消失问题将得到缓解;遗忘门ft的计算公式为:
ft=σ(Wf[ht-1,xt]+bf) (2)
其中,ht-1为前一时间步t-1上长短期记忆单元输出的隐藏状态,xt为当前时间步t的输入数据,Wf和bf是遗忘门中可学习的权重矩阵和偏置;
输入门控制当前时间步的输入数据xt中有多少信息需要存入单元状态,输入门it和单元状态更新值
Figure BDA0003722048960000031
分别由xt和ht-1经一个神经网络层得到,激活函数分别为Sigmoid与Tanh:
it=σ(Wi[ht-1,xt]+bi) (3)
Figure BDA0003722048960000032
其中,Wi和bi表示输入门中可学习的权重矩阵和偏置,Wc和bc表示单元状态更新值计算的神经网络层中可学习的权重矩阵和偏置;
当前时间步的单元状态ct由上个时间步的单元状态ct-1与当前时间步的单元状态更新值
Figure BDA0003722048960000033
分别以遗忘门ft和输入门it作为加权系数得到:
Figure BDA0003722048960000034
其中,符号*表示点乘;
长短期记忆单元输出的隐藏状态ht根据单元状态ct确定;输出门控制单元状态ct对隐藏状态ht的影响,同遗忘门和输入门一样,输出门ot也是由xt和ht-1计算得到:
ot=σ(Wo[ht-1,xt]+bo) (6)
最终,由单元状态ct和输出门ot经过点乘得到当前时间步长短期记忆单元输出的隐藏状态ht
ht=ot*tanh(ct) (7)
对于被提取的单组特征中包含的T个时间步的数据,共有T个长短期记忆单元组合成一层长短期记忆网络来实现特征提取,输出的隐藏状态序列H中包含T个隐藏状态:
H=[h1,h2,...,ht-1,ht,ht+1,...,hT-1,hT] (8)
在所述步骤3)中,对单组特征实现时滞信息获取的注意力机制模块由卷积网络组成;
卷积网络由卷积层、池化层、线性层和激活层组成;
卷积层可以用数学公式表述为:
Figure BDA0003722048960000041
其中,x表示卷积操作输出值,n表示输入数据的通道数,⊙表示一维卷积运算,kj表示卷积核参数,
Figure BDA0003722048960000042
表示卷积操作的区域,i表示卷积的起点,h表示卷积区域的长度,b表示偏差;
池化层通过下采样来降低特征维度,去除冗余信息,对特征进行进一步压缩,简化网络复杂度。池化层可由下面式子表示:
Figure BDA0003722048960000043
其中,xi表示区域,
Figure BDA0003722048960000044
中指定神经元的活动值,
Figure BDA0003722048960000045
是池化层输出值;
线性层可用下式表示:
y=Wx+b (11)
其中,x表示该层输入,W和b是可学习的权重矩阵和偏置,y是线性层输出值;
激活层有两种使用场景,一种是在各个隐藏层中使用,通过ReLU函数实现:
Figure BDA0003722048960000051
其作用是使神经网络具备非线性函数的拟合能力;另一种场景是将激活层用于注意力机制模块的输出层中,通过Softmax函数实现:
Figure BDA0003722048960000052
其中,xi为第i个节点的输出值,D为输出节点的个数;其作用是将注意力机制模块的输出值转换为范围在[0,1],总和为1的概率分布,达到输出注意力权重的目的;
注意力权重向量A的维度和长短期记忆网络输出的隐藏状态的个数T一致:
A=[a1,a2,...,at-1,at,at+1,...,aT-1,aT] (14)
其中,at表示长短期记忆网络在时间步t上输出的隐藏状态ht所对应的注意力权重;
在得到注意力权重向量和长短期记忆网络输出的隐藏状态向量后,对各个特征分组计算上下文向量;对于单个特征分组来说,其上下文向量计算公式如下:
C=a1h1+a2h2+…+aThT (15)
其中,C为上下文向量。
在所述步骤3)中,回归模块由全连接神经网络构成,其中包含若干线性层和激活层;
回归模块的输入Z由每个特征分组的上下文向量拼接而成:
Z=[C1,C2,...,Ck-1,Ck,Ck+1,...,CK-1,CK] (16)
其中,Ck表示第k个特征分组的上下文向量,K表示特征分组的个数;
回归模块中线性层的计算公式与注意力机制模块中一致,激活层仅使用ReLU函数,应用于除输出层外的所有线性层后;回归模块的作用是对提取到的特征表示作进一步运算,将提取到的特征表示映射到预测目标即未来出水水质所在的特征空间中。
在所述步骤4)中,损失函数设定为均方误差:
Figure BDA0003722048960000053
其中,n为样本个数,yi表示第i个样本目标的真实值,
Figure BDA0003722048960000054
表示第i个样本目标的预测值。
与现有技术相比,本发明的有益效果在于:针对污水处理厂预测出水水质时难以避免的系统高度非线性、长时滞性和滞后时间不定性问题,设计了一种基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法。具体而言,设计长短期记忆网络实现对时序输入数据的特征提取,设计注意力机制模块获取输入特征在时间上对未来出水水质的影响权重分布。通过神经网络的训练,使模型能够依据进水流量自动判断时滞性的影响,并将不同时段的特征有效用于预测,从而进一步提高污水处理厂出水水质的预测精度。
附图说明
图1为本发明出水水质预测方法流程图。
图2为长短期记忆单元结构图。
图3为长短期记忆网络结构图。
图4为注意力机制模块结构图。
图5为所设计神经网络的完整结构图。
具体实施方式
为使本发明的实施例的目的、设计思路、技术方案更加清晰,下面结合附图对本发明做进一步说明。
参照图1~图5,一种基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法,所述方法包括以下步骤:
1)对污水处理厂实际运行和监测数据进行采集与清洗,保留与出水水质存在相关性的特征并将这些特征归一化作为深度神经网络的输入。本发明在建立用于神经网络训练和测试的数据集时根据所要预测的时间点和所要利用的历史数据时间尺度来建立样本,通过以下步骤建立样本以实现利用过去r小时数据预测未来第l小时的出水水质:第一步,在数据对应的完整时间轴上设置一个滑动窗口,其中包含起始时刻起共r个小时,将该时段内的全部特征作为首个样本的输入,将该滑动窗口末端时刻之后l小时时刻的出水水质特征作为该样本对应的输出;第二步,滑动窗口沿着时间轴正向移动一个单位,按照同样的方式获得第二个样本的输入及输出。以此类推,得到所有样本;
2)对特征进行分组,按照工艺段划分,同一组特征位于相同工艺段,因此在时间上与出水水质具备相同或相似的关联性,其中进水流量特征单独置于一组中,与其它进水数据区分开。定义进水流量数据
Figure BDA0003722048960000071
Figure BDA0003722048960000072
为第n个样本的进水流量向量,N为样本总数,T1为单个样本设定的时间跨度内采样进水流量值的次数);定义除进水流量数据外的其它历史特征数据
Figure BDA0003722048960000073
Figure BDA0003722048960000074
为第n个样本的历史特征数据,
Figure BDA0003722048960000075
Figure BDA0003722048960000076
为第n个样本第k组特征构成的矩阵,K为特征分组数,T2为单个样本设定的时间跨度内采样历史特征的次数);定义待预测时刻的出水水质数据Y={Y(n)|n=1…N}(Y(n)为第n个样本的出水水质向量)。由此得到特征分组后的数据集;
3)搭建深度神经网络如图5所示,包括由长短期记忆网络组成的时序特征提取模块,由卷积网络组成的用于获取时滞信息的注意力机制模块,以及由全连接网络组成的回归模块;
进一步,在所述步骤3)中,对单组特征作提取的长短期记忆网络由若干长短期记忆单元连接而成,单个长短期记忆单元的结构如图2所示;
长短期记忆单元内部具有三种特定的门控结构,分别为:输入门、遗忘门和输出门。门控用于实现选择性信息传递,它的一般形式可以表示为:
g(x)=σ(Wx+b) (1)
其中,W和b是网络中可学习的权重矩阵和偏置,σ(x)=1/(1+e-x),为Sigmoid函数,它将一个实数映射到(0,1)区间;门的输出越接近于0,信息通过越少,越接近于1则表示信息通过越多;
长短期记忆单元内部包含两条信息流转的通路,分别为单元状态和隐藏状态。单元状态能够对重要的历史信息进行长期记忆,即便时间跨度很大;隐藏状态负责信息的传递并做出当下的决策;
通过以下步骤,长短期记忆单元完成在时间步t上的前向计算过程:
遗忘门选择性地将历史信息中的重要部分保留,而忘记那些对预测用处较小的部分;通过遗忘门的信息选择,梯度沿时间反向传播时的梯度消失问题将得到缓解;遗忘门ft的计算公式为:
ft=σ(Wf[ht-1,xt]+bf) (2)
其中,ht-1为前一时间步t-1上长短期记忆单元输出的隐藏状态,xt为当前时间步t的输入数据,Wf和bf是遗忘门中可学习的权重矩阵和偏置;
输入门控制当前时间步的输入数据xt中有多少信息需要存入单元状态,输入门it和单元状态更新值
Figure BDA0003722048960000081
分别由xt和ht-1经一个神经网络层得到,激活函数分别为Sigmoid与Tanh:
it=σ(Wi[ht-1,xt]+bi) (3)
Figure BDA0003722048960000082
其中,Wi和bi表示输入门中可学习的权重矩阵和偏置,Wc和bc表示单元状态更新值计算的神经网络层中可学习的权重矩阵和偏置;
当前时间步的单元状态ct由上个时间步的单元状态ct-1与当前时间步的单元状态更新值
Figure BDA0003722048960000083
分别以遗忘门ft和输入门it作为加权系数得到:
Figure BDA0003722048960000084
其中,符号*表示点乘;
长短期记忆单元输出的隐藏状态ht根据单元状态ct确定;输出门控制单元状态ct对隐藏状态ht的影响,同遗忘门和输入门一样,输出门ot也是由xt和ht-1计算得到:
ot=σ(Wo[ht-1,xt]+bo) (6)
最终,由单元状态ct和输出门ot经过点乘得到当前时间步长短期记忆单元输出的隐藏状态ht
ht=ot*tanh(ct) (7)
对于被提取的单组特征中包含的T个时间步的数据,共有T个长短期记忆单元组合成一层长短期记忆网络来实现特征提取,输出的隐藏状态序列H中包含T个隐藏状态:
H=[h1,h2,...,ht-1,ht,ht+1,...,hT-1,hT] (8)
对单组特征作提取的长短期记忆网络结构图如图3所示。
在所述步骤3)中,对单组特征实现时滞信息获取的注意力机制模块由卷积网络组成,其结构如图4所示;
卷积网络由卷积层、池化层、线性层和激活层组成;
卷积层可以用数学公式表述为:
Figure BDA0003722048960000091
其中,x表示卷积操作输出值,n表示输入数据的通道数,⊙表示一维卷积运算,kj表示卷积核参数,
Figure BDA0003722048960000092
表示卷积操作的区域,i表示卷积的起点,h表示卷积区域的长度,b表示偏差;
池化层通过下采样来降低特征维度,去除冗余信息,对特征进行进一步压缩,简化网络复杂度。池化层可由下面式子表示:
Figure BDA0003722048960000093
其中,xi表示区域,
Figure BDA0003722048960000094
中指定神经元的活动值,
Figure BDA0003722048960000095
是池化层输出值;
线性层可用下式表示:
y=Wx+b (11)
其中,x表示该层输入,W和b是可学习的权重矩阵和偏置,y是线性层输出值;
激活层有两种使用场景,一种是在各个隐藏层中使用,通过ReLU函数实现:
Figure BDA0003722048960000096
其作用是使神经网络具备非线性函数的拟合能力;另一种场景是将激活层用于注意力机制模块的输出层中,通过Softmax函数实现:
Figure BDA0003722048960000097
其中,xi为第i个节点的输出值,D为输出节点的个数;其作用是将注意力机制模块的输出值转换为范围在[0,1],总和为1的概率分布,达到输出注意力权重的目的;
注意力权重向量A的维度和长短期记忆网络输出的隐藏状态的个数T一致:
A=[a1,a2,...,at-1,at,at+1,...,aT-1,aT] (14)
其中,at表示长短期记忆网络在时间步t上输出的隐藏状态ht所对应的注意力权重;
在得到注意力权重向量和长短期记忆网络输出的隐藏状态向量后,对各个特征分组计算上下文向量;对于单个特征分组来说,其上下文向量计算公式如下:
C=a1h1+a2h2+…+aThT (15)
其中,C为上下文向量。
在所述步骤3)中,回归模块由全连接神经网络构成,其中包含若干线性层和激活层;
回归模块的输入Z由每个特征分组的上下文向量拼接而成:
Z=[C1,C2,...,Ck-1,Ck,Ck+1,...,CK-1,CK] (16)
其中,Ck表示第k个特征分组的上下文向量,K表示特征分组的个数;
回归模块中线性层的计算公式与注意力机制模块中一致,激活层仅使用ReLU函数,应用于除输出层外的所有线性层后;回归模块的作用是对提取到的特征表示作进一步运算,将提取到的特征表示映射到预测目标即未来出水水质所在的特征空间中。
所设计的深度神经网络由各模块连接而成,其完整结构如图5所示。
4)把进水流量数据Q喂入注意力机制模块的输入层,其余历史特征X喂入时序特征提取模块的输入层,待预测时刻的出水水质数据Y喂入回归模块的输出层,设置损失函数,进行训练;
在所述步骤4)中,损失函数设定为均方误差:
Figure BDA0003722048960000101
其中,n为样本个数,yi表示第i个样本目标的真实值,
Figure BDA0003722048960000102
表示第i个样本目标的预测值。
5)调用训练好的深度神经网络来进行出水水质预测。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (6)

1.一种基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法,其特征在于,包括以下步骤:
1)对污水处理厂实际运行和监测数据进行采集与清洗,保留与出水水质存在相关性的特征并将这些特征归一化作为深度神经网络的输入,根据所要预测的时间点和所要利用的历史数据时间尺度来建立数据样本与数据集;
2)对特征进行分组,按照工艺段划分,同一组特征位于相同工艺段,因此在时间上与出水水质具备相同或相似的关联性,其中进水流量特征单独置于一组中,与其它进水数据区分开;
3)搭建深度神经网络,包括由长短期记忆网络组成的时序特征提取模块,由卷积网络组成的用于获取时滞信息的注意力机制模块,以及由全连接网络组成的回归模块;
4)把进水流量数据喂入注意力机制模块的输入层,其余历史特征喂入时序特征提取模块的输入层,待预测时刻的出水水质数据喂入回归模块的输出层,设置损失函数,进行训练;
5)调用训练好的深度神经网络来进行出水水质预测。
2.如权利要求1所述的基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法,其特征在于,所述步骤1)中,本发明在建立用于神经网络训练和测试的数据集时根据所要预测的时间点和所要利用的历史数据时间尺度来建立样本,通过以下步骤建立样本以实现利用过去r小时数据预测未来第l小时的出水水质:第一步,在数据对应的完整时间轴上设置一个滑动窗口,其中包含起始时刻起共r个小时,将该时段内的全部特征作为首个样本的输入,将该滑动窗口末端时刻之后l小时时刻的出水水质特征作为首个样本对应的输出;第二步,滑动窗口沿着时间轴正向移动一个单位,按照同样的方式获得第二个样本的输入及输出。以此类推,得到所有样本。当全部样本建立完成后,执行步骤2),得到特征分组后的数据集。
3.如权利要求1所述的基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法,其特征在于,所述步骤3)中,对单组特征作提取的长短期记忆网络由若干长短期记忆单元连接而成;
长短期记忆单元内部具有三种特定的门控结构,分别为:输入门、遗忘门和输出门。门控用于实现选择性信息传递,它的一般形式可以表示为:
g(x)=σ(Wx+b) (1)
其中,W和b是网络中可学习的权重矩阵和偏置,σ(x)=1/(1+e-x),为Sigmoid函数,它将一个实数映射到(0,1)区间;门的输出越接近于0,信息通过越少,越接近于1则表示信息通过越多;
长短期记忆单元内部包含两条信息流转的通路,分别为单元状态和隐藏状态。单元状态能够对重要的历史信息进行长期记忆,即便时间跨度很大;隐藏状态负责信息的传递并做出当下的决策;
通过以下步骤,长短期记忆单元完成在时间步t上的前向计算过程:
遗忘门选择性地将历史信息中的重要部分保留,而忘记那些对预测用处较小的部分;通过遗忘门的信息选择,梯度沿时间反向传播时的梯度消失问题将得到缓解;遗忘门ft的计算公式为:
ft=σ(Wf[ht-1,xt]+bf) (2)
其中,ht-1为前一时间步t-1上长短期记忆单元输出的隐藏状态,xt为当前时间步t的输入数据,Wf和bf是遗忘门中可学习的权重矩阵和偏置;
输入门控制当前时间步的输入数据xt中有多少信息需要存入单元状态,输入门it和单元状态更新值
Figure FDA0003722048950000021
分别由xt和ht-1经一个神经网络层得到,激活函数分别为Sigmoid与Tanh:
it=σ(Wi[ht-1,xt]+bi) (3)
Figure FDA0003722048950000022
其中,Wi和bi表示输入门中可学习的权重矩阵和偏置,Wc和bc表示单元状态更新值计算的神经网络层中可学习的权重矩阵和偏置;
当前时间步的单元状态ct由上个时间步的单元状态ct-1与当前时间步的单元状态更新值
Figure FDA0003722048950000023
分别以遗忘门ft和输入门it作为加权系数得到:
Figure FDA0003722048950000024
其中,符号*表示点乘;
长短期记忆单元输出的隐藏状态ht根据单元状态ct确定;输出门控制单元状态ct对隐藏状态ht的影响,同遗忘门和输入门一样,输出门ot也是由xt和ht-1计算得到:
ot=σ(Wo[ht-1,xt]+bo) (6)
最终,由单元状态ct和输出门ot经过点乘得到当前时间步长短期记忆单元输出的隐藏状态ht
ht=ot*tanh(ct) (7)
对于被提取的单组特征中包含的T个时间步的数据,共有T个长短期记忆单元组合成一层长短期记忆网络来实现特征提取,输出的隐藏状态序列H中包含T个隐藏状态:
H=[h1,h2,…,ht-1,ht,ht+1,…,hT-1,hT] (8)。
4.如权利要求1所述的基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法,其特征在于,所述步骤3)中,对单组特征实现时滞信息获取的注意力机制模块由卷积网络组成;
卷积网络由卷积层、池化层、线性层和激活层组成;
卷积层可以用数学公式表述为:
Figure FDA0003722048950000025
其中,x表示卷积操作输出值,n表示输入数据的通道数,⊙表示一维卷积运算,kj表示卷积核参数,
Figure FDA0003722048950000026
表示卷积操作的区域,i表示卷积的起点,h表示卷积区域的长度,b表示偏差;
池化层通过下采样来降低特征维度,去除冗余信息,对特征进行进一步压缩,简化网络复杂度。池化层可由下面式子表示:
Figure FDA0003722048950000027
其中,xi表示区域,
Figure FDA0003722048950000028
中指定神经元的活动值,
Figure FDA0003722048950000029
是池化层输出值;
线性层可用下式表示:
y=Wx+b (11)
其中,x表示该层输入,W和b是可学习的权重矩阵和偏置,y是线性层输出值;
激活层有两种使用场景,一种是在各个隐藏层中使用,通过ReLU函数实现:
Figure FDA00037220489500000210
其作用是使神经网络具备非线性函数的拟合能力;另一种场景是将激活层用于注意力机制模块的输出层中,通过Softmax函数实现:
Figure FDA0003722048950000031
其中,xi为第i个节点的输出值,D为输出节点的个数;其作用是将注意力机制模块的输出值转换为范围在[0,1],总和为1的概率分布,达到输出注意力权重的目的;
注意力权重向量A的维度和长短期记忆网络输出的隐藏状态的个数T一致:
A=[a1,a2,…,at-1,at,at+1,…,aT-1,aT] (14)
其中,at表示长短期记忆网络在时间步t上输出的隐藏状态ht所对应的注意力权重;
在得到注意力权重向量和长短期记忆网络输出的隐藏状态向量后,对各个特征分组计算上下文向量;对于单个特征分组来说,其上下文向量计算公式如下:
C=a1h1+a2h2+…+aThT (15)
其中,C为上下文向量。
5.如权利要求1所述的基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法,其特征在于,所述步骤3)中,回归模块由全连接神经网络构成,其中包含若干线性层和激活层;
回归模块的输入Z由每个特征分组的上下文向量拼接而成:
Z=[C1,C2,…,Ck-1,Ck,Ck+1,…,CK-1,CK] (16)
其中,Ck表示第k个特征分组的上下文向量,K表示特征分组的个数;
回归模块中线性层的计算公式与注意力机制模块中一致,激活层仅使用ReLU函数,应用于除输出层外的所有线性层后;回归模块的作用是对提取到的特征表示作进一步运算,将提取到的特征表示映射到预测目标即未来出水水质所在的特征空间中。
6.如权利要求1所述的基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法,其特征在于,所述步骤4)中,损失函数设定为均方误差:
Figure FDA0003722048950000032
其中,n为样本个数,yi表示第i个样本目标的真实值,
Figure FDA0003722048950000033
表示第i个样本目标的预测值。
CN202210765813.4A 2022-06-30 2022-06-30 基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法 Pending CN115345344A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210765813.4A CN115345344A (zh) 2022-06-30 2022-06-30 基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210765813.4A CN115345344A (zh) 2022-06-30 2022-06-30 基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法

Publications (1)

Publication Number Publication Date
CN115345344A true CN115345344A (zh) 2022-11-15

Family

ID=83948485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210765813.4A Pending CN115345344A (zh) 2022-06-30 2022-06-30 基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法

Country Status (1)

Country Link
CN (1) CN115345344A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451006A (zh) * 2023-06-12 2023-07-18 湖南大学 基于增强型时序模式注意力的pmu数据恢复方法及系统
CN116884523A (zh) * 2023-09-07 2023-10-13 山东科技大学 一种海洋牧场水质多参数预测方法
CN117390948A (zh) * 2023-08-10 2024-01-12 苏州黑盾环境股份有限公司 基于多头注意力长短时记忆神经网络冷水机组监测方法
CN117787511A (zh) * 2024-02-28 2024-03-29 福州工小四物联科技有限公司 一种工厂化高密度水产养殖监测预警方法及其系统
CN118332341A (zh) * 2024-04-26 2024-07-12 重庆邮电大学 一种基于深度学习的多维度长江水质预测方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451006A (zh) * 2023-06-12 2023-07-18 湖南大学 基于增强型时序模式注意力的pmu数据恢复方法及系统
CN116451006B (zh) * 2023-06-12 2023-08-25 湖南大学 基于增强型时序模式注意力的pmu数据恢复方法及系统
CN117390948A (zh) * 2023-08-10 2024-01-12 苏州黑盾环境股份有限公司 基于多头注意力长短时记忆神经网络冷水机组监测方法
CN116884523A (zh) * 2023-09-07 2023-10-13 山东科技大学 一种海洋牧场水质多参数预测方法
CN116884523B (zh) * 2023-09-07 2023-11-21 山东科技大学 一种海洋牧场水质多参数预测方法
CN117787511A (zh) * 2024-02-28 2024-03-29 福州工小四物联科技有限公司 一种工厂化高密度水产养殖监测预警方法及其系统
CN117787511B (zh) * 2024-02-28 2024-05-10 福州工小四物联科技有限公司 一种工厂化高密度水产养殖监测预警方法及其系统
CN118332341A (zh) * 2024-04-26 2024-07-12 重庆邮电大学 一种基于深度学习的多维度长江水质预测方法及装置

Similar Documents

Publication Publication Date Title
CN115345344A (zh) 基于注意力机制和长短期记忆网络的污水处理厂出水水质预测方法
CN111354423B (zh) 一种基于多元时间序列分析的自组织递归模糊神经网络的出水氨氮浓度预测方法
CN102854296B (zh) 一种基于集成神经网络的污水处理软测量方法
Heddam Modelling hourly dissolved oxygen concentration (DO) using dynamic evolving neural-fuzzy inference system (DENFIS)-based approach: case study of Klamath River at Miller Island Boat Ramp, OR, USA
CN109344971B (zh) 一种基于自适应递归模糊神经网络的出水氨氮浓度预测方法
Zhou et al. Soft-sensing of effluent total phosphorus using adaptive recurrent fuzzy neural network with Gustafson-Kessel clustering
Yin et al. Subsystem decomposition and distributed moving horizon estimation of wastewater treatment plants
CN110542748B (zh) 一种基于知识的鲁棒型出水氨氮软测量方法
CN115660165A (zh) 一种基于双层pso的模块化神经网络出水氨氮浓度多步预测方法
Salles et al. Prediction of key variables in wastewater treatment plants using machine learning models
CN113111576B (zh) 一种基于混合编码粒子群-长短期记忆神经网络出水氨氮软测量方法
Zhou et al. Soft sensing of effluent ammonia nitrogen using rule automatic formation-based adaptive fuzzy neural network
Varkeshi et al. Predicting the performance of Gorgan wastewater treatment plant using ANN-GA, CANFIS, and ANN models
CN112381221A (zh) 一种基于半监督学习的污水监测的多输出软测量方法
CN117035152A (zh) 一种基于ssa-lstm-am的污水水质预测方法
JPH03134706A (ja) 下水処理場運転支援のための知識獲得方法
CN110837886A (zh) 一种基于elm-sl0神经网络的出水nh4-n软测量方法
CN117252285A (zh) 基于并行cnn-gru网络的多指标污水水质预测方法
CN116306803A (zh) 一种基于wsfa-afe的ilstm神经网络的出水bod浓度预测方法
Chang et al. Soft sensor of the key effluent index in the municipal wastewater treatment process based on transformer
Xu et al. Prediction of the Wastewater's pH Based on Deep Learning Incorporating Sliding Windows.
CN114861543A (zh) 一种数据驱动的石化污水可生化性智能评价方法
CN112485394A (zh) 一种基于稀疏自编码和极限学习机的水质软测量方法
CN113222324A (zh) 一种基于pls-pso-rbf神经网络模型的污水质量监测方法
Mihály et al. Optimization of the Wastewater Treatment Plant Recycle Flowrates Using Artificial Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination