CN112215495B

CN112215495B - 一种基于长短时记忆神经网络的污染源贡献度计算方法

Info

Publication number: CN112215495B
Application number: CN202011093102.4A
Authority: CN
Inventors: 毕敬; 高润; 乔俊飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2022-05-24
Anticipated expiration: 2040-10-13
Also published as: CN112215495A

Abstract

本发明公开一种基于长短时记忆神经网络的污染源贡献度计算方法，基于时间动态弯曲及位置信息的污染源和水质间相关性计算；基于长短时记忆神经网络建立污染源‑水质模型；基于Sobol敏感度分析方法的贡献度计算。

Description

一种基于长短时记忆神经网络的污染源贡献度计算方法

技术领域

发明属于水环境管理技术领域，尤其涉及一种面向污染源排放数据和河流水质指标的污染源贡献度计算方法，特别是基于长短时记忆神经网络的污染源贡献度计算方法。

背景技术

在水环境管理中水质指标可以作为判断水污染程度的具体衡量尺度。通过地表水水质自动监测站实时采集获取的水质指标数据,可知水质的变化趋势。而水质指标的变化很容易受到污水排放、降雨和农业灌溉等外界因素的影响，有较强的非线性特征，没有特定的周期性和稳定性。传统的水质机理模型普遍采用线性模型对水质指标进行模拟。一方面线性模型限制了水质模型的精确度，缺乏对水环境非线性特征的分析，另一方面，由于复杂的水体环境，各个河流的水体环境并不相同，运用机理模型需要各个河流的一些详细参数去拟合模型，其中一些参数难易获取，这些问题导致传统模型在水质模拟中存在模型率定困难，模型只适用于特定地区或特定指标的情况。准确掌握污染物的来源并从源头上对污染物实施总量控制是实现污染源有效监管的技术依据，也是流域污染防治工作的重要技术支撑。

目前随着各类传感器、射频识别技术和物联网等技术的发展，数据不仅来源于传统人工监测数据，还包括在线自动监测站采集的污染源、水质和气象等多元时间序列数据。近年来随着时间序列数据量的增多，深度学习越来越成为处理大量数据的主流算法，广泛应用于各种大数据的分析处理中。目前大多数水质指标数据和污染源排放数据间属于长相关时间序列，即序列中可能存在间隔或延迟相对较长，但对下一时刻值影响较大的重要事件，传统的神经网络很难捕捉到这类长时间跨度影响的信息，因此导致模型的精度受到影响。而长短时记忆神经网络中采取的各种门控单元赋予了该神经网络获取时间间隔较大但存在互相影响的信息的能力，能够有力地挖掘时间序列中的长时间相关因素，采取长短时记忆神经网络进行污染源-水质模型的构建会有更加精准的水质模拟能力。

发明内容

针对以上现有技术的不足，本发明提供一种基于长短时记忆神经网络的污染源贡献度计算方法。包括：基于时间动态弯曲及位置信息的污染源和水质间相关性计算；基于长短时记忆神经网络建立污染源-水质模型；基于Sobol敏感度分析方法的贡献度计算。本发明的目的通过以下技术方案来实现。

一种基于长短时记忆神经网络的污染源贡献度计算方法，该方法包括如下的步骤：

1)获取过去一段时间监测到的河流水质数据及各污染源的排放数据；

2)对两类数据进行预处理；

3)在2)的基础上采用动态时间弯曲计算排放数据与水质数据的相关性；

4)在3)的基础上结合污染源地理位置选取适合的排放数据输入到长短时记忆神经网络模型中，输出水质数据，以便建立污染源-水质模型；

5)在4)的基础上采用Sobol敏感度分析方法计算污染源的贡献度，对污染源进行模拟削减，体现污染源管控效果。

本发明的优点在于：

(1)根据大量的污染源排放时序数据和目标水质时序数据即可构建出对应污染源-水质模型，无需额外大量参数。

(2)该模型可以用于各种水质指标以及不同地区，只需要对应的污染源排放时序数据和目标水质时序数据即可训练相应模型。

附图说明

图1一种基于长短时记忆神经网络的污染源贡献度计算方法流程示意图；

图2SG滤波器示意图；

图3时间动态弯曲算法示意图；

图4长短时记忆神经网络细胞结构图；

图5神经网络结构图。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

下面将参照附图1来描述根据本发明实施例的一种基于长短时记忆神经网络的污染源贡献度计算方法，具体步骤如下：

第一步，获取一条河过去一段时间内的监测到的河流水质时间序列数据以及污染源排放时间序列数据。

由于水质自动监测系统的监测频次通常为每四小时监测一次，而污染源监测系统的监测频次为每小时监测一次。因此在数据获取阶段，需要将两类数据按时间尺度进行对齐，具体操作为把污染源每小时排放数据进行每四小时累计一次的操作，降低污染源排放数据的时间密度，以此来保证两类数据是同一时间尺度。

第二步，对两类数据进行预处理。

由于数据中存在缺失和噪声的原因，直接使用原始数据进行相关性计算以及建立神经网络模型会导致计算结果不准确。因此采用线性插值的方法对缺失数据进行填补，来保证数据时间上的连续性。线性插值原理如下：

线性插值是针对一维数据的插值方法。它根据一维数据序列中需要插值的点的左右临近两个数据来进行数值估计。其插值公式如下：

公式中y为需要填充的缺失值，y₀为上一时刻的监测值，y₁为下一时刻的监测值，x，x₀，x₁为对应监测值的监测时间在整体序列中的序数。具体来说假设以2020-07-2216:00:00为1则2020-07-2220:00:00为2。对于数据中存在连续缺失的部分可以选取在缺失部分之后时刻中存在的监测数据作为y₁，对应的监测时间序数作为x₁。对于数据末尾存在的缺失部分采取上一时刻的监测值来进行填充。

缺失部分填充完毕后，通过使用SG滤波器对原始数据进行平滑滤波，来降低噪声的干扰，以便减轻局部波动对整体趋势的影响。SG滤波器可以在保持原有数据的形状和宽度的情况下降低噪音的干扰。

SG滤波器的核心思想为在时域内基于局部数据采用最小二乘法进行多项式拟合的滤波方法。该方法需要提前确定滤波窗口大小m和多项式的最高次数k-1，然后根据相应数据确定待拟合的多项式系数。其中m一般为奇数，窗口中心点即为滤波对象，即x在窗口内各测量点相对位置为-m/2，...，-1，0，1，...，m/2。待拟合的多项式如下：

y＝a₀+a₁x+a₂x²+…+a_k-1x^k-1

上述公式即为需要拟合的多项式，其中a₀…a_k-1为待求系数，y为监测值，为对应监测值的监测时间在整体序列中的序数。根据滤波窗口m会有m个方程，构成k元线性方程组，并通过最小二乘法拟合确定参数A，用矩阵表示为：

Y_m×1＝X_m×k·A_k×1

A的最小二乘解

为：

Y的模型滤波值为

为：

表达式中的Y的系数C被称为卷积系数，得到的卷积系数C是一个矩阵：

C＝X·(X^T·X)^-1·X^T

滤波后的数据要做Max-Min归一化处理，具体的公式如下：

其中，x^*表示归一化后的目标值，x表示需要归一化的数据，x_min代表数据中的最小值，x_max代表数据中的最大值。

第三步，计算污染源数据与河流数据相关性

本发明使用时间动态弯曲方法计算污染源数据与河流数据的相关性。两类数据经过上述处理后数据范围均被处理到[0,1]的区间内，采用时间动态弯曲方法可以计算两个时间序列之间的相似程度。

不同时间序列可能存在时间轴上的位移，亦即在还原位移的情况下，两个时间序列是一致的。在这些复杂情况下，时间动态弯曲通过把时间序列进行延伸和缩短，来计算两个时间序列性之间的相似性。如图3所示，上下两条实线代表两个时间序列，时间序列之间的连线代表两个时间序列之间的相似的点。时间动态弯曲使用所有这些相似点之间的距离的和，称之为归整路径距离来衡量两个时间序列之间的相似性。

时间动态弯曲算法实质上是一个动态规划算法，假设两个时间序列X,Y：

X＝{x₁，x₂，…，x_m}

Y＝{y₁，y₂，…，y_n}

其中，X含有m个观测样本，Y含有n个观测样本，且每个观测样本x_i，i＝1,2,…,m和y_j，j＝1,2,…,n都是同维度的样本。为了对齐这两个序列，我们需要构造一个n*m的矩阵网格D，矩阵元素D(i，j)表示x_i和y_j两个点的距离d(x_i，y_j)。时间动态弯曲算法就是寻找一条从矩阵元素D(1，1)出发到矩阵元素D(m，n)的最短路径。该算法使用动态规划方法来寻找此条通过此矩阵网格中若干格点的路径，路径通过的格点即为两个序列进行计算的对齐的点。对于i从1至m，j从1至n，通过迭代计算：

D(i，j)＝d(x_i，y_j)+min(D(i-1，j)，D(i，j-1)，D(i-1，j-1))

d(x_i，y_j)＝abs(x_i-y_j)

其中，D(i-1，j)表示x_i-1与y_j匹配时的子序列距离，D(i，j-1)表示x_i与y_j-1匹配时的子序列距离，D(i-1，j-1)表示x_i-1与y_j-1匹配时的子序列距离。

最终D(m,n)即为两个时间序列间的距离，距离越小则认为相似程度越高。

第四步，长短时记忆神经网络模型建立

本发明使用长短时记忆神经网络来建立污染源-水质模型，在计算完污染源和河流水质间的相似度后，根据相似度和污染源的位置信息来确定污染源-水质模型的输入和输出。在训练模型前，还需要确定输入步长。步长大小即为输入数据的时序长度，假设k个污染源，步长大小为t，当前时刻为T，则模型的输入为:

该矩阵用行向量表示即为：

其中，d_i，j，i∈[0，k-1]，j∈[T-t-1，T]表示第i个污染源在j时刻的排放数据。行向量矩阵中x_i＝[d_0，T-t-i…d_k-1，T-t-i]i∈[1，t]。模型输出为T+1时刻的水质数据。

简单的循环神经网络模型在构建步数较远的数据之间的关联关系非常困难，这是因为较远步数之间多次乘法会导致梯度消失和梯度爆炸。而长短时记忆神经网络采取了一个由长时记忆状态(c)和三个门控单元(输入门、输出门和遗忘门)的长短时记忆细胞(LSTMCELL)来解决这个问题。长短时记忆细胞内部构造如图4所示。长短时记忆细胞可以根据长时记忆状态来记录较远步数的联系，并通过三个门控单元来对长时记忆状态进行修改。因此长短时记忆神经网络是一个可以建立较长时间的关联的模型。具体可以用以下几个公式描述：

f_t＝σ(W_f[h_t-1，x_t]+b_f)

i_t＝σ(W_i[h_t-1，x_t]+b_i)

o_t＝σ(W_o[h_t-1，x_t]+b_o)

将

代表点乘，W_i，W_f，W_o和W_c矩阵代表输入门、遗忘门、输出门和候选长时记忆状态的参数，h_t为隐层输出，x_t为输入，c_t为长时记忆状态，σ(·)和tanh(·)是Sigmoid函数和Tanh函数。

长短时记忆神经网络提取特征的同时，依据自身的多个门的机制，还可以解决由于多层神经网络的参数传播所导致的梯度消失和梯度爆炸问题。

长短时记忆神经网络主要由长短时记忆细胞组成，长短时记忆细胞用以编码输入数据。本发明使用的单层长短时记忆神经网络展开结构如图5所示。该图表示步长为t的长短时记忆神经网络数据传递过程，其中的长短时记忆细胞均为同一个长短时记忆细胞，c₀为初始化的长时记忆状态，h₀为初始化的隐层输出，x_t为输入，h_t为隐层输出。接受充足的训练后，长短时记忆神经网络可提取复杂的时间序列信息特征。基于这些有效的特征，最后的全连接层能够将其解码为合理精度的水质模拟值。

上式中h_t是经过长短时记忆神经网络提取的隐藏状态，变量ω是全连接层的权值，

是水质模拟值。

通过观察模型在训练集和测试集上的表现，调整污染源-水质模型中长短时记忆细胞的参数以及输入步长，最终获取效果最佳的参数模型。

第五步，计算污染源贡献度

由于神经网络基本都是黑箱模型，无法直接得出输入参数对输出结果的影响程度，因此本发明采用Sobol敏感度分析方法来求解模型输入参数对输出结果的影响程度。Sobol敏感度分析是一种基于方差的敏感性分析方法，可以用于处理非线性相应。其具体过程如下，假设F(x)有D个输入参数，1个输出结果：

1)采用Sobol Sequence采样方法生成一个N*2D的样本矩阵，将前N列作为矩阵A，后N列作为矩阵B；

2)然后根据上述的样本矩阵生成D个N*D的AB_i对于i＝1,2,…,d使得AB_i中第i列等于矩阵B中第i列，其余列来自于矩阵A；

3)将上述D+2个矩阵输入F(x)得到N*1的矩阵

4)对矩阵

进行标准差归一化：

其中，Y_mean表示矩阵Y的平均值，Y_std表示为矩阵Y的标准差；

5)根据如下公式计算全局影响指数：

其中，S_Ti是第i个输入参数的全局影响指数，Y_Aj和

表示对应矩阵的第j行。

该污染源-水质模型可应用于不同河流的pH值、溶解氧(DO)、氨氮(NH3-N)、高锰酸盐指数(CODMN)等水质指标的拟合和污染源贡献度的计算。

本发明对上面提出的一种基于混合长短时记忆神经网络的污染源-水质模型，用以计算污染源贡献度。应当理解，以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，然而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施技术方案的精神和范围。

Claims

1.一种基于长短时记忆神经网络的污染源贡献度计算方法，其特征在于，采用数据挖掘技术分析大量数据，包括以下步骤：

2)对两类数据进行预处理；

3)采用动态时间弯曲计算排放数据与河流水质数据的相关性；

4)根据相关性以及污染源地理位置选取适合的排放数据输入到长短时记忆神经网络模型中，输出水质数据，以便建立污染源-水质模型；

5)采用Sobol敏感度分析方法计算污染源的贡献度，对污染源进行模拟削减，体现污染源管控效果；

步骤3具体为：

时间动态弯曲算法是一个动态规划算法，假设两个时间序列X，Y：

X＝{x₁，x₂，…，x_m}

Y＝{y₁，y₂，…，y_n}

其中，X含有m个观测样本，Y含有n个观测样本，且每个观测样本x_i，i＝1，2，…，m和y_j，j＝1，2，…，n都是同维度的样本，需要构造一个n*m的矩阵网格D，矩阵元素D(i，j)表示x_i和y_j两个点的距离d(x_i，y_j)，时间动态弯曲算法就是寻找一条从矩阵元素D(1，1)出发到矩阵元素D(m，n)的最短路径，使用动态规划方法来寻找此条通过此矩阵网格中若干格点的路径，路径通过的格点即为两个序列进行计算的对齐的点，对于i从1至m，j从1至n，通过迭代计算：

D(i，j)＝d(x_i，y_j)+min(D(i-1，j)，D(i，j-1)，D(i-1，j-1))

d(x_i，y_j)＝abs(x_i-y_j)

其中，D(i-1，j)表示x_i-1与y_j匹配时的子序列距离，D(i，j-1)表示x_i与y_j-1匹配时的子序列距离，D(i-1，j-1)表示x_i-1与y_j-1匹配时的子序列距离，

最终D(m，n)即为两个时间序列间的距离，距离越小则认为相似程度越高。

2.如权利要求1所述的基于长短时记忆神经网络的污染源贡献度计算方法，其特征在于，步骤4具体为：

使用长短时记忆神经网络来建立污染源-水质模型，在计算完污染源和河流水质间的相似度后，根据相似度和污染源的位置信息来确定污染源-水质模型的输入和输出，步长大小即为输入数据的时序长度，假设k个污染源，步长大小为t，当前时刻为T，则模型的输入为：

该矩阵用行向量表示即为：

其中，d_i，j，i∈[0，k-1]，j∈[T-t-1，T]表示第i个污染源在j时刻的排放数据，行向量矩阵中x_i＝[d_0，T-t-i…d_k-1，T-t-i]i∈[1，t]，模型输出为T+1时刻的水质数据，

长短时记忆神经网络采取了一个由长时记忆状态(c)和三个门控单元(输入门、输出门和遗忘门)的长短时记忆细胞(LSTMCELL)来解决这个问题，长短时记忆细胞根据长时记忆状态来记录较远步数的联系，并通过三个门控单元来对长时记忆状态进行修改，长短时记忆神经网络是一个可以建立较长时间的关联的模型，具体可以用以下几个公式描述：

f_t＝σ(W_f[h_t-1，x_t]+b_f)

i_t＝σ(W_i[h_t-1，x_t]+b_i)

o_t＝σ(W_o[h_t-1，x_t]+b_o)

其中，将

代表点乘，W_i，W_f，W_o和W_c矩阵代表输入门、遗忘门、输出门和候选长时记忆状态的参数，h_t为隐层输出，x_t为输入，c_t为长时记忆状态，σ(·)和tanh(·)是Sigmoid函数和Tanh函数，

长短时记忆神经网络由长短时记忆细胞组成，长短时记忆细胞用以编码输入数据，单层t步长的长短时记忆神经网络中为一个长短时记忆细胞使用t次，n层t步长的长短时记忆神经网络为n个长短时记忆细胞分别使用t次，其中第一层的输入为输入数据，第二至n层的输入为上一层的隐层输出，长短时记忆神经网络需要初始化c₀，h₀作为初始状态，接受充足的训练后，长短时记忆神经网络提取复杂的时间序列信息特征，基于这些有效的特征，最后的全连接层能够将其解码为合理精度的水质模拟值，