CN116415705A

CN116415705A - 一种多因素水位预测方法、装置、电子设备和计算机介质

Info

Publication number: CN116415705A
Application number: CN202211646503.7A
Authority: CN
Inventors: 翼肖榆; 梁延研; 于春涛; 吕海峰
Original assignee: China Energy International High Tech Research Institute Co ltd; Wuzhou University
Current assignee: China Energy International High Tech Research Institute Co ltd; Wuzhou University
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-07-11

Abstract

本发明公开了一种多因素水位预测方法、装置、电子设备和计算机介质，包括以下步骤：步骤S1：设置采样时刻，收集、交换和共享每个采样时刻的水位影响因子；S2：对水位影响因子数据进行预处理，并将预处理后的数据随机划分为训练集和验证集；S3：构建水位预测模型，并训练模型；S4：利用模型评价指标对水位预测模型进行评价输出最优的水位预测模型；S5：根据所述步骤S4输出的最优的水位预测模型对实时水位进行预测。考虑了多种因素对水位的影响从而将训练得出模型，并引入评价指标对预测出的水位预测模型进行评价，从而得以输出最优的水位预测模型，实现了水位的准确预测，提高了模型预测水位的准确程度。

Description

一种多因素水位预测方法、装置、电子设备和计算机介质

技术领域

本发明涉及水位预测技术领域，尤其涉及一种多因素水位预测方法、装置、电子设备和计算机介质。

背景技术

精准的水位预测对于西江流域安全及水资源的合理调度具有重要意义。考虑到西江的水位存在波动性、季节性等众多特点，且影响水位的因素较多，如各个支流的流量、潮汐和降雨量等。多因素作用使得水位规律难以预判，水位预测的难度不言而喻。随着当前大数据、人工智能等技术的快速发展，对于水位长时段预测问题，国内外众多水文学者利用机器学习、数据挖掘以及深度学习方法进行预测，研究改进现有水位预测方法和模型，提出了一系列可行的预测模型。对于该领域的研究，学者专家主要从两方面进行研究，一方面是对水位预测模型构建的时间序列、机器学习、深度学习算法，另一方面是用于提升模型泛化能力的特征抽取算法及模型，且在水位预测方面，学者们的研究方法主要侧重于传统的单因素时间序列处理，即只考虑将水位作为输入变量。

目前，国内外主要基于以下几种时间序列学习算法进行水位预测领域的模型研究:一种是应用十分广泛的时间序列预测模型——基于差分自回归移动平均模型(Autoregressive Integrated Moving Average model，ARIMA)时间序列的水位预测，但该种模型仅以水位数据作为输入，忽略其他因素对水位的影响权重。另一种是基于神经网络模型的水位预测，常用的神经网络水位预测模型包括有递归神经网络(Recurrent NeuralNetwork，RNN)、卷积神经网络(Convolutional Neural Network，CNN)和人工神经网络(Artificial Neural Network，ANN)，还包括长短期记忆网络(Long Short-Term Memory，LSTM)，相对于时间序列预测模型而言，基于神经网络模型的水位预测考虑的因素更多，得到的预判结果也相对准确一些。在实际情况中，上下游的水电站的流量及水位相互作用，联合调度发电计划等因素增加了水位预测的难度，复杂的水文条件给水位预测带来了不确定性，因此，在实际应用中，水文站的水位预测模型尤其是在枯水期依然存在模型智能化不足、预报精准度不够等问题。

发明内容

本发明所述的一种多因素水位预测方法、装置、电子设备和计算机介质，解决上述背景技术中提出的模型智能化不足、预报精准度不够的问题。

为实现上述目的，本发明提供如下技术方案：一种多因素水位预测方法，其特征在于，包括以下步骤：

S1：设置采样时刻，收集、交换和共享每个采样时刻的水位影响因子；

S2：对所述S1步骤收集的所述水位影响因子数据进行预处理，并将预处理后的数据构建为输入向量x和对应的因变量y，将输入向量x和对应因变量y随机划分为训练集和验证集；

S3：基于深度神经网络构建水位预测模型，并根据所述训练集训练模型；

S4：将所述验证集输入所述水位预测模型，利用模型评价指标对水位预测模型进行评价输出最优的水位预测模型；

S5：根据所述步骤S4输出的最优的水位预测模型对实时水位进行预测。

所述步骤S2的具体步骤如下：

S201：判断有误缺失值，若有，则补充缺失值，若没有，则进行所述步骤S202；

S202：进行采集时间对齐预处理；

S203：对经过时间对齐后的原始数据进行归一化处理；

S204：将归一化处理后的数据按照高维数据分布的形式进行构建多因素输入向量x与单因素输出因变量y数据流；

S205：对包含输入向量x和因变量y数据流划分训练集和验证集。

优选的，所述步骤S203中的归一化处理的表达式为：

之中，x为原始数据，min为数据最小值，max为数据最大值。

优选的，通过8∶2的比例划分所述步骤S205中的训练集和验证集。

所述步骤S3包括以下步骤：

S301：将训练集划分为多个输入数据；

S302：构建一个基于卷积神经网络的水位预测模型，包括输入层、卷积层、拼接层、全连接层和输出层；

S303：将输入数据经过unsqueeze(1)增加维度后分别依次输入至所述卷积层；

S304：将所述步骤S303中得到的数据进行拼接；

S305：把经过降维后的输出输入全连接层和输出层，得到下一个时刻的水位预测值；

S306：计算所述下一个时刻的水位预测值与对应时刻的真实值的均方误差mse，将所述均方误差mse作为损失函数；

S307：利用随机梯度下降法SGD对所述损失函数进行训练，即利用随机梯度下降(SGD)通过迭代优化最小化损失函数，直至模型达到收敛条件从而模型收敛。

优选的，所述步骤S4中的模型评价指标包括Pearson相关系数平方R²、均方根误差RMSE和Nash-Sutcliffe效率系数NSE；

相关系数平方R²的计算公式为：

式中，p表示预测值,o表示观测值，

代表预测值的均值。/>

代表测试前真实值的平均值；

均方根误差RMSE的计算公式为：

式中，样本总数为n，p表示预测值,o表示观测值；

效率系数NSE计算公式为：

式中，样本总数为n，p表示预测值,o表示观测值。

所述步骤S5的具体步骤为：

S501：假设当前为t时刻，获取过去n个时刻的上游船闸站点流量数据和待预测站点的水位历史值；

S502：经过预处理归一化后输入至所述水位预测模型进行预测t时刻的水位值；

S503：对所述的预测值进行反归一化处理，即把归一化的预测值转换为原始值输出。

一种多因素水位预测装置，其特征在于，包括设置在不同地点的传感器和数据汇聚平台，所述传感器与数据汇聚平台通讯连接；所述传感器用于收集水情数据，提供水位影响因子的原始数据；所述数据汇聚平台用于汇总本地点传感器收集的水情数据并与其它地点的水情数据进行共享和交换。

一种电子设备，包括：处理器和存储装置；所述存储装置上存储有程序，所述程序被所述处理器执行，实现以上所述的一种多因素水位预测方法。

一种计算机介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现以上所述的一种多因素水位预测方法。

本发明的有益效果为：

通过步骤S1：设置采样时刻，收集、交换和共享每个采样时刻的水位影响因子；S2：对所述S1步骤收集的所述水位影响因子数据进行预处理，并将预处理后的数据构建为输入向量x和对应的因变量y，将输入向量x和对应因变量y随机划分为训练集和验证集；S3：基于深度神经网络构建水位预测模型，并根据所述训练集训练模型；S4：将所述验证集输入所述水位预测模型，利用模型评价指标对水位预测模型进行评价输出最优的水位预测模型；S5：根据所述步骤S4输出的最优的水位预测模型对实时水位进行预测。考虑了多种因素对水位的影响从而将训练得出模型，并引入评价指标对预测出的水位预测模型进行评价，从而得以输出最优的水位预测模型，实现了水位的准确预测，提高了模型预测水位的准确程度。

附图说明

图1为本发明的流程示意图；

图2为本发明数据交换共享系统拓扑图；

图3为本发明输入向量x与因变量y的构成及其特征图；

图4为本发明实施例提供的基于堆叠卷积神经网络的水位预测模型的结构示意图；

图5为实施例中预测的梧州站水位预测值与实测值的比较图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种多因素水位预测方法，包括以下步骤：

所述步骤S2的具体步骤如下：

S202：进行采集时间对齐预处理；

S203：对经过时间对齐后的原始数据进行归一化处理；

所述步骤S3包括以下步骤：

S301：将训练集划分为多个输入数据；

S304：将所述步骤S303中得到的数据进行拼接；

所述步骤S5的具体步骤为：

进一步地，优选的，所述步骤S203中的归一化处理的表达式为：

之中，x为原始数据，min为数据最小值，max为数据最大值。

进一步地，通过8∶2的比例划分所述步骤S205中的训练集和验证集。

进一步地，所述步骤S4中的模型评价指标包括Pearson相关系数平方R²、均方根误差RMSE和Nash-Sutcliffe效率系数NSE；

相关系数平方R²的计算公式为：

式中，p表示预测值,o表示观测值，

代表预测值的均值。/>

代表测试前真实值的平均值；

均方根误差RMSE的计算公式为：

式中，样本总数为n，p表示预测值,o表示观测值；

效率系数NSE计算公式为：

式中，样本总数为n，p表示预测值,o表示观测值。

本发明提供一种多因素水位预测装置，包括设置在不同地点的传感器和数据汇聚平台，所述传感器与数据汇聚平台通讯连接；所述传感器用于收集水情数据，提供水位影响因子的原始数据；所述数据汇聚平台用于汇总本地点传感器收集的水情数据并与其它地点的水情数据进行共享和交换。

本发明提供一种电子设备，包括：处理器和存储装置；所述存储装置上存储有程序，所述程序被所述处理器执行，实现以上所述的一种多因素水位预测方法。

本发明提供一种计算机介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现以上所述的一种多因素水位预测方法。

下面结合图1-5，以梧州水位站水位预测为例子，进一步讲解本发明的工作原理和流程。

所述水位影响因子包括采样时刻下的自有船闸、第三方船闸、以及水文气象等多个不同技术架构系统的各类传感器收集的水情数据，主要包括入库流量(采样时刻为每1个小时)、出库流量(采样时刻每1个小时)、坝下水位(采样时刻每1小时)。输入数据的选取会影响特征提取及后期预测结果的精度。为突出西江流域水资源特征并降低数据计算导致的误差，本实施例选择监控数据作为模型输入，主要包括梧州水文站水位、上游船闸长洲、京南、大藤峡和桂平等站点的出库流量，上述数据为相互独立的时间序列，能够体现船闸调度的空间特征和季节特征。各输入因子及其编号的对应关系如下表1所示，其中包括站点id、站点名、站点流量达到梧州站点所需时间、采集数据类型(流量/水位)以及数据权重(权重越大，表明该因素对模型的影响就越大)

表1模型输入因子详细信息及编号

梧州水文中心数据通过在水文中心侧配置一个10分钟同步一次的中间库实现数据共享与交换，数据通过内网/外网NAT映射到西江水情多源异构数据汇聚平台。

西江水情多源异构数据汇聚平台通过JDBC接口对接各种数据源，实现水情数据的共享交换及访问安全控制，把数据汇聚分流为主库、中间库及接口库，主库为数据总平台(后续考虑异地热备份)，中间库为第三方船闸的数据交换库(如大藤峡水情数据交换共享)，接口库为提供对外服务的业务数据(如船闸调度的业务数据共享到第三方船闸)，数据交换共享系统如图2所示。

S2：对S1步骤收集的所述水位影响因子数据进行预处理，并将预处理后的数据构建为输入向量x和对应的因变量y，将输入向量x和对应因变量y随机划分为训练集和验证集；以梧州水文站的水位预测为研究对象(因变量)，考虑其本身历史水位数据和上游多个船闸站点包括不局限于(长洲、京南、大藤峡和桂平)的出库流量为影响因子。具体步骤为：

(1)缺失值预处理。考虑到采集的数据可能存在缺失的情况，所述缺失值预处理是指将相邻两个时刻的水位影响因子的平均值填补缺失值，保证水位影响因子的完整性。

(2)采集时间对齐预处理。考虑到上游船闸对应站点的流量到达梧州水文站点的历时不同，故需要对所述水位影响因子历史数据按相同时间点进行对齐，经过对齐处理后，原始数据形式如表2所示,本实施例数据集为2020—2021年的西江水位影响因子相关数据，其中梧州水文站点数据类型为水位，单位：m；其他上游船闸站点数据类型为流量，单位：m3/s。

表2经过时间对齐后多站点2020年～2021年的流量和水位数据

注意：梧州水位站2点水位值，对应长洲0点的出库流量，其他站点以此类推进行对齐。

(3)对经过时间对齐后的原始数据进行归一化处理。由于不同影响因素的单位不一样(比如单位为立方米每秒m³/s的流量，以米m为单位的水位)，数量级差异大，所以需要将各个因素的值进行归一化处理。归一化后的数据有助于模型更好发现每个因素之间的联系，提高模型训练的收敛速度，减少模型的训练时间。归一化数据的表达式子包括不局限于以下的Min-Max Scaling)：

式中:数据(x)按照最小值中心化后，再按极差(最大值-最小值)缩放，数据移动了最小值个单位，并且会被收敛到[0,1]之间。

(4)将归一化处理后的数据按照高维数据分布的形式进行构建多因素输入向量x与单因素输出因变量y数据流，首先设置两个超参数n和m，其中n表示利用过去n个时刻的历史水位影响因子数据预测当前整点时刻t的待预测站点的水位值，即以最近n个时刻的上游支流对应船闸长洲、京南、大藤峡、桂平等站点的流量和梧州站点对应时刻的水位历史值作为模型的输入向量x，当前时刻t的待预测站点的水位值作为因变量y，如图3所示。m表示预测未来m个时刻的待预测站点水位值。本发明的一个实施例设置n＝30，m＝12,并以西江流域梧州水文站点水位预测为实施对象，多因素的输入以上游支流对应船闸长洲、京南、大藤峡、桂平等站点过去30个时刻的流量和梧州站点水位历史值。单因素的输出因变量则为梧州水文站点未来下一时刻水位的预测值。若连续预测未来m个时刻梧州站点的水位值，则只需要将前一个时刻的预测值进行替换，并输入其他站点相应时刻的流量，即可获得下一个时刻的水位预测值，重复上述操作即可预测未来m个时刻水位值。

(5)对包含输入向量x和因变量y数据流划分训练集和验证集。训练阶段采用十字交叉法训练数据，将每一组数据集划分为10个子集，保证每一组数据的特征均能被捕捉。本发明将训练集和验证集数据按照8∶2比例进行划分。

S3：基于深度神经网络构建西江水位预测模型，并根据训练集训练模型。

具体步骤如下：

所述构建的基于深度神经网络水位预测模型，包括不局限于卷积神经网络CNN，长短期记忆网络LSTM等神经网络结构。本实施例采用的是基于堆叠的卷积神经网络CNN构建西江水位预测模型。

(1)将训练集train_data划分为多个数据维度为(batch_size，ts，features)格式的输入数据，其中batch_size表示批处理大小，ts表示利用最近ts个小时的历史数据作为影响水位的自变量因子，features表示影响水位的特征个数，本实施例的多因素分别为梧州水文站历史水位值、上游船闸的长洲、大藤峡、桂平和京南站点的流量值，即features为5。

(2)构建一个基于卷积神经网络的水位预测模型，其结构如图4所示，包括输入层、卷积层、拼接层、全连接层和输出层构成。卷积层是1×5的卷积核大小，步长为1，输入输出通道数均为1，激活函数可以是Relu。

(3)本实施例将输入数据t₃₀,t₂₉,...,t₁经过unsqueeze(1)增加维度后分别依次输入至所述卷积层，其中t_i输入数据的格式为(batch_size,i,features)，并将得到30个维度为(batch_size,i,1)的输出按dim＝1维度进行拼接，得到拼接后的输出(batch_size,465,1)，接着把经过降维后的输出(batch_size,465)输入全连接层和输出层，得到下一个时刻的水位预测值，i＝[30,29,...,1]。

(4)计算所述下一个时刻的水位预测值与对应时刻的真实值的均方误差mse作为损失函数，采用随机梯度下降法SGD对所述基于卷积神经网络的水位预测模型的mse损失函数进行训练,给定训练集T＝{(sⁱ,yⁱ)},均方误差损失定义为：

其中Θ表示模型中使用的所有参数,T表示样本数量，oⁱ表示预测值，yⁱ表示真实值。在实现过程中，我们利用随机梯度下降(SGD)通过迭代优化最小化损失函数，直至模型收敛。训练收敛的条件包括不局限于损失函数下降不超过预设的损失函数阈值或者迭代轮数达到预设上限值等。

S4：将验证集输入所述水位预测模型，利用模型评价指标对水位预测模型进行评价输出最优的水位预测模型。

所述模型评价指标包括Pearson相关系数平方R²、均方根误差RMSE和Nash-Sutcliffe效率系数NSE，相关系数平方R²的计算公式为：

式中，

代表预测值的均值。/>

代表测试前真实值的平均值，有助于比较模型的性能和预测前全部已知真实值的平均值。此指标对比了真实值和预测值两者的线性关系。模型效果好的表现是当R²的值比较接近1，反之模型效果差。

均方根误差RMSE的计算公式为：

式中，样本总数为n，p表示预测值,o表示观测值。RMSE对误差值大比较灵敏，能够有效表达模型的预测效果。真实值与预测值误差越小，则RMSE的值越小。

效率系数NSE由Nash-Sutcliffe模型计算得到，其计算公式为：

NSE指标一般用于检验水文预测模型的精准度，取值范围满足负无穷到1。若NSE值越靠近1，则表明水文模型十分可靠。若NSE越靠近0时，则表明模型预测结果与真实值的平均值无太大差别，整体预测是值得信赖的，但预测误差相当大。若NSE<<0的时候，表明模型预测效果不具备指导意义，即不可用。S5.根据步骤S4输出的最优的水位预测模型对实时水位进行预测。

(1)假设当前为t时刻，获取过去n个时刻的上游船闸站点流量数据和待预测站点的水位历史值；

(2)经过预处理归一化后输入至所述多因素水位预测模型进行预测t时刻的水位值；

(3)对所述的预测值进行反归一化处理，即把归一化的预测值转换为原始值输出。

以下以西江干线梧州水文站的水位预测为例进行应用研究，使用Linux操作系统Ubuntu20.04，Python版本为3.6.5，keras 2.2.4以及Tensorflow 1.4.1版本深度学习框架构建和训练所述的基于卷积神经神经网络的多因素水位预测模型。采用本申请的模型对西江干线梧州水文站的水位开展预测，预测步长为12小时。图5为梧州水文站水位预测值与实测值对比。

为了验证本发明申请模型的预测效果，对2021年12月1日24小时整点水位进行样本外预测(见表3)。从表3预测结果可知，预测值与实际值不管是绝对误差值，还是相对误差，均比较小，平均相对误差为2.06％，最大相对误差为仅为4％，最大绝对误差仅为0.113m，均方根误差仅为0.0656，Pearson相关系数平方R2达到0.906。

表32021年12月1日24小时整点水位预测情况

为了进一步验证本申请的效果，将其与常用水位预测模型进行对比。参照模型为ARIMA模型、单因素LSTM模型、多因素LSTM模型，验证集表现如表4所示。

表4本发明模型与其他模型在验证集上的表现

根据实验结果对比可知，本申请也即基于卷积神经网络的水位预测模型在水位预测(RMSE＝0.108，NSE＝0.909，R2＝0.913)取得了最好的效果。

综上所述，本发明申请的模型可以有效改善模型的拟合能力和提高预测精度。融合上游支流船闸流量及增加近期历史时刻的输入数据的权重，以提高各指标预测精度为目的，在建立多种单一模型基础上，针对西江水位的时间序列预测自身特点，以均方误差最小为原则，提出基于深度神经网络以卷积神经网络为例的多因素西江水位预测模型，实验结果表明水位预测误差控制在4％以内。预测效果对西江船闸运行调度中心精准预调度船舶，对行业主管和装载货物的船舶形成有效的指导建议等具有重要指导价值。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种多因素水位预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多因素水位预测方法，其特征在于，所述步骤S2的具体步骤如下：

S202：进行采集时间对齐预处理；

S203：对经过时间对齐后的原始数据进行归一化处理；

3.根据权利要求2所述的一种多因素水位预测方法，其特征在于，所述步骤S203中的归一化处理的表达式为：

之中，x为原始数据，min为数据最小值，max为数据最大值。

4.根据权利要求2所述的一种多因素水位预测方法，其特征在于，通过8∶2的比例划分所述步骤S205中的训练集和验证集。

5.根据权利要求2所述的一种多因素水位预测方法，其特征在于，所述步骤S3包括以下步骤：

S301：将训练集划分为多个输入数据；

S304：将所述步骤S303中得到的数据进行拼接；

6.根据权利要求1所述的一种多因素水位预测方法，其特征在于，所述步骤S4中的模型评价指标包括Pearson相关系数平方R²、均方根误差RMSE和Nash-Sutcliffe效率系数NSE；

相关系数平方R²的计算公式为：

式中，p表示预测值,o表示观测值，

代表预测值的均值。/>

代表测试前真实值的平均值；

均方根误差RMSE的计算公式为：

式中，样本总数为n，p表示预测值,o表示观测值；

效率系数NSE计算公式为：

式中，样本总数为n，p表示预测值,o表示观测值。

7.根据权利要求5所述的一种多因素水位预测方法，其特征在于，所述步骤S5的具体步骤为：

8.一种多因素水位预测装置，用于权利要求1-7任意一所述的多因素水位预测方法，其特征在于，包括设置在不同地点的传感器和数据汇聚平台，所述传感器与数据汇聚平台通讯连接；所述传感器用于收集水情数据，提供水位影响因子的原始数据；所述数据汇聚平台用于汇总本地点传感器收集的水情数据并与其它地点的水情数据进行共享和交换。

9.一种电子设备，包括：处理器和存储装置；所述存储装置上存储有程序，所述程序被所述处理器执行，实现如权利要求1-7中任意一所述的方法。

10.一种计算机介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任意一所述的方法。