CN115062818A

CN115062818A - 一种基于贝叶斯模式平均与机器学习的水库入库泥沙概率预报方法

Info

Publication number: CN115062818A
Application number: CN202210505547.1A
Authority: CN
Inventors: 陈柯兵; 毕宏伟; 任实; 董炳江; 袁晶; 朱玲玲; 李圣伟; 曾凌; 杨成刚; 李思璇; 吕超楠; 孙思瑞; 原松; 陈芳; 张晓皓
Original assignee: China Three Gorges Corp; Bureau of Hydrology Changjiang Water Resources Commission
Current assignee: China Three Gorges Corp; Bureau of Hydrology Changjiang Water Resources Commission
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-09-16

Abstract

本申请涉及一种基于贝叶斯模式平均与机器学习的水库入库泥沙概率预报方法，包括以下具体步骤：采集流域水文、泥沙资料数据，包括流域的历史水位、流量、输沙率资料；对收集数据进行描述性统计分析，采用散点图、密度图形式，进行数据可视化；采用长短期记忆神经网络、随机森林和支持向量机三种机器学习方法建立水库入库泥沙计算模型；采用季节性贝叶斯模式平均方法选择上述步骤中的机器学习模型进行实时入库泥沙预报。本发明采用季节性贝叶斯模式平均方法对机器学习模型预报结果进行后处理，得到水库入库泥沙预报概率分布模型，科学合理、贴近工程实际，可操作性强，可为水库调度提供重要的参考依据。

Description

一种基于贝叶斯模式平均与机器学习的水库入库泥沙概率预报方法

技术领域

本申请涉及水库入库泥沙概率预报领域，尤其涉及一种基于贝叶斯模式平均与机器学习的水库入库泥沙概率预报方法。

背景技术

泥沙淤积引起水库库容损失，导致水库受到功能性、安全性和综合效益下降的影响，是水库可持续利用研究需要面对的关键问题。而入库泥沙的获取是水库科学减淤调度的重要基础。汛期利用水库入库泥沙预报技术，掌握入库泥沙过程、大小，以及沙峰在水库库区沿程输移特性，通过水库的实时调度，使沙峰能排出库外，减少水库淤积，对水库的长期使用和水库科学调度有着十分重要的实际和理论意义。

目前广泛使用的入库泥沙模型大多是确定性的，即以一个确定的点估计形式输出确定性的入库输沙量预测值给调度决策者，回避了该预测值的不确定性问题。而由于入库泥沙影响因素繁多，多个因素交互作用，导致各入库泥沙预测模型的确定性模拟结果、模拟精度也存在较大差别，实际观测的泥沙过程很可能不会与确定性模拟值完全一样，总是或远或近的分布在确定性模拟值的两侧，而传统的确定性模型否定了实况出现在确定性模拟值以外的可能性，据此而提供的泥沙模拟结果是不完善的[1]。

以概率分布形式定量描述和估计泥沙过程的不确定性，不仅可以给出模拟结果，还能给出指定该概率的置信区间，据此作出的概率预报容纳了拟合不确定性的存在，比给出确定性结果的预报过程更加真实，在理论上更加科学合理[2]，可以更好地满足决策者对风险信息的需求，在实践应用中能产生更高的经济与社会效益[3]。随着输沙量模拟概率模型的发展，对入库泥沙的概率预报带来机遇。但是目前还没有具有可操作性的水库入库泥沙概率预报方法。

涉及的参考文献如下：

[1]Mosselman E,Sloff K.The importance of floods for bed topographyand bed sediment composition:numerical modelling of Rhine bifurcation atPannerden[J].Developments in Earth Surface Processes,2007,11:161-179.

[2]高晨烨.黄土丘陵沟壑区坡面水流输沙能力计算模型研究[D].西北农林科技大学,2019.

[3]张荷惠子.基于Copula函数的无定河流域输沙量模拟研究[D].西安理工大学,2021。

发明内容

本申请实施例的目的在于提供一种基于贝叶斯模式平均与机器学习的水库入库泥沙概率预报方法，基于多种机器学习方法建立水库入库泥沙预报模型，并采用季节性贝叶斯模式平均方法对机器学习模型预报结果进行后处理，得到水库入库泥沙预报概率分布模型。

为实现上述目的，本申请提供如下技术方案：

本申请实施例提供一种基于贝叶斯模式平均与机器学习的水库入库泥沙概率预报方法，包括以下具体步骤：

采集流域水文、泥沙资料数据，包括流域的历史水位、流量、输沙率资料；

对收集数据进行描述性统计分析，采用散点图、密度图形式，进行数据可视化；

采用长短期记忆神经网络、随机森林和支持向量机三种机器学习方法建立水库入库泥沙计算模型；

采用季节性贝叶斯模式平均方法选择上述步骤中的机器学习模型进行实时入库泥沙预报。

所述采用长短期记忆神经网络方法建立水库入库泥沙计算模型具体为：

构建具有三层神经网络架构的长短期记忆神经网络模型，即LSTM模型，使用神经网络区间模拟均值法，独立运行多次神经网络模型，取平均值作为最终模拟结果；

长短期记忆神经网络将非线性自回归外因输入模式动态神经网络中的每个隐藏层换成了具有记忆功能的存储单元，简称LSTM单元，而其输入层和输出层与非线性自回归外因输入模式动态神经网络相同；

进一步地，采用最小批量梯度下降法对LSTM模型进行训练。

所述采用长短期记忆神经网络方法建立水库入库泥沙计算模型为

Q_cor(t)＝F_LSTM[QM(t),QM(t-1),QM(t-2),…,QM(t-N)]] (1)

Q_cor(t)表示t时刻泥沙监测站输沙率系列，QM(t)表示率定LSTM模型的输入变量，QM(t-1)表示t-1时刻的模拟资料系列，N表示LSTM模型确定的滞时；F_LSTM表示LSTM模型。

所述采用随机森林方法建立水库入库泥沙计算模型具体为：

随机森林法从原始训练样本集中有放回地重复随机抽取k个样本生成新的训练样本集合，然后根据自助样本集生成k个分类树组成随机森林，新数据的分类结果按分类树投票多少形成的分数而定，具体模型为

其中，N_tree代表随机森林模拟过程中的森林树木数量，f_i(x)代表每个树木的预测值。

所述支持向量机方法建立水库入库泥沙计算模型具体为：

S_d(t)＝F_SVM[Q_in,S_in,W_in,q_d] (3)

式中：S_d(t)表示t时刻泥沙监测站输沙率系列，Q_in表示输入SVM模型的流量变量，S_in表示输入SVM模型的输沙率变量，W_in表示输入SVM模型的水位变量，q_d表示历史泥沙输移条件，可决定输入变量的时段长度；F_SVM表示SVM模型。

所述采用季节性贝叶斯模式平均方法选择上述步骤中的机器学习模型进行实时入库泥沙预报具体为：

采用观测期各季节的泥沙监测站输沙率系列和各机器学习模型模拟系列率定相应的季节性贝叶斯模式平均方法，令S为输沙率目标变量，R＝[D,O]表征模型输入数据，其中D为训练期各方法的校正系列，O为实测系列，f＝[f₁,f₂,…,f_K]为K个不同校正模式的输出结果，由贝叶斯全概率公式可得S的概率密度函数如下：

式中：p_k(S|f_k,R)为第K个模拟模式f_k在给定数据R条件下预测值S的概率密度函数；p(f_k|R)为给定训练数据R时第k个模拟模式的后验概率密度函数，它表征该模式校正结果的优劣，且K个模式的后验概率总和为1；

贝叶斯模式平均方法即BMA方法的实质是采用后验概率作为权重，对校正变量不同模式下的p(f_k|R)加权平均，其中校正精度较高的模式得到的权重值相对更大

BMA方法通过各模式偏差校正效果的相对贡献来优选相应权重，最终输出的校正系列是各模式校正系列的加权平均结果，当校正变量服从正态分布时，可基于正态线性分布假设推导BMA方法的校正公式如下：

式中：

表示均值为f_k，方差为

的正态分布；E表示函数期望值，w_k为第k个偏差校正模式的权重；

BMA方法待求的参数设为

首先通过Box-Cox函数将观测系列和机器学习模型得到的模拟系列进行正态转换，再将θ似然函数的对数形式表示如下：

式(6)难以直接得到解析解，可采用期望最大化算法得到收敛的极大似然值，从而求得

的数值解。

与现有技术相比，本发明的有益效果是：本发明基于多种机器学习方法建立水库入库泥沙预报模型，并采用季节性贝叶斯模式平均方法对机器学习模型预报结果进行后处理，得到水库入库泥沙预报概率分布模型，科学合理、贴近工程实际，可为水库调度提供重要且可操作性强的参考依据。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例的方法流程示意图；

图2是本发明实施例三峡水库入库泥沙监测站点分布图；

图3是本发明实施例清溪场站与寸滩站沙峰峰值关系；

图4是本发明实施例2020年清溪场站输沙率概率预报示意图。

图5是本发明实施例2020年清溪场站输沙率概率预报示意图(8月份)。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1，本发明提供了一种基于贝叶斯模式平均与机器学习的水库入库泥沙概率预报方法，包括以下具体步骤：

S1.采集流域水文、泥沙资料数据，包括流域的历史水位、流量、输沙率资料；

S2.对收集数据进行描述性统计分析，采用散点图、密度图形式，进行数据可视化；

S3.采用长短期记忆神经网络、随机森林和支持向量机三种机器学习方法建立水库入库泥沙计算模型；

S4.采用季节性贝叶斯模式平均方法选择上述步骤中的机器学习模型进行实时入库泥沙预报。

下面通过实施例，并结合附图，对本发明的技术方案做进一步具体说明：

步骤1，采集流域水文、泥沙资料数据。

采集流域水文、泥沙资料，包括流域的历史水位、流量、输沙率等资料，采集数据属于本技术领域内的常规技术。

以三峡水库入库泥沙监测的清溪场(四)站点为例，见图2，对其开展泥沙概率预报，至少需收集寸滩水位、寸滩流量、寸滩输沙率，武隆水位、武隆流量、武隆输沙率，以及清溪场(四)水位、清溪场(四)流量、清溪场(四)输沙率，共9个水文、泥沙要素的历史数据。

步骤2，对收集数据进行描述性统计分析，采用散点图、密度图等形式，进行数据可视化。分析判断，拟预报变量与拟建立模型自变量间存在的关系。

同样以清溪场站点为例，表1给出了寸滩站到清溪场站的部分沙峰传播统计结果。图3为清溪场站和寸滩站沙峰峰值关系图，两站沙峰峰值线性化关系较明显，线性化趋势线的相关系数为0.89。分析结果表明，清溪场站输沙率与模型自变量之间存在一定的相关关系，可通过机器学习算法进行模型构建。

表1寸滩站至清溪场站沙峰传播统计

步骤3，采用长短期记忆神经网络(LSTM)、随机森林和支持向量机，三种机器学习方法建立水库入库泥沙计算模型。

(1)LSTM：

本实施例构建具有三层神经网络架构的长短期记忆神经网络(LSTM)模型，使用神经网络区间模拟均值法，独立运行多次神经网络模型，取平均值作为最终模拟结果，以减少不确定性。

为解决非线性自回归外因输入模式(NARX)动态神经网络在深度学习过程(隐含层数≥2层)中引发的梯度爆炸和梯度消失问题，LSTM长短期记忆神经网络通过在NARX神经网络的隐藏层中引入存储单元，即输入门、忘记门、内部回馈连结、和输出门来选择记忆当前信息或遗忘过去记忆信息(如降雨–径流映射关系)，以增强NARX神经网络的长期记忆能力。简而言之，LSTM长短期记忆神经网络是将NARX动态神经网络中的每个隐藏层换成了具有记忆功能的存储单元，简称LSTM单元，而其输入层和输出层与NARX动态神经网络相同。

以清溪场站构建的长短期记忆神经网络(LSTM)模型为例；模拟的清溪场输沙率系列可表示为：

Q_cor(t)＝F_LSTM[QM(t),QM(t-1),QM(t-2),…,QM(t-N)]] (1)

式中：Q_cor(t)表示t时刻清溪场输沙率系列，QM(t)表示率定LSTM模型的输入变量，包括寸滩水位、寸滩流量、寸滩输沙率，武隆水位、武隆流量、武隆输沙率，清溪场水位、清溪场流量、前期清溪场输沙率；QM(t-1)表示t-1时刻的模拟资料系列，N表示LSTM模型确定的滞时；F_LSTM表示LSTM模型。

进一步地，采用本领域的常规技术最小批量梯度下降法对LSTM模型进行训练。

(2)随机森林：

随机森林法是机器学习算法的一种，采用多个决策树以形成机器学习集合样本。随机森林法从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合，然后根据自助样本集生成k个分类树组成随机森林，新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进，将多个决策树合并在一起，每棵树的建立依赖于一个独立抽取的样品，森林中的每棵树具有相同的分布，分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点，然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择特征的数目。单棵树的分类能力可能很小，但在随机产生大量的决策树后，一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类。本实施例随机森林法建模中，拟采用的参数及其值为森林树木数量为180，最小样本分裂数为2，最小样本叶为10，最大特征为9，均方误差用于衡量模拟结果。

(3)支持向量机：

支持向量机(SVM)是基于结构风险最小化原则，将最优分类问题转化为求解凸二次规划问题，得到全局最优解，较好地解决了局部极小值的问题，同时在一定程度上克服了“维数灾”和“过学习”等传统困难，因此在文本过滤、数据挖掘、非线性系统控制等领域广泛应用。研究选用σ为参数的Gauss径向基函数，采用寸滩水位、寸滩流量、寸滩输沙率，武隆水位、武隆流量、武隆输沙率，清溪场水位、清溪场流量、前期清溪场输沙率数据作为自变量，当前t时刻清溪场输沙率为因变量，利用遗传算法进行参数率定，得到SVM确定性预报模型。

模拟的清溪场输沙率系列可表示为：

S_d(t)＝F_SVM[Q_in,S_in,W_in,q_d] (3)

式中：S_d(t)表示t时刻清溪场输沙率系列；Q_in表示输入SVM模型的流量变量，包括寸滩、武隆、清溪场流量；S_in表示输入SVM模型的输沙率变量，包括寸滩、武隆、清溪场输沙率；W_in表示输入SVM模型的水位变量，包括寸滩、武隆、清溪场水位；q_d表示寸滩、武隆至清溪场的历史泥沙输移条件，可决定输入变量的时段长度；F_SVM表示SVM模型。

步骤4，采用季节性贝叶斯模式平均方法(BMA)选择步骤3中的机器学习模型(或组合)进行实时入库泥沙预报。BMA是一种统计后处理方法，在水文领域最早应用于水文气象预报及其不确定性评估，它依赖所有集合预报成员，而不是单一的“最优”预报模式，通过考虑多成员内部的不确定性从而改进预报结果。本实施例使用季节性BMA方法融合LSTM、随机森林和支持向量机三种机器学习模型得到的清溪场输沙率预报结果，以期提高预测精度。

采用观测期各季节的清溪场输沙率系列和各机器学习模型模拟系列率定相应的季节性BMA模型，令S为目标变量(输沙率)，R＝[D,O]表征模型输入数据(其中D为训练期各方法的校正系列，O为实测系列)，f＝[f₁,f₂,…,f_K]为K个不同校正模式的输出结果，由贝叶斯全概率公式可得S的概率密度函数如下：

式中：p_k(S|f_k,R)为第K个模拟模式f_k在给定数据R条件下预测值S的概率密度函数；p(f_k|R)为给定训练数据R时第k个模拟模式的后验概率密度函数，它表征该模式校正结果的优劣，且K个模式的后验概率总和为1。BMA方法的实质是采用后验概率作为权重，对校正变量不同模式下的p(f_k|R)加权平均，其中校正精度较高的模式得到的权重值相对更大。

BMA方法可以通过各模式偏差校正效果的相对贡献来优选相应权重，最终输出的校正系列是各模式校正系列的加权平均结果，当校正变量服从正态分布时，可基于正态线性分布假设推导BMA方法的校正公式如下：

式中：

表示均值为f_k，方差为

的正态分布；E表示函数期望值，w_k为第k个偏差校正模式的权重。

BMA模型待求的参数设为

首先通过Box-Cox函数将观测系列和步骤S3中的机器学习模型得到的模拟系列进行正态转换，再将θ似然函数的对数形式表示如下：

式(6)难以直接得到解析解，可采用期望最大化(EM)算法得到收敛的极大似然值，从而求得

的数值解。

本实施例中，推算的2020年清溪场站输沙率如图4(全年)、图5(典型沙峰过程)所示。系统误差为5.32％，随机不确定度25.6％，具有一定可靠性，可作为水库入库泥沙预报新的技术手段和技术支撑。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。