CN110276477A

CN110276477A - 一种基于分层贝叶斯网络和增量学习的洪水预报方法

Info

Publication number: CN110276477A
Application number: CN201910456671.1A
Authority: CN
Inventors: 巫义锐; 于清瀚; 徐维刚; 冯钧
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-09-24
Anticipated expiration: 2039-05-29
Also published as: CN110276477B

Abstract

本发明公开一种基于分层贝叶斯网络和增量学习的洪水预报方法，属于水文预报领域。该方法包括以下步骤：步骤1：对历史数据进行数据预处理；步骤2：基于水文知识挖掘构建分层贝叶斯网络模型；步骤3：基于样本选择和样本扩充进行增量学习，反复进行迭代学习；步骤4，使用模型进行预测，对结果进行纠偏。本发明在洪峰预测的表现上有一定的优势，预报精度满足中小河流洪水预报的要求，模型有很好的通用性和很强的鲁棒性，预测精度高，学习能力强，能够精准的进行中小河流的洪水预测。

Description

一种基于分层贝叶斯网络和增量学习的洪水预报方法

技术领域

本发明涉及一种基于分层贝叶斯网络和增量学习的洪水预报方法，属于水文预报领域。

背景意义

中小河流一般是指流域面积小于3000km²的河流，该类河流所处区域复杂，时空变化多样，且受季风气候影响。时段内爆发性持续强降雨导致河流水位迅速上涨，是山洪暴发的主要原因。中小河流洪水具有突发性强、致灾时间短、洪水模式多样、难预测等特点，山洪暴发导致流域内社会经济发展造成巨大的损失。因此，展开中小河流的洪水预测预警预报工作，让流域内政府机关能提早获得预警信息，对及时组织开展防洪工作、减少财产损失和人员伤亡具有重要意义。

以上洪水预报模型在各自适应的场景和流域中均发挥了重大作用，而在洪水预报的准确性是衡量一个模型好坏的主要因素。由于人类活动、自然环境改变等因素，中小河流洪水的特性发生改变，新特性直接在新场次洪水中表现，如果忽略这些信息，将影响洪水的预报精度。而上文提到的水文预报模型均是“一次学习，多次模拟”，处理新场次洪水的一般做法是将新场次洪水与历史洪水相结合，对模型进行重新率定或训练，效率低下。此外，在长期的洪水数据收集中，由于以往测量设备的精度等原因导致收集数据质量差、缺失数据多，而随着设备不断更新换代，收集的数据质量有了很大提高、数据种类也更加丰富，如何对新场次洪水进行学习并提高模型的精度，是防洪领域中值得深入研究和探讨的问题。但部分中小河流洪水资料仍然比较匮乏，数据质量不高，洪水场次少，样本中包含知识少，也加大了信息挖掘的难度。

目前，国内外对于洪水预报模型已经有了大量的研究成果，也涌现出了各种类型的模型。通过对国内外文献的进一步分析可以发现，目前还存在着以下不足：

(1)模型的通用性不足；

(2)模型增量学习效率低；

(3)模型增量学习稳定性差。

发明内容

本发明提出了一种基于分层贝叶斯网络和增量学习的洪水预报方法，根据提取的水文过程知识，建立统一的变量空间，将任意维度水文资料数据映射统一的变量空间中，可以大大提高了模型的通用性。

本发明为解决其技术问题采用如下技术方案：

一种基于分层贝叶斯网络和增量学习的洪水预报方法，包括以下步骤：

步骤1：对历史水文数据进行数据预处理；

步骤2：基于水文知识挖掘构建分层贝叶斯网络洪水预报模型；

步骤3：基于样本选择和样本扩充进行增量学习，反复进行迭代学习；

步骤4，使用模型进行预测，对结果进行纠偏；

步骤5：通过评估标准对模型进行分析，完成洪水预报任务。

所述步骤2包括：

步骤21，构建分层贝叶斯网络的结构，基于分层贝叶斯网络洪水预报模型分为子流域产流贝叶斯网络BN_runoff和全流域汇流贝叶斯网络BN_flow两部分

在子流域产流贝叶斯网络BN_runoff中，能直接测量获得包括子流域的降雨F^t、土壤张力水含量SW^t、蒸发量E^t变量，BN_runoff通过子流域降雨、土壤张力水含量、蒸发量直接测量值和产流、地表径流、地下径流、壤中流中间变量，最终预测该子流域的综合出流量：子流域地表总出流TRS^t+1、子流域壤中流总出流TRSS^t+1和子流域地下径流总出流TRG^t+1；

贝叶斯网络中的节点，利用公式来表示：

其中Y表示预测值，D表示与预测值Y相关的一系列属性值X_i，P(D)表示属性值的先验概率分布，是从历史洪水信息中求得，P(Y，D)是X_i和Y的联合分布；由于X_i是由洪水信息中获得的，P(Y|D)为条件概率；

P(D)的分布与Y无关，公式变换为：

P(Y|D)∝P(Y，D)

联合概率P(Y，D)改写成：

其中，Parents(X_i)表示变量Y的直接相关属性的联合概率分布，联合分布P(Y，D)＝P(Y)P(D|Y)，其中P(D|Y)是似然函数，P(Y)是Y的先验概率分布，

通过BN_runoff得到的子流域单位面积各成分出流的均值，通过运算获得全流域总出流成分TR^t+1，其计算公式为：

其中表示t+1时刻子流域i贡献的总出流；

径流量节点数据分布范围[0，2000]，综合数据分布、预报精度、离散后维度数量多种因素，采用步长为10，将区间划分成200个等宽区间，选取区间中值作为区间最终值；

步骤22，对构建的基于分层贝叶斯网络洪水预报模型进行训练。

所述步骤22的具体过程如下：

假设网络中节点k，m₁，m₂，…，m_l为节点k的父节点，则当m₁，m₂，…，m_l均取第j个值，节点k取第i个值时，网络节点的参数如下所示

其中，表示节点k取第i个值，r表示节点k的取值范围，m₁，m₂，…，m_l均取第j个值时出现的次数，表示m₁，m₂，…，m_l均取第j个值时出现的总次数；因此，节点k的所有参数表示为

其中，M_j表示节点m_j取的总范围数。

所述步骤3的具体过程如下：

步骤31，构建增量学习模型，设贝叶斯网络中，包含X₁，X₂，…，X_n共n个变量，其中：X₁为第1个变量，X₂为第2个变量，X_n为第n个变量，D₀表示初始数据集，D₊表示增量数据集，D＝D₀ ∪ D₊表示总数据集，则N₀＝|D₀|表示初始的数据量，N₊＝|D₊|表示增量的数据量，N＝N₊+N₀表示总数据集的数据量；设变量X_i的取值有其中：为变量X_i的第1个取值，为变量X_i的第2个取值，为变量X_i的第r个取值，具有G结构的贝叶斯网络的参数表示为：

其中：θ_ijk为表示具有G结构的贝叶斯网络的参数，为变量取值，为父节点集，θ_i为网络参数，G代表网络结构；表示节点X_i的父节点集，其中，q_i为π_i的父节点的数量，r_j为x_j的取值数量，x_m为为第m个变量，

则当加入增量数据时，

其中，其中：θ′_ij(D₀，G)和θ′_ijk(D₀，G)为网络参数，N_ij(D₊，G)为总数据集的数据量，N_ijk(D₊，G)为变量的的取值取第k个时的数据量，r_i为变量的取值的数量；

网络参数θ有以下关系：

其中：θ_ij为网络参数，q_i为父节点集数量，n为变量的数量；

步骤32，基于样本选择和知识扩充进行增量学习，具体如下：

(1)首先对样本a进行预测分类，通过比较误差对样本进行选择：

|lab-c|＜λ

其中lab为模型根据现有样本对a进行的预测分类，c为样本a的实际分类，当样本的实际分类与预测分类的误差小于λ，将a加入到优先学习样本；

|lab-c|＞ε

当样本的实际分类与预测分类的误差大于ε，将a加入到噪声样本；

λ＜|lab-c|＜ε

其中：λ为误差下限，ε为误差上限；

当误差处于λ和ε之间时，将a加入到待学习样本；

一般地，表示流域历史平均流量；

通过上述操作，对增量样本S进行一次样本选择，获得新样本集，新样本包含S₀，S₁，S₂，其中S₀为优先学习样本，S₁为待学习样本，S₂为噪声样本；

(2)对优先学习样本进行一次样本扩展，生成距离平均距离小于一个标准

差之内的数据[-1，1]的随机数据点集S，取S中的任意点x_i，通过标准正太分

布求得函数值y_i＝f(x_i)

其中：y_i为通过标准正态分布求得的函数值，x_i为任意样本，f(x)表示标准正态分布，x为任意点，最大值计算l_i＝y_i/y_max，其中l_i作为近邻矩阵的一维；

(3)将扩充后的结果与S₀做一次差集运算，获得扩充后的样本S′₀；

(4)重复步骤(1)，对S′₀进行一次样本选择获得新样本，样本集包含S″₀、S″₁、S″₂，S″₀表示本次选择后的优先学习样本，S″₁表示本次选择后的待学习样本，S″₂表示本次选择后的噪声样本；将S₀、S″₀和S″₁加入S′，S′即得到最终的优先学习样本。

所述步骤4的具体过程如下：

步骤41，选取实验数据，将测试集洪水数据输入模型，预测未来6个小时流量情况，具体做法是预先给出一组证据，作为模型的输入，模型根据推理，输出概率最大的值，即

式中，X₁，X₂，…，X_n作为模型输入，Y作为模型输出，X₁＝x₁，X₂＝x₂，...，X_n＝x_n是预先给出的一组证据，p(Y)为先验概率；

步骤42，对模型输出的流量数据进行纠偏，采用基于预测可信判分矩阵的修正方法对模型进行补充。

所述步骤42中基于预测可信判分矩阵的修正方法的步骤如下：

假设模型在时刻T-6、T-5、T-4、T-3、T-2时均对时刻T的流量值做出预测，取值得“信任”的值来对T-1时刻对T的预测值进行修正，具体的修正步骤如下：

1)预测可信度α(X，m)

假设时刻X为观测时刻，时刻Y表示预测时刻，时刻[X-h，X-1]表示历史预测时间，期间均对时刻Y的径流量进行预报，记为P(X-b，Y)，…，P(X-1，Y)，P(X-h，Y)，…，P(X-1，Y)是时刻Y的不同的历史预测值，P(X-m，Y)的信任度的计算公式如下所示

其中，α(X，m)表示在时刻X时，历史预测步长为m时，模型对时刻Y预测结果的可信度，m＝1，2，…h，h表示获得的最长历史预测步长，P(X-m，i)为时刻i的历史预测值，R(i)为时刻i的真实值；

2)调节因子β(X，m)

3)时间权重因子τ(X，m，Y)

在修正P(X，Y)时候，使用P(X-h，Y)…P(X-1，Y)的预测值，记ρ(P(t，Y))为在修正P(X，Y)时，P(t，Y)的贡献值，则存在以下关系：

ρ(P(t₁，Y))＞ρ(P(t₂，Y))如果t₁＜t₂

ρ(P(t₁，Y))表示在修正P(X，Y)时，P(t₁，Y)的贡献值，ρ(P(t₂，Y))表示在修正P(X，Y)时，P(t₂，Y)的贡献值，

引入时间权重因子τ(X，Y)，τ(X，Y)表示在X时刻模型的Y时刻预测值的时间权重因子，其计算方式如下所示

τ(X，m，Y)＝1-γ^*(Y-(X-m)+1)

其中，τ(X，m，Y)为时间权重因子，γ为时间因子；

4)修正结果

将预测可信度、调节因子、时间权重因子作为历史预测值的权重，计算加权平均作为最终的结果，其计算公式如下

其中：P(X，Y)为需要修正的预测值，P(X-m，Y)为时刻Y的历史预测值，β₀表示初始权重；PX(X，Y，h)表示在X时刻，对Y时刻预测修正值；h表示获得的最长历史预测步长。

本发明的有益效果如下：

(1)应对不同流域或者同一流域不同时期预报水文资料维度不同，建立统一的变量空间：本发明先提出了水文过程知识提取方法，根据提取的水文过程知识，建立统一的变量空间。将任意维度水文资料数据映射统一的变量空间中，可以大大提高了模型的通用性。

(2)综合数据驱动模型和概念性水文模型的优缺点，建立了更为适合中小河流洪水预报的模型：模型综合两种模型的特点，挖掘水文过程知识以此建立通用水文网络拓扑，并建立贝叶斯网络，然后通过对历史资料进行数理统计，对贝叶斯网络的节点进行训练。通过对比实验发现，模型满足中小河流洪水预报的要求，并且在洪峰表现上具有较大优势，而在洪水过程模拟上效果不如其他传统数据驱动模型。在此过程中，还提出了一种基于前期雨量信息的土壤含水量估算方法。

(3)适应中小河流洪水特点的增量学习方法：探讨了中小河流洪水的特点、现有模型增量学习过程中存在的问题以及模型在增量学习过程中具有的天然优势；重点分析了增量学习过程中样本选择的重要性，提出适合中小河流洪水的样本选择算法；结合中小河流洪水的情况以及贝叶斯网络的特点指出需要对样本进行知识扩展，提出了一种基于近邻矩阵的知识扩展，通过提高样本数据的丰富程度来对模型进行优化；在样本选择算法和样本知识扩展算法的基础上，提出增量方法，该方法能在一定程度上过滤噪音，具有较强的学习能力，并能以此优化模型性能。

附图说明

图1是技术路线图。

图2是子流域产流网络示意图。

图3是全流域产流网络示意图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

如图1所示，本发明提及的中小河流流域洪水预报方法是按如图的技术流图逐步进行。首先对历史水文数据进行预处理，通过概念水文模型得到中间变量，然后对水文过程进行知识挖掘，确定统一物理变量空间，构建分层贝叶斯网络，将预处理后的历史水文数据以及求得的中间变量按顺序输入训练模型，各节点计算条件概率表，接着输入测试数据进行模拟预测，按照一定的标准对模型进行评判分析，对训练数据进行样本扩充，使用扩充后的样本重新训练、测试、分析模型，反复迭代，率定参数，最终得到最佳参数和最佳分层贝叶斯模型。

如图2所示，在子流域产流贝叶斯网络中，能直接测量获得包括子流域的降雨、土壤张力水含量、蒸发量等变量，通过子流域降雨、土壤张力水含量、蒸发量等直接测量值和产流、地表径流、地下径流、壤中流等中间变量，最终预测该子流域的综合出流量。

如图3所示，在全流域产流贝叶斯网络中，通过各个子流域的综合出流量得到未来t+1到t+h的全流域径流量。

Claims

1.一种基于分层贝叶斯网络和增量学习的洪水预报方法，其特征在于：包括以下步骤：

步骤1：对历史水文数据进行数据预处理；

步骤4，使用模型进行预测，对结果进行纠偏；

步骤5：通过评估标准对模型进行分析，完成洪水预报任务。

2.根据权利要求1所述的一种基于分层贝叶斯网络和增量学习的洪水预报方法，其特征在于：所述步骤2包括：

贝叶斯网络中的节点，利用公式来表示：

P(D)的分布与Y无关，公式变换为:

P(Y|D)∝P(Y，D)

联合概率P(Y，D)改写成：

其中表示t+1时刻子流域i贡献的总出流；

径流量节点数据分布范围[0,2000]，综合数据分布、预报精度、离散后维度数量多种因素，采用步长为10，将区间划分成200个等宽区间，选取区间中值作为区间最终值；

3.根据权利要求2所述的一种基于分层贝叶斯网络和增量学习的洪水预报方法，其特征在于：所述步骤22的具体过程如下：

其中，M_j表示节点m_j取的总范围数。

4.根据权利要求1所述的一种基于分层贝叶斯网络和增量学习的洪水预报方法，其特征在于：所述步骤3的具体过程如下：

步骤31，构建增量学习模型，设贝叶斯网络中，包含X₁，X₂，…，X_n共n个变量，其中：X₁为第1个变量，X₂为第2个变量，X_n为第n个变量，D₀表示初始数据集,D₊表示增量数据集,D＝D₀∪D₊表示总数据集，则N₀＝|D₀|表示初始的数据量,N₊＝|D₊|表示增量的数据量,N＝N₊+N₀表示总数据集的数据量；设变量X_i的取值有其中：为变量X_i的第1个取值，为变量X_i的第2个取值，为变量X_i的第r个取值，具有G结构的贝叶斯网络的参数表示为：

其中：θ_ijk为表示具有G结构的贝叶斯网络的参数，为变量取值，为父节点集，θ_i为网络参数，G代表网络结构；表示节点X_i的父节点集，其中,q_i为π_i的父节点的数量，r_j为x_j的取值数量，x_m为为第m个变量，

则当加入增量数据时，

其中，其中：θ‘_ij(D₀，G)和θ‘_ijk(D₀，G)为网络参数，N_ij(D₊，G)为总数据集的数据量，N_ijk(D₊，G)为变量的的取值取第k个时的数据量，r_i为变量的取值的数量；

网络参数θ有以下关系：

|lab-c|＜λ

|lab-c|＞ε

λ＜|lab-c|＜ε

其中：λ为误差下限，ε为误差上限；

当误差处于λ和ε之间时，将a加入到待学习样本；

一般地，表示流域历史平均流量；

(2)对优先学习样本进行一次样本扩展，生成距离平均距离小于一个标准差之内的数据[-1,1]的随机数据点集S，取S中的任意点x_i，通过标准正太分布求得函数值y_i＝f(x_i)

(4)重复步骤(1)，对S′₀进行一次样本选择获得新样本，样本集包含S”₀、S”₁、S”₂，S”₀表示本次选择后的优先学习样本，S”₁表示本次选择后的待学习样本，S”₂表示本次选择后的噪声样本；将S₀、S″₀和S″₁加入S′,S′即得到最终的优先学习样本。

5.根据权利要求1所述的一种基于分层贝叶斯网络和增量学习的洪水预报方法，其特征在于：所述步骤4的具体过程如下：

式中，X₁，X₂，…，X_n作为模型输入，Y作为模型输出，X₁＝x₁,X₂＝x₂,…,X_n＝x_n是预先给出的一组证据，p(Y)为先验概率；

6.根据权利要求5所述的一种基于分层贝叶斯网络和增量学习的洪水预报方法，其特征在于：所述步骤42中基于预测可信判分矩阵的修正方法的步骤如下：

1)预测可信度α(X，m)

假设时刻X为观测时刻，时刻Y表示预测时刻，时刻[X-h，X-1]表示历史预测时间，期间均对时刻Y的径流量进行预报，记为P(X-h，Y)，…，P(X-1，Y)，P(X-h，Y)，…，P(X-1，Y)是时刻Y的不同的历史预测值，P(X-m，Y)的信任度的计算公式如下所示

其中，α(X，m)表示在时刻X时，历史预测步长为m时，模型对时刻Y预测结果的可信度，m＝1，2，…h，h表示获得的最长历史预测步长，P(X-m,i)为时刻i的历史预测值，R(i)为时刻i的真实值；

2)调节因子β(X，m)

3)时间权重因子τ(X，m，Y)

ρ(P(t₁，Y))＞ρ(P(t₂，Y))如果t₁＜t₂

ρ(P(t₁,Y))表示在修正P(X，Y)时，P(t₁,Y)的贡献值，ρ(P(t₂,Y))表示在修正P(X，Y)时，P(t₂,Y)的贡献值，

τ(X,m,Y)＝1-γ*(Y-(X-m)+1)

其中，τ(X,m,Y)为时间权重因子，γ为时间因子；

4)修正结果

其中：P(X,Y)为需要修正的预测值，P(X-m,Y)为时刻Y的历史预测值，β₀表示初始权重；PX(X，Y，h)表示在X时刻，对Y时刻预测修正值；h表示获得的最长历史预测步长。