CN106909616B

CN106909616B - 基于信息熵的多目标水文站网优化方法

Info

Publication number: CN106909616B
Application number: CN201710024434.9A
Authority: CN
Inventors: 王栋; 李禾澍; 王远坤; 吴吉春
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2019-02-19
Anticipated expiration: 2037-01-13
Also published as: CN106909616A

Abstract

本发明公开一种基于信息熵的多目标水文站网优化方法，基于信息熵原理，以站点间互信息最小为原则对站点进行排序，形成站点组合多种方案；构建由联合熵百分比、平均互信息和Nash‑Sutcliffe效率系数(NSC)组成的评价函数对站点组合进行信息承载量评价；运用多目标优化求解方法求得最优解。本发明将信息熵理论与多目标优化相结合，既可实现对站网信息的定量分析，又能综合多个指标进行评价和优化，具有合理性和有效性。

Description

基于信息熵的多目标水文站网优化方法

技术领域

本发明涉及水文站网技术，具体涉及一种基于信息熵的多目标水文站网优化方法。

背景技术

规划合理的水文站网能够充分反映水文时空变异特征，更好地揭示水文规律。对水文站网进行优化，即在满足资料精度要求基础上，探索最优站网布局，使之能收集准确详尽的水文信息。这对于提高站网效率、节约站网建设成本具有重要意义。随着理论和技术的发展，水文站网规划中应用的方法日趋多样，目前在水文站网中应用较多的方法包括数理统计方法、克里格插值法、信息熵方法以及地理信息技术方法等。

1、数理统计方法，该方法应用最早，但要求研究者对水资源系统结构有充足的认识；同时，受到数理统计的原理的限制，统计分析技术的选择和样本数量都将对数据分析的结论产生较大影响；并且该方法只能通过估计精度与样本数量之间的关系来确定站点的数量，达不到对站点的空间布局优化的目的。

2、克里格插值法，需要在图上对水文变量估算误差的改进作出主观评价，若估计误差的标准差大于给定的标准差的范围，则空间中需要增设站点，反之就应该减少站点，实际应用中该方法主观性比较大精度不够高。

3、信息熵方法，在以往基于信息熵进行水文站网优化研究中，常以信息传递量为依据，选择某一指标进行站网评价优化，而单一信息熵指标往往不能全面反映站点组合所包含的信息总量、信息冗余程度等决定站网效用的重要因素。多目标优化由于方法复杂，运算量大，多项指标的有效整合存在难度，故在以往的水文站网优化中应用较少。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于信息熵的多目标水文站网优化方法。

技术方案：本发明一种基于信息熵的多目标水文站网优化方法，依次包括如下步骤：

(1)站点序列构建：根据站点重要性，对水文站网中的n个站点进行排序，得到站点序列x₁,x₂,…,x_n，依次选取前m个站点构成站点组合，共n个组合方案，表示为θ_m(m＝1,2,…,n)，其中站点排序可采用MIMR(即最大联合熵、最小互信息)方法或其他排序方式；

(2)信息承载量评价：构建包含联合熵百分比F₁(θ)、平均互信息F₂(θ)及Nash-Sutcliffe效率系数F₃(θ)在的评价函数F(θ)，从站点组合的信息总量k、信息重叠量EI及数据波动NSC三个方面对站点组合进行信息承载量评价，

其中，x_i和x_j是任意一对站点，i,j＝1,2,…,m，θ∈Θ，t为时段序号，N为时段总数，x_t为已选的m个站点在t时段的流量均值，p_t为全部n个站点在t时段的流量均值，为全部n个站点在整个时段N的流量均值，H(x_i)为站点x_i的边缘熵值，H(x₁,x₂,…,x_m)为站点x₁,x₂,…,x_m的联合熵值，I(x_i,x_j)为站点x_i与x_j的互信息；

(3)多目标决策：求在多目标评价函数F(θ)下站点组合的帕累托解集Θ_p，利用多目标优化的理想点法求最优解作为优化方案；

构建一般解与理想解之间的离差函数，然后以平方和离差作为评价函数，其中F_i*表示理想点，使G(θ)取得最小值的解为最优解，由此确定最佳站点组合。

有益效果：本发明以站点间互信息最小为依据进行站点排序，构成不同的站点组合，构建包含联合熵百分比、平均互信息以及Nash-Sutcliffe效率系数(NSC)在内的评价函数，从站点组合的信息总量、信息重叠量及数据波动三个方面进行信息承载量评价，并利用多目标优化的理想点法求最优解作为优化方案。与现有技术下相比本发明具有以下优点：

(1)实现了对站网信息的定量分析。一方面，在站点序列构建过程中，以最大边缘熵和最小互信息为依据对m个站点进行排序；另一方面，利用评价函数F(θ)对站点组合的信息总量、信息重叠量进行了评估，作为信息承载量评价的指标。

(2)整合多个目标。该模型综合考虑了站网的信息总量、信息重叠量以及数据波动的影响，并可结合多目标优化求得最佳站点组合作为优化方案。

综上所述，本发明将信息熵理论与多目标优化相结合，既可实现对站网信息的定量分析，又能综合多个指标进行评价和优化，具有合理性和有效性。

附图说明

图1为本发明的流程图；

图2为实施例1中河流以及站点示意图；

图3为实施例1中伊洛河流域水文站网模型计算结果示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

为便于理解本发明，做以下说明：

熵在统计学中是随机变量不确定性的度量。设X是一个离散型随机变量，其字母表取值空间为U，概率密度函数p(x)＝Pr(X＝x)，x∈U。一个离散型随机变量X的熵H(X)定义为

熵是随机变量X的分布的反函数，不依赖于X的实际取值，仅依赖于其概率分布^[15]。

推广到两个随机变量的情形。对于服从联合分布为p(x,y)的一对离散随机变量(X,Y)，其联合熵H(X,Y)定义为：

类似于条件概率，定义一个随机变量在给定另一随机变量下的条件熵：

若(X,Y)～p(x,y)，条件熵H(Y|X)定义为

可以证明：

H(X,Y)＝H(X)+H(Y|X)

考虑两个随机变量X和Y，它们的联合概率密度函数为p(x,y)，其边际概率密度函数分别是p(x)和p(y)。互信息I(X；Y)定义为：

并且：

I(X；Y)＝H(X)+H(Y)-H(X,Y)

I(X；Y)＝H(X)-H(X|Y)。

如图1所示，本发明的一种基于信息熵的多目标水文站网优化模型，具体包括以下步骤：

1.站点序列构建方法：站点序列构建：根据站点重要性，对水文站网中的n个站点进行排序，得到站点序列x₁,x₂,…,x_n，依次选取前m个站点构成站点组合，共n个组合方案，表示为θ_m(m＝1,2,…,n)，其中站点排序可采用MIMR(最大联合熵、最小互信息)方法或其他排序方式。MIMR方法的步骤如下：

将每个站点的观测数据作为随机变量的观测值X_i(i＝1,2,…,n)，计算各随机变量的熵值H(X_i)。

第1步，选择第一个站点：取得MaxH(X_i)的站点选作第一个站点x₁，该站点具有最大的边缘熵值；

第2步，选择第二个站点：对剩余的(n-1)个变量，取得Min I(x₁；X_i)(i＝1,2,…,n-1)的站点与第一个站点的互信息最小，即信息重叠量最小，将其选作第二个站点x₂；

第3步，依次选择其余站点：当第(m-1)个站点确定后，对剩余的(n–m+1)个变量，计算MinI(x₁,x₂,…,x_m-1；X_i)(i＝1,2,…,n-m+1)，取得该最小值的站点与前(m-1)个站点的互信息最小，选作第m个站点，以此类推，选择其余站点。

依上述步骤，得到一个站点序列x₁,x₂,…,x_n；序列中越靠前端的站点所含信息量越大，与排在其前的站点的信息重叠量越少，在站网优化中应优先保留。同时，每次确定第m个站点后，该站点即与已选定的全部站点构成一个包含m个站点的组合，设该站点组合为θ_m，所有可能的站点组合构成θ的取值空间Θ。

2.信息承载量评价

用联合熵百分比k,平均互信息EI和Nash-Sutcliffe效率系数(NSC)对不同站点组合的信息总量、信息重叠量、数据波动进行定量分析，构建评价函数：

其中，x_i和x_j是一对站点，θ∈Θ，t为时段序号，N为时段总数，x_t为已选的m个站点在t时段的流量均值，p_t为全部n个站点在t时段的流量均值，为全部n个站点在整个时段N的流量均值。

F₁(θ)表示所选m个变量的联合熵占全部n个变量的联合熵的百分比，即所选m个站点所含信息量占全部n个站点信息量的比重，反映该站点组合的信息总量大小。易知0≤k≤1，k过小则选出的站点组合不能充分反映全部站点的水文信息；若过大则表示已包含足够充分的信息，且可能存在冗余信息。

F₂(θ)为站点两两之间互信息的均值，表示站点之间的信息重叠量，或信息冗余程度，其值越大则冗余程度越大。

F₃(θ)为Nash-Sutcliffe效率系数(NSC)，是对站网的观测数据的波动，即在时域上对数据残差大小的衡量。NSC值越大，表示残差越小，对应的站点组合越合理。

F(θ)的三个子目标函数k,EI和NSC分别反映站点组合的信息总量、信息冗余程度以及数据的波动程度，这使得评价函数F(θ)能够从单一的样本数据中提取多样的信息，具有高k值、低EI值及高NSC值的站点组合将是合理有效的优化方案。

3.多目标决策

站网的最优化问题即求解集空间Θ内在k,EI和NSC三个子目标函数之间达到最佳平衡的解θ*的问题。在理想条件下，可以找到一个唯一最优解，其三个目标函数值均是对应的最优值，即存在唯一最优解，其三个子目标函数值均为相应的最优值。若唯一最优解不存在，则可应用帕累托解集Θ_p中的解作为最优解。

本发明采用多目标优化的理想点法求该最优解，构建一般解与理想解之间的离差函数，以平方和离差作为评价函数，其中F_i*表示理想点。使G(θ)取得最小值的解为最优解。由此确定最佳站点组合。

其它方法如主要目标法、线性组合法、功效系数法等亦可作为求解方法。实施例1：本实施以伊洛河流域水文站网优化作为实际应用

以伊洛河流域23个水文站组成的站网为例，以2003-2013年的月均流量序列为样本，用基于信息熵的多目标水文站网优化模型对该站网进行评价和优化。

(1)流域概况

伊洛河为黄河南岸支流。伊河全长264.88km，流域面积6029km²，沿程有栾川、潭头、东湾、陆浑等水文站；洛河全长447km，流域面积18881km²，沿程设有灵口、长水、黑石关等水文站。(见图1、表1)

表1伊洛河水系水文站一览表

(2)模型运行

首先对伊洛河流域水文站网内的23个站点进行编号(1～23)，利用信息熵方法对所有站点进行排序，得到站点组合θ₁,θ₂,…,θ₂₃,构成解集空间Θ。对每一站点组合θ_m，求F(θ_m)的三个子目标函数k、EI及NSC的值，计算结果见表2。

表2伊洛河流域水文站网模型计算结果

(3)站网评价

根据不同站点组合的三个子目标函数值k、EI和NSC进行站网评价。为便于分析，将k、EI、及NSC的值绘制成折线图，如图2所示，分析图2可得：

(31)k值随站点数目m的增加呈上升趋势，当m＝n时，k＝1。由伊洛河计算结果来看，在站点依次优选过程中，当加入7号站点时，m＝17，k＝0.983，表示此时站点组合的信息总量已大于原站网的98％。

(32)EI值随站点数目m的增加先上升，后趋于稳定。表明信息冗余程度先增大，后趋于稳定。

(33)NSC值大部分在0.8～1范围内波动。在m＝12时开始出现明显的下降趋势，m＝14时下降至最小值，随后逐渐上升至1。(据分析，NSC在m＝12时下降，与此时新加入组合的第23号站点有关。第23号水文站位于伊河、洛河汇流处，流量较其它水文站明显增大，导致数据整体波动较大，随着站点数目增多，第23号水文站的波动效应逐渐减小，NSC值恢复至较高。)

以上分析表明，伊洛河水系现有由23个站点组成的站网存在信息冗余，故可在保证信息量充足的条件下削减站点数目，使站网更加高效。

(4)站网优化

由站点排序结果得到23个站点组合，构成优化问题的解的取值空间Θ。分析知Θ内不存在唯一最优解，故求得Θ内的帕累托解集Θ_p，该解集包含3个解，分别对应于m＝21,22,23时的站点组合。Θ_p内的站点组合见表3。

表3多目标条件F(θ)下站点组合的帕累托解集

站点数目	站点组合
		21	4,2,9,17,12,15,6,20,11,8,13,23,5,22,18,1,7,10,21,19,14
22	4,2,9,17,12,15,6,20,11,8,13,23,5,22,18,1,7,10,21,19,14,3
		23	4,2,9,17,12,15,6,20,11,8,13,23,5,22,18,1,7,10,21,19,14,3,16

采用多目标优化的理想点法，在3个帕累托解中选取一个最优解。以平方和离差G(θ)作为评价函数，取得minG(θ)的解即最优解θ*。理想点法的计算结果见表4。

表4站点组合的帕累托解的目标函数值

站点数目	k	EI	NSC	G(x)
					21	1.00	0.447	0.993	0.156
22	1.00	0.460	0.998	0.168
					23	1.00	0.467	1.00	0.176

根据表4，在3个帕累托解中，m＝21的站点组合取得minG(θ)＝0.156，故将该方案作为伊洛河站网体系的最优化方案。最优化方案所包含站点为第4,2,9,17,12,15,6,20,11,8,13,23,5,22,18,1,7,10,21,19及14号站点，其k值和EI值分别为1.00和0.447，而原站网的k值和EI值分别为1.00和0.467，表明该最优化方案的站点组合可提供足量信息且信息冗余程度降低。

综上所述，本发明采用的是多目标决策方法，整合了水文站网的信息总量、信息重叠量、数据波动三项指标，运用帕累托优化、理想点法来进行多目标决策。

Claims

1.一种基于信息熵的多目标水文站网优化方法，其特征在于：依次包括如下步骤：

(1)站点序列构建：根据站点重要性，对水文站网中的n个站点进行排序，得到站点序列x₁,x₂,…,x_n，依次选取n个站点中前m个站点构成站点组合，共n个组合方案，表示为θ_m，m＝1,2,…,n，其中，站点排序可采用MIMR方法或其他排序方式；

(2)信息承载量评价：构建包含联合熵百分比F₁(θ)、平均互信息F₂(θ)及Nash-Sutcliffe效率系数F₃(θ)在内的评价函数F(θ)，从站点组合的信息总量k、信息重叠量EI及数据波动NSC三个方面对站点组合进行信息承载量评价，F(θ)的三个子目标函数表达式如下：

其中，x_i和x_j是任意一对站点，i,j＝1,2,…,m，θ∈Θ，t为时段序号，N为时段总数，x_t为已选的m个站点在t时段的流量均值，p_t为全部n个站点在t时段的流量均值，为全部n个站点在整个时段的流量均值，H(x_i)为站点x_i的边缘熵值，H(x₁,x₂,…,x_m)为站点x₁,x₂,…,x_m的联合熵值，I(x_i,x_j)为站点x_i与x_j的互信息；

构建一般解与理想解之间的离差函数，然后以平方和离差

作为评价函数，

其中F_i*表示理想点，使G(θ)取得最小值的解为最优解，由此确定最佳站点组合。