CN115018137A

CN115018137A - 基于强化学习的水环境模型参数率定方法

Info

Publication number: CN115018137A
Application number: CN202210562717.XA
Authority: CN
Inventors: 赵鑫; 张敏; 彭东升; 陈誉; 阳秀春; 梁彬锐; 张毅; 杨洁; 樊仕宝; 黄文稻
Original assignee: Shenzhen Ghy Environment Water Conservancy Co ltd
Current assignee: Shenzhen Ghy Environment Water Conservancy Co ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-09-06
Anticipated expiration: 2042-05-23
Also published as: CN115018137B

Abstract

本发明涉及基于强化学习的水环境模型参数率定方法。包括：采集数据为输入，模型待率定参数为输出，构建对模型参数进行率定的神经网络；其权重由回报计算进行优化；神经网络输出参数后，结合机理模型预测的输出数据Y'＝{y'⁽¹⁾,y'⁽²⁾,...,y'⁽ⁿ⁾}，将Y'与在数据采集步骤得到的实测数据Y＝{y⁽¹⁾,y⁽²⁾,...,y⁽ⁿ⁾}做差，得数据z_i为随机变量；计算随机变量的风险价值VaR_α(X)，计算条件风险价值CVaR_α(X)；设定阈值为T＝0.1，构造条件风险价值约束CVaR_α(X)≤0.1；对预测精度指标，神经网络输出参数后，结合机理模型得预测输出数据Y'＝{y'⁽¹⁾,y'⁽²⁾,...,y'⁽ⁿ⁾}，将Y'与在数据采集步骤得到的实测数据Y＝{y⁽¹⁾,y⁽²⁾,...,y⁽ⁿ⁾}进行对比，计算两者间的最小二乘代价和方差代价将最小二乘代价和方差代价取反求和，并加上纳什效率系数及方差的相反数，即得总回报。

Description

基于强化学习的水环境模型参数率定方法

技术领域

本发明属于智慧水务技术领域，特别涉及一种基于强化学习的水环境模型参数率定方法。

背景技术

在智慧环境水务领域的工作中，为了实现对某水域内的精准污染治理以及配合流量调度实现防洪调峰，通常需要对一段流域中的各项数据进行采集，例如实时流量、溶解氧含量、各藻类的含量、有机碳氮磷的浓度等。随后根据这些数据对流域中的各类状况进行分析。然而，考虑到数据采样工作繁重的特点，常规的做法是首先采样一定量的数据，其次利用相关机理模型根据已有数据来预测其它地点、时间段或其它类型指标的数据。在这一过程中，对机理模型参数的准确、鲁棒的率定是必不可少且至关重要的步骤。

经专利检索，大部分水务模型参数率定专利内容集中在模型率定速度和模型率定准确度方向。例如:

CN112507554A公开了一种基于图计算的水文模型并行率定方法和系统,它的目的是提供一种基于图计算的水文模型并行率定方法和系统，能快速实现水文并行率定。该技术方案:基于图计算的水文模型并行率定方法，利用Pregel算法在Spark集群中实现模型率定并行模拟，具体包括步骤：步骤S41：向每个节点发送值为0的初始信息；步骤S42：每个节点将所有接收信息与本节点M3的值合并，即将所有信息值及M3的值累加在一起，然后将新值更新到本节点的M3中；步骤S43：判断当前节点M3值是否与M2值相同，若相同则执行步骤S44，若不相同则执行步骤S45；步骤S44：依据本节点M1的值，执行指定模拟和子流域的模拟，并向本节点的直接下游子流域节点发送值为1的信息；并进入步骤S46；步骤S45：向本节点直接下游子流域节点发送值为0的信息；并进入步骤S46；步骤S46：判断所有节点信息队列是否包含未处理信息，若有则返回步骤S42，若无则结束模型率定。其不足之处是：未考虑率定模型的鲁棒性，在大规模使用该算法时，存在预测精度波动较大的问题。

CN103914586A公开了一种基于GLUE多目标水质模型率定的水质模拟方法,它的目的是提供一种种对多项输出指标同时率定来确定最优参数组合，进而实现水质模拟的方法，即通过综合考虑多项模拟指标，来进一步筛选满足条件的参数组合。该方法可以较好地避免因单个输出指标模拟而引起的参数偏差，能够更准确、有效地模拟水质指标。该技术方案：基于GLUE多目标水质模型率定的水质模拟方法，其步骤包括：1)根据全局敏感性分析方法对水质模型进行参数的敏感性分析，并根据得到的敏感性指数筛选出多目标敏感参数；2)通过筛选出的多目标敏感参数的先验样本分布情况生成水质的随机参数组；3)对所述随机参数组中的水质指标进行模拟，并通过似然函数进行筛选，通过迭代得到各项水质指标的敏感参数交集，最终使参数收敛至更小区间内，实现对水质的高精度模拟。采用全局敏感性分析和似然函数得到了最优模型参数组合，实现了模型参数的率定。其不足之处是:上述专利并未考虑条件风险价值，均未涉及对环境水务分析工作起到至关重要作用的率定稳定性、鲁棒性与可靠性。

发明内容

本发明的目的是提供一种以实现智慧环境水务中高准确度、高鲁棒性的机理模型参数率定方法，本方法利用所采集的各种水务数据，在损失函数(代价函数)层面考虑率定方差损失，同时引入模型率定的条件风险价值约束，实现对模型参数的高准确度、高鲁棒性的率定。本发明的另一目的是提供一种将最小二乘代价和方差代价取反求和，并且加上纳什效率系数及其方差的相反数，即得总回报,该回报信息便于后续利用强化学习方法通过优化神经网络来最大化此回报，从而实现同时最小化最小二乘代价和方差代价的目的。本发明的再一目的是提供一种令模型预测误差的条件风险价值必须小于某一阈值；依据这一设定，可进一步增强率定模型的鲁棒性；该步骤可看为优化过程中的约束项，用于约束后续模型学习步骤对神经网络训练的条件风险价值约束机制。

本发明的技术解决方案是所述基于强化学习的水环境模型参数率定方法，其特殊之处在于，包括以下步骤：

⑵模型参数预测：以采集的各类数据为输入，以模型待率定的参数为输出，构建一个神经网络；用于对模型的参数进行率定，所述神经网络中的权重由下述步骤⑷进行优化；

⑶条件风险价值约束构建：在神经网络输出参数之后，再次结合对应的机理模型得到所预测的输出数据Y'＝{y'⁽¹⁾,y'⁽²⁾,…,y'⁽ⁿ⁾}，将Y'与在数据采集步骤得到的实测数据Y＝{y⁽¹⁾,y⁽²⁾,…,y⁽ⁿ⁾}进行做差，所得到的数据z_i看作随机变量；随后计算随机变量的风险价值VaR_α(X)，再计算条件风险价值CVaR_α(X)；最后设定阈值为Y＝0.1，从而构造条件风险价值约束CVaR_α(X)≤0.1；

⑷回报计算：对于预测精度指标，在神经网络输出参数之后，再次结合对应的机理模型得到所预测的输出数据Y'＝{y'⁽¹⁾,y'⁽²⁾,…,y'⁽ⁿ⁾}，将Y'与在数据采集步骤得到的实测数据Y＝{y⁽¹⁾,y⁽²⁾,…,y⁽ⁿ⁾}进行对比，计算两者间的最小二乘代价和方差代价；前者用于衡量参数率定模型的准确度，后者用于衡量参数预测模型的稳定性；对于纳什效率系数指标，根据多条模拟轨迹，分别计算其纳什效率系数以及该系数的方差；将最小二乘代价和方差代价取反求和，并且加上纳什效率系数及其方差的相反数，即可得到总回报。

作为优选：所述步骤⑵进一步包括：

(2.1)通过n组率定模型预测输出数据y’^⑴＝[y₁’^⑴,y₂’^⑴，…，y_L’^⑴]^T；y’^⑵＝[y₁’^⑵,y₂’^⑵，…，y_L’^⑵]^T……y’⁽ⁿ⁾＝[y₁’⁽ⁿ⁾,y₂’⁽ⁿ⁾，…，y_L’⁽ⁿ⁾]^T和n组实测输出数据y’^⑴＝[y₁’^⑴,y₂’^⑴，…，y_L’^⑴]^T；y’^⑵＝[y₁’^⑵,y₂’^⑵，…，y_L’^⑵]^T……y’⁽ⁿ⁾＝[y₁’⁽ⁿ⁾,y₂’⁽ⁿ⁾，…，y_L’⁽ⁿ⁾]^T，构造随机变量模块z⁽ⁱ⁾＝y⁽ⁱ⁾-y⁽ⁱ⁾；

(2.2)计算风险价值：VaR_α(X)＝min{z|F_X(z)≥α}；其中α∈(0,1)，通常可取0.95，F_X(z)为该分布的累计分布函数；根据定义可知，随机变量X的取值超过VaR_0.95(X)的概率为0.05，小于等于VaR_0.95(X)的概率为0.95；

(2.3)计算条件风险价值：

其中，

的定义为，

可以看为截断后的累计分布函数，f_X(z)为对应的概率密度函数；条件风险价值本质上是计算高风险区域的期望，即大误差范围区域的期望；

(2.4)构造约束：CVaR_α(X)≤T。

作为优选：所述步骤⑶进一步包括：

(3.1)通过n组率定模型预测输出数据y’^⑴＝[y₁’^⑴,y₂’^⑴，…，y_L’^⑴]^T；y’^⑵＝[y₁’^⑵,y₂’^⑵，…，y_L’^⑵]^T……y’⁽ⁿ⁾＝[y₁’⁽ⁿ⁾,y₂’⁽ⁿ⁾，…，y_L’⁽ⁿ⁾]^T和n组实测输出数据y’^⑴＝[y₁’^⑴,y₂’^⑴，…，y_L’^⑴]^T；y’^⑵＝[y₁’^⑵,y₂’^⑵，…，y_L’^⑵]^T……y’⁽ⁿ⁾＝[y₁’⁽ⁿ⁾,y₂’⁽ⁿ⁾，…，y_L’⁽ⁿ⁾]^T

最小二乘代价由公式(4)计算，

其中，Y表示实测输出数据，Y'表示所预测的输出数据，下标i表示i组数据，||·||表示向量范数；

(3.2)方差代价由公式(5)计算，

其中，N表示这一批数据中的样本个数；VAR(Y,Y')表示预测误差的方差，方差越低说明预测更加稳定，鲁棒性更强；

(3.3)将最小二乘代价和方差代价取反求和，并且加上纳什效率系数及其方差的相反数，即可得到总回报。

作为优选：还包括步骤⑸模型学习：利用强化学习方法优化神经网络，其优化目标为最大化累计回报，即为最小化方差代价和最小二乘代价；在优化目标函数的同时需要使得模型率定网络能够满足条件风险价值约束，即该优化问题为一个带约束的优化问题，并针对最大化累计回报，并满足所设定的条件风险价值约束，为了更新神经网络中的权重，采用强化学习中的带约束的策略梯度方法对网络的权重进行优化。

作为优选：还包括所述步骤⑵之前的步骤⑴数据采集：针对藻类生物量循环过程模型，需要采集的数据包括，同一区域内不同时间段的藻类生物量浓度，水体，水流在xyz三个方向的速度，水质变量的源汇项如氨氮浓度、硝态氮浓度、溶解态磷酸盐浓度。

与现有技术相比，本发明的有益效果：

⑴本发明中，方差代价的引入降低了模型参数率定的方差，极大的提高模型预测的鲁棒性和稳定性。此外，条件风险价值的约束同样增强了最终所得的神经网络的鲁棒性。

⑵常见模型参数率定方法都只考虑预测精度或纳什效率系数，而本发明在此基础上为这两者增加了方差代价，旨在降低预测误差的方差及不同模拟轨迹中纳什效率系数的方差，提高了整体率定模型的稳定性和鲁棒性。

⑶本发明所述的系统考虑了参数率定方法的稳定性和鲁棒性，通过约束模型率定误差的条件价值风险来增强算法的鲁棒性，同时通过融合目标函数的方差代价来进一步增强算法的稳定性和鲁棒性。所提出的方法提高了针对环境水务领域中各类模型参数率定的鲁棒性，解决了一般水务领域中模型参数率定存在的预测不准确、不稳定的问题。

⑷本发明所述的条件风险价值约束构建步骤，令模型预测误差的条件风险价值必须小于某一阈值。依据这一设定，可进一步增强率定模型的鲁棒性。该步骤可看为优化过程中的约束项，用于约束后续模型学习步骤对神经网络的训练。

⑸本发明所述的方差代价的引入降低了模型参数率定的方差，极大的提高模型预测的鲁棒性和稳定性。此外，条件风险价值的约束同样增强了最终所得的神经网络的鲁棒性。

附图说明

图1是本发明风险价值与条件风险价值示意图；

图2是本发明实施例的方法概要图；

图3是本发明实施例的条件风险价值约束构建步骤流程图；

图4是本发明实施例的回报计算步骤流程图。

具体实施方式

本发明下面将结合附图作进一步详述：

请参阅图2所示，基于强化学习的水环境模型参数率定方法，包括步骤：

⑴数据采集步骤：针对藻类生物量循环过程模型，需要采集的数据包括，同一区域内不同时间段的藻类生物量浓度，水体，水流在xyz三个方向的速度，水质变量的源汇项如氨氮浓度、硝态氮浓度、溶解态磷酸盐浓度；

⑵模型参数预测步骤：以所采集的各类数据为输入，以模型待率定的参数为输出，构建一个神经网络。该神经网络也可称之为神经网络，用于对模型的参数进行率定。该神经网络中的权重由下述模型学习步骤进行优化；

⑶条件风险价值约束构建步骤：如图3所示，在神经网络输出参数之后，再次结合对应的机理模型得到所预测的输出数据Y'＝{y'⁽¹⁾,y'⁽²⁾,…,y'⁽ⁿ⁾}，将Y'与在数据采集步骤得到的实测数据Y＝{y⁽¹⁾,y⁽²⁾,…,y⁽ⁿ⁾}进行做差，所得到的数据z_i看作随机变量；随后计算随机变量的风险价值VaR_α(X)，再计算条件风险价值CVaR_α(X)；最后设定阈值为T＝0.1，从而构造条件风险价值约束CVaR_α(X)≤0.1；

⑷回报计算步骤：对于预测精度指标，在神经网络输出参数之后，再次结合对应的机理模型得到所预测的输出数据Y'＝{y'⁽¹⁾,y'⁽²⁾,…,y'⁽ⁿ⁾}，将Y'与在数据采集步骤得到的实测数据Y＝{y⁽¹⁾,y⁽²⁾,…,y⁽ⁿ⁾}进行对比，计算两者间的最小二乘代价和方差代价。前者用于衡量参数率定模型的准确度，后者用于衡量参数预测模型的稳定性。对于纳什效率系数指标，根据多条模拟轨迹，分别计算其纳什效率系数以及该系数的方差；

最后，将最小二乘代价和方差代价取反求和，并且加上纳什效率系数及其方差的相反数，即可得到总回报。该回报信息便于后续利用强化学习方法通过优化神经网络来最大化此回报，从而实现同时最小化最小二乘代价和方差代价的目的；

⑸模型学习步骤：针对最大化累计回报，并满足所设定的条件风险价值约束，为了更新神经网络中的权重，采用强化学习中的带约束的策略梯度方法对网络的权重进行优化。

以上所述仅为本发明的较佳实施例，凡依本发明权利要求范围所做的均等变化与修饰，皆应属本发明权利要求的涵盖范围。

Claims

1.一种基于强化学习的水环境模型参数率定方法，其特征在于，包括以下步骤：

(2)模型参数预测：以采集的各类数据为输入，以模型待率定的参数为输出，构建一个神经网络；用于对模型的参数进行率定，所述神经网络中的权重由下述步骤(4)进行优化；

(3)条件风险价值约束构建：在神经网络输出参数之后，再次结合对应的机理模型得到所预测的输出数据Y′＝{y′⁽¹⁾，y′⁽²⁾，...，y′⁽ⁿ⁾}，将Y′与在数据采集步骤得到的实测数据Y＝{y⁽¹⁾，y⁽²⁾，...，y⁽ⁿ⁾}进行做差，所得到的数据z_i看作随机变量；随后计算随机变量的风险价值VaR_α(X)，再计算条件风险价值CVaR_α(X)；最后设定阈值为T＝0.1，从而构造条件风险价值约束CVaR_α(X)≤0.1；

(4)回报计算：对于预测精度指标，在神经网络输出参数之后，再次结合对应的机理模型得到所预测的输出数据Y′＝{y′⁽¹⁾，y′⁽²⁾，...，y′⁽ⁿ⁾}，将Y′与在数据采集步骤得到的实测数据Y＝{y⁽¹⁾，y⁽²⁾，...，y⁽ⁿ⁾}进行对比，计算两者间的最小二乘代价和方差代价；前者用于衡量参数率定模型的准确度，后者用于衡量参数预测模型的稳定性；对于纳什效率系数指标，根据多条模拟轨迹，分别计算其纳什效率系数以及该系数的方差；将最小二乘代价和方差代价取反求和，并且加上纳什效率系数及其方差的相反数，即得总回报。

2.根据权利要求1所述基于强化学习的水环境模型参数率定方法，其特征在于，所述步骤(2)进一步包括：

(2.1)通过n组率定模型预测输出数据y’⁽¹⁾＝[y₁’⁽¹⁾，y₂’⁽¹⁾，…，y_L，⁽¹⁾]^T；y’⁽²⁾＝[y₁’⁽²⁾，y₂’⁽²⁾，…，y_L’⁽²⁾]^T……y’⁽ⁿ⁾＝[y₁’⁽ⁿ⁾，y₂’⁽ⁿ⁾，…，y_L’⁽ⁿ⁾]^T和n组实测输出数据y，⁽¹⁾＝[y₁’⁽¹⁾，y₂'⁽¹⁾，…，y_L，⁽¹⁾]^T；y’⁽²⁾＝[y₁’⁽²⁾，y₂’⁽²⁾，…，y_L，⁽²⁾]^T……y’⁽ⁿ⁾＝[y₁’⁽ⁿ⁾，y₂’⁽ⁿ⁾，…，y_L’⁽ⁿ⁾]^T，构造随机变量模块z⁽ⁱ⁾＝y⁽ⁱ⁾-y⁽ⁱ⁾；

(2.2)计算风险价值：VaR_α(X)＝min{z|F_X(z)≥α}；其中，α∈(0，1)，通常可取0.95，为F_X(z)，该分布的累计分布函数；根据定义可知，随机变量X的取值超过VaR_0.95(X)的概率为0.05，小于等于VaR_0.95(X)的概率为0.95；

(2.3)计算条件风险价值：

其中，

的定义为，

(2.4)构造约束：CVaR_α(X)≤T。

3.根据权利要求1所述基于强化学习的水环境模型参数率定方法，其特征在于，所述步骤(3)进一步包括：

(3.1)通过n组率定模型预测输出数据y，⁽¹⁾＝[y₁’⁽¹⁾，y₂’⁽¹⁾，…，y_L，⁽¹⁾]^T；y’⁽²⁾＝[y₁’⁽²⁾，y₂’⁽²⁾，…，y_L’⁽²⁾]^T……y’⁽ⁿ⁾＝[y₁’⁽ⁿ⁾，y₂’⁽ⁿ⁾，…，y_L’⁽ⁿ⁾]^T和n组实测输出数据y，⁽¹⁾＝[y₁’⁽¹⁾，y₂'⁽¹⁾，…，y_L，⁽¹⁾]^T；y’⁽²⁾＝[y₁’⁽²⁾，y₂’⁽²⁾，…，y_L，⁽²⁾]^T……y’⁽ⁿ⁾＝[y₁’⁽ⁿ⁾，y₂’⁽ⁿ⁾，…，y_L’⁽ⁿ⁾]^T

最小二乘代价由公式(4)计算，

其中，Y表示实测输出数据，Y′表示所预测的输出数据，下i表示第i组数据，||·||表示向量范数；

(3.2)方差代价由公式(5)计算，

其中，N表示这一批数据中的样本个数；VAR(Y，Y′)表示预测误差的方差，方差越低说明预测更加稳定，鲁棒性更强；

4.根据权利要求1所述基于强化学习的水环境模型参数率定方法，其特征在于，还包括步骤(5)模型学习：利用强化学习方法优化神经网络，其优化目标为最大化累计回报，即为最小化方差代价和最小二乘代价；在优化目标函数的同时需要使得模型率定网络能够满足条件风险价值约束，即该优化问题为一个带约束的优化问题，并针对最大化累计回报，并满足所设定的条件风险价值约束，为了更新神经网络中的权重，采用强化学习中的带约束的策略梯度方法对网络的权重进行优化。

5.根据权利要求1所述基于强化学习的水环境模型参数率定方法，其特征在于，还包括所述步骤(2)之前的步骤(1)数据采集：针对藻类生物量循环过程模型，需要采集的数据包括，同一区域内不同时间段的藻类生物量浓度，水体，水流在x y z三个方向的速度，水质变量的源汇项如氨氮浓度、硝态氮浓度、溶解态磷酸盐浓度。