CN116822366A

CN116822366A - 一种径流污染负荷计算模型构建和径流污染负荷计算方法

Info

Publication number: CN116822366A
Application number: CN202310804531.5A
Authority: CN
Inventors: 朱雅婷; 陈亚松; 赵云鹏; 王殿常; 李翀; 陈俊润
Original assignee: China Three Gorges Corp
Current assignee: China Three Gorges Corp
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-29

Abstract

本发明涉及污染负荷测算技术领域，公开了一种径流污染负荷计算模型构建和径流污染负荷计算方法，模型构建方法通过获取多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据，将二者进行关联得到关联数据集；对关联数据集进行划分，得到多个训练集以及各训练集分别对应的测试集；利用每个训练集分别对预设回归数据决策模型进行训练，得到各训练集分别对应的第一计算模型，然后确定多个第一计算模型中预测误差最小的第二计算模型，将第二计算模型作为径流污染负荷计算模型。在构建模型时利用了容易获取的代表性区域特征，对城市资料的详实度要求较低，构建的计算模型可以准确对少资料、无资料地区的地表径流污染负荷进行计算。

Description

一种径流污染负荷计算模型构建和径流污染负荷计算方法

技术领域

本发明涉及污染负荷测算技术领域，具体涉及一种径流污染负荷计算模型构建和径流污染负荷计算方法。

背景技术

随着城市点源污染得到有效控制，面源污染对城市水环境的影响日益凸显。降雨地表径流污染作为城市地区的重要面源污染来源，具有发生不确定、排放和迁移受环境要素影响较多等特点，因此其污染负荷计算较为复杂。

目前的污染负荷计算方法，一般是利用降雨信息、土地信息、管网结构等城市资料，对城市的污染积累-冲刷-迁移全过程进行模拟，建立机理模型，利用机理模型计算城市污染负荷。该方法对降雨信息、土地信息、管网结构等城市资料的详实度要求较高，管网结构一般是指城市的污水管道、雨水管道等各种管网的结构，然而大多地区都存在管网建设历史短板突出、对混错接以及破损等缺陷识别不够清晰和精准的缺陷，导致城市资料获取难度较大，获取到的城市资料的准确性较差，进而影响构建的机理模型的计算精度。

发明内容

有鉴于此，本发明提供了一种径流污染负荷计算模型构建和径流污染负荷计算方法，以解决现有用于计算污染负荷的机理模型的构建过程较为复杂，相关城市资料获取难度大的问题。

第一方面，本发明提供了一种径流污染负荷计算模型构建方法，该方法包括：获取第一数据和第二数据，第一数据为多个预设区域内的区域相关特征数据，第二数据为多个预设区域内的污染负荷数据；将第一数据和第二数据进行关联，得到关联数据集；对关联数据集进行划分，得到多个训练集以及各训练集分别对应的测试集；利用每个训练集分别对预设回归数据决策模型进行训练，直至模型收敛，得到各训练集分别对应的第一计算模型；确定每个第一计算模型的测试集，并将每个第一计算模型的测试集输入到对应的第一计算模型中，以使各第一计算模型分别输出各自对应的污染负荷预测值；基于每个第一计算模型输出的污染负荷预测值进行误差计算，得到每个第一计算模型的误差计算结果；基于多个第一计算模型的误差计算结果确定多个第一计算模型中误差最小的第二计算模型；基于第二计算模型确定径流污染负荷计算模型。

本发明提供的一种径流污染负荷计算模型构建方法，通过获取多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据，并将二者进行关联，得到关联数据集；对关联数据集进行划分，得到多个训练集以及各训练集分别对应的测试集；利用每个训练集分别对预设回归数据决策模型进行训练，直至模型收敛，得到各训练集分别对应的第一计算模型；确定每个第一计算模型的测试集，并将每个第一计算模型的测试集输入到对应的第一计算模型中，以使各第一计算模型分别输出各自对应的污染负荷预测值；基于每个第一计算模型输出的污染负荷预测值进行误差计算，得到每个第一计算模型的误差计算结果；基于多个第一计算模型的误差计算结果确定多个第一计算模型中误差最小的第二计算模型；基于第二计算模型确定径流污染负荷计算模型。本发明提供的方法，利用多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据构建径流污染负荷计算模型，构建模型时利用了容易获取的代表性区域特征，对城市资料的详实度要求较低，不需要获取管网结构等详细城市资料；基于机器学习模型以及多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据构建径流污染负荷计算模型，建立的径流污染负荷计算模型可以准确对少资料、无资料地区的地表径流污染负荷进行计算。

在一种可选的实施方式中，获取第一数据和第二数据，第一数据为多个预设区域内的区域相关特征数据，第二数据为多个预设区域内的污染负荷数据，包括：获取各预设区域内的多个区域特征的特征数据以及各预设区域内的第一污染负荷数据；基于各区域特征对应的特征数据以及第一污染负荷数据，计算各区域特征之间的第一相关性分析结果，以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果；根据第一相关性分析结果和第二相关性分析结果，在多个区域特征中选择至少一个目标区域特征；对目标区域特征的特征数据进行标准化处理，得到多个预设区域内的区域相关特征数据；对多个预设区域内的第一污染负荷数据进行标准化处理，得到多个预设区域内的污染负荷数据。

本可选实施方式提供的方法，通过各区域特征之间的第一相关性分析结果以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果，确定目标区域特征，确定了影响多个预设区域污染负荷的代表性特征。通过对目标区域特征的特征数据进行标准化处理，得到多个预设区域内的区域相关特征数据，对多个预设区域内的第一污染负荷数据进行标准化处理，得到多个预设区域内的污染负荷数据，便于后续模型训练，提高了数据的可靠性。

在一种可选的实施方式中，获取各预设区域内的多个区域特征的特征数据以及各预设区域内的第一污染负荷数据，包括：获取各预设区域内的多个区域特征的原始特征数据以及第二污染负荷数据；利用预设填充方法对多个区域特征的原始特征数据以及第二污染负荷数据中的缺失数值进行填充，得到各预设区域内的多个区域特征的特征数据以及第一污染负荷数据。

本可选实施方式提供的方法，通过对多个区域特征的原始特征数据以及第二污染负荷数据中的缺失数值进行填充，使得数据更加完整。

在一种可选的实施方式中，基于各区域特征对应的特征数据以及第一污染负荷数据，计算各区域特征之间的第一相关性分析结果，以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果，包括：基于各区域特征对应的特征数据判断多个区域特征中是否存在非数值特征；当多个区域特征中存在非数值特征，则确定多个区域特征中除了非数值特征外的多个数值特征；基于各数值特征对应的特征数据与其他数值特征对应的特征数据，计算各数值特征之间的第三相关性分析结果，以及数值特征分别与第一污染负荷数据之间的第四相关性分析结果。

本可选实施方式提供的方法，分析各数值特征对应的特征数据与其他数值特征对应的特征数据之间的相关性，可以有效确定影响多个预设区域污染负荷的代表性数值特征。

在一种可选的实施方式中，根据第一相关性分析结果和第二相关性分析结果，在多个区域特征中选择至少一个目标区域特征，包括：当多个区域特征中存在非数值特征，则将多个区域特征中的非数值特征作为目标区域特征。

本可选实施方式提供的方法，将非数值特征作为目标区域特征，可以有效确定影响多个预设区域污染负荷的代表性特征。

在一种可选的实施方式中，对目标区域特征的特征数据进行标准化处理，得到多个预设区域内的区域相关特征数据，包括：当目标区域特征为非数值特征，则将目标区域特征的特征数据进行数值转化，得到非数值特征对应的特征数据；当目标区域特征为数值特征，则利用预设标准化算法对目标区域特征的特征数据进行标准化处理，得到数值特征对应的特征数据；基于非数值特征对应的特征数据以及数值特征对应的特征数据，确定多个预设区域内的区域相关特征数据。

本可选实施方式提供的方法，通过对非数值特征的特征数据进行数值转化并对数值特征的特征数据进行标准化处理，便于后续的模型训练。

在一种可选的实施方式中，当目标区域特征为数值特征，则利用预设标准化算法对目标区域特征的特征数据进行标准化处理，包括：计算目标区域特征数据的均值和标准差；基于目标区域特征数据的均值和标准差对目标区域特征数据进行标准化处理，得到数值特征对应的特征数据。

本可选实施方式提供的方法，通过对目标区域特征数据进行标准化处理，得到数值特征对应的特征数据，便于后续模型训练，提高了数据的可靠性。

第二方面，本发明提供了一种径流污染负荷计算方法，该方法包括：获取待计算污染负荷区域的区域相关特征数据；将待计算污染负荷区域的区域相关特征数据输入到径流污染负荷计算模型，得到待计算污染负荷区域对应的污染负荷数据，径流污染负荷计算模型通过如第一方面或者其对应的任一实施方式中的径流污染负荷计算模型构建方法构建得到。

本发明提供的径流污染负荷计算方法，基于径流污染负荷计算模型确定待计算污染负荷区域的污染负荷，可以准确对少资料、无资料地区的污染负荷进行计算。

在一种可选的实施方式中，该方法还包括：将径流污染负荷计算模型计算污染负荷数据的计算过程进行可视化处理。

本可选实施方式提供的方法，通过对污染负荷数据的计算过程进行可视化处理，便于相关人员直观地观察径流污染负荷计算模型的决策流程。

第三方面，本发明提供了一种径流污染负荷计算模型构建装置，该装置包括：第一获取模块，用于获取第一数据和第二数据，第一数据为多个预设区域内的区域相关特征数据，第二数据为多个预设区域内的污染负荷数据；关联模块，用于将第一数据和第二数据进行关联，得到关联数据集；划分模块，用于对关联数据集进行划分，得到多个训练集以及各训练集分别对应的测试集；训练模块，用于利用每个训练集分别对预设回归数据决策模型进行训练，直至模型收敛，得到各训练集分别对应的第一计算模型；第一确定模块，用于确定每个第一计算模型的测试集，并将每个第一计算模型的测试集输入到对应的第一计算模型中，以使各第一计算模型分别输出各自对应的污染负荷预测值；第一计算模块，用于基于每个第一计算模型输出的污染负荷预测值进行误差计算，得到每个第一计算模型的误差计算结果；第二确定模块，用于基于多个第一计算模型的误差计算结果确定多个第一计算模型中误差最小的第二计算模型；第三确定模块，用于基于第二计算模型确定径流污染负荷计算模型。

在一种可选的实施方式中，第一获取模块，包括：获取单元，用于获取各预设区域内的多个区域特征的特征数据以及各预设区域内的第一污染负荷数据；计算单元，用于基于各区域特征对应的特征数据以及第一污染负荷数据，计算各区域特征之间的第一相关性分析结果，以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果；选择单元，用于根据第一相关性分析结果和第二相关性分析结果，在多个区域特征中选择至少一个目标区域特征；第一处理单元，用于对目标区域特征的特征数据进行标准化处理，得到多个预设区域内的区域相关特征数据；第二处理单元，用于对多个预设区域内的第一污染负荷数据进行标准化处理，得到多个预设区域内的污染负荷数据。

在一种可选的实施方式中，获取单元，包括：获取子单元，用于获取各预设区域内的多个区域特征的原始特征数据以及第二污染负荷数据；填充模块，用于利用预设填充方法对多个区域特征的原始特征数据以及第二污染负荷数据中的缺失数值进行填充，得到各预设区域内的多个区域特征的特征数据以及第一污染负荷数据。

第四方面，本发明提供了一种径流污染负荷计算装置，该装置包括：第二获取模块，用于获取待计算污染负荷区域的区域相关特征数据；

第二计算模块，用于将待计算污染负荷区域的区域相关特征数据输入到径流污染负荷计算模型，得到待计算污染负荷区域对应的污染负荷数据，径流污染负荷计算模型通过第一方面或第一方面任一可选实施方式的径流污染负荷计算模型构建方法构建得到。

第五方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的径流污染负荷计算模型构建方法，或执行上述第二方面或者其对应的任一实施方式的径流污染负荷计算方法。

第六方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的径流污染负荷计算模型构建方法，或执行上述第二方面或者其对应的任一实施方式的径流污染负荷计算方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的径流污染负荷计算模型构建方法的流程示意图；

图2是根据本发明实施例的另一径流污染负荷计算模型构建方法的流程示意图；

图3是根据本发明实施例的径流污染负荷计算方法的流程示意图；

图4是根据本发明实施例的另一径流污染负荷计算方法的流程示意图；

图5是根据本发明实施例的径流污染负荷计算模型构建装置的结构框图；

图6是根据本发明实施例的径流污染负荷计算装置的结构框图；

图7是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

降雨地表径流污染是城市地区的重要污染来源，其具有发生不确定性、排放和迁移受环境要素影响较多的问题，因此降雨地表径流污染的计算过程较为复杂。

相关技术中一般利用降雨信息、土地信息、管网结构等城市资料对污染积累-冲刷-迁移全过程进行模拟建立机理模型，基于建立的机理模型计算地表径流污染的污染负荷，然而该计算方案需要利用详实的城市资料建立机理模型，对于无资料、少资料地区而言，该方法尚存在工程适用性不足、难以大范围推广等问题。

为了解决相关技术中存在的问题，本发明实施例提供了一种径流污染负荷计算模型构建方法，可以应用于一处理器，构建径流污染负荷计算模型。该方法利用多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据构建径流污染负荷计算模型，构建模型时利用了容易获取的代表性区域特征，对城市资料的详实度要求较低，得到的径流污染负荷计算模型的可以准确对少资料、无资料地区的地表径流污染负荷进行计算。

根据本发明实施例，提供了一种径流污染负荷计算模型构建方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种径流污染负荷计算模型构建方法，可用于上述的处理器，图1是根据本发明实施例的径流污染负荷计算模型构建方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取第一数据和第二数据，第一数据为多个预设区域内的区域相关特征数据，第二数据为多个预设区域内的污染负荷数据。

示例性地，预设区域可以是任一存在地表径流污染的区域，区域相关特征数据可以是预设区域内可以表征该区域特征的相关数据，污染负荷数据可以用于表征区域内地表径流污染的严重程度。本申请实施例中，预设区域可以是某流域的一个沿线城市，多个预设区域可以是该流域中的100个沿线城市，区域相关特征可以包括但不限于建成区域人口密度、雨水管网覆盖率、年降雨量、地形以及人均GDP。

步骤S102，将第一数据和第二数据进行关联，得到关联数据集。

示例性地，将多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据进行关联，得到关联数据集，本申请实施例对关联的具体方式不做限定，本领域技术人员可以根据需求确定。

步骤S103，对关联数据集进行划分，得到多个训练集以及各训练集分别对应的测试集。

示例性地，本申请实施例中，可以基于5折交叉验证法，将关联数据集划分为5份数据，基于划分的5份数据组成五个不同的训练集和测试集，一个训练集对应有一个测试集。

步骤S104，利用每个训练集分别对预设回归数据决策模型进行训练，直至模型收敛，得到各训练集分别对应的第一计算模型。

示例性地，预设回归数据决策模型可以包括但不限于基于分类回归树(Classification And Regression Tree，CART)算法的回归决策树模型。本申请实施例中，基于CART算法的回归决策树模型的决策树学习流程为：首先构建根节点，并将所有训练集数据放在根节点；根据一定规则选择一个最优特征，按照这一特征将训练集分裂为两个子集；若子集已经能够被基本正确分类，那么构建叶结点，且不再对结点继续分裂；若子集不能正确分类，则继续选择最优特征继续分裂；如此递归执行，直至训练集的所有子集被基本正确分类。决策树学习过程中最优特征的选择采用CART算法进行计算，该方法通过比较不同划分方法的均方误差(MSE)或平均绝对误差(MAE)，并挑选误差最小的划分方法对训练数据进行分裂。误差的详细计算方法如下：

将子集中所有数据的污染负荷实测值的平均值作为该子集所有数据的污染负荷预测值，计算过程可以如下式(1)所示：

其中，y_i表示子集中第i个训练样本污染负荷的实测值，表示子集中所有训练样本污染负荷的预测值，n表示子集中的训练样本总数。

基于下式(2)计算该子集的MSE值，或基于下式(3)计算该子集的MAE值；

其中，MSE表示训练集子集的均方误差，其余参数意义同公式(1)。

其中，MAE表示训练集子集的平均绝对误差，其余参数意义同公式(1)。

然后将两个子集的MSE或MAE值相加得到该划分方法的MSE或MAE值，两个子集的MSE的相加过程可以如下式(4)所示，两个子集的MAE的相加过程可以如下式(5)所示。

MSE_总＝MSE_左+MSE_右 (4)

其中，MSE总表示某个划分方法下训练集的总均方误差，MSE左和MSE右分别表示左侧子集和右侧子集的均方误差。

MAE_总＝MAE_左+MAE_右 (5)

其中，MAE_总表示某个划分方法下训练集的总平均绝对误差，MAE_左和MAE_右分别表示左侧子集和右侧子集的平均绝对误差。

利用每个训练集分别对预设回归数据决策模型进行训练得到过程为：利用剪枝策略优化模型，以避免过拟合问题，并将一个训练集数据喂入构建好的回归决策树模型进行训练，直至模型收敛，得到对应的第一计算模型。本申请实施例中，基于五个不同的训练集对预设回归数据决策模型进行训练，可以得到五个不同的第一计算模型。

步骤S105，确定每个第一计算模型的测试集，并将每个第一计算模型的测试集输入到对应的第一计算模型中，以使各第一计算模型分别输出各自对应的污染负荷预测值。

示例性地，本申请实施例中，将每个第一计算模型的测试集输入到对应第一计算模型中，对应的第一计算模型会输出对应的污染负荷预测值。部分测试集数据的可以如下表1所示。

表1

步骤S106，基于每个第一计算模型输出的污染负荷预测值进行误差计算，得到每个第一计算模型的误差计算结果。

示例性地，基于每个第一计算模型输出的污染负荷预测值计算对应的计算模型的MSE或MAE值，基于每个第一计算模型的MSE或MAE值确定对应模型的预测误差，具体可以通过下式(6)计算每个第一计算模型对应的MSE值，具体可以通过下式(7)计算每个第一计算模型对应的MAE值。

其中，y_i表示测试集中第i个测试样本污染负荷的实测值，表示测试集中第i个测试样本污染负荷的预测值，k表示测试集的样本个数，MSE表示测试集的均方误差。

其中，MAE表示测试集的平均绝对误差，其余参数的含义同公式(6)。

步骤S107，基于多个第一计算模型的误差计算结果确定多个第一计算模型中误差最小的第二计算模型。

示例性地，本申请实施例中，五个不同第一计算模型的误差计算结果可以如下表2所示：

表2

模型	1	2	3	4	5
						MAE值	2.705	1.825	1.598	2.437	1.473

由表2可知，MAE值最低的模型为模型5，则多个第一计算模型中误差最小的第二计算模型可以为表2中的模型5。

步骤S108，基于第二计算模型确定径流污染负荷计算模型。

示例性地，本申请实施例中，可以将第二计算模型确定为径流污染负荷计算模型。

本实施例提供的径流污染负荷计算模型构建方法，利用多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据构建径流污染负荷计算模型，构建模型时利用了容易获取的代表性区域特征，对城市资料的详实度要求较低，不需要获取管网结构等详细城市资料；基于机器学习模型以及多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据构建径流污染负荷计算模型，建立的径流污染负荷计算模型可以准确对少资料、无资料地区的地表径流污染负荷进行计算。

在本实施例中提供了一种地表负荷计算模型构建方法，可用于上述处理器，图2是根据本发明实施例的径流污染负荷计算模型构建方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取第一数据和第二数据，第一数据为多个预设区域内的区域相关特征数据，第二数据为多个预设区域内的污染负荷数据。详细请参见图1所示实施例的步骤S101，在此不再赘述。

具体地，上述步骤S201包括：

步骤S2011，获取各预设区域内的多个区域特征的特征数据以及各预设区域内的第一污染负荷数据。

示例性地，多个区域特征可以包括但不限于建成区域人口密度、雨水管网覆盖率、年降雨量、地形、人均GDP等，第一污染负荷数据可以包括但不限于化学需氧量(ChemicalOxygen Demand，COD)的污染负荷数据。

步骤S2012，基于各区域特征对应的特征数据以及第一污染负荷数据，计算各区域特征之间的第一相关性分析结果，以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果。

示例性地，本申请实施例中，各区域特征之间的第一相关性分析结果以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果可以如下表3所示。

表3

步骤S2013，根据第一相关性分析结果和第二相关性分析结果，在多个区域特征中选择至少一个目标区域特征。

示例性地，目标区域特征可以用于表征预设区域内影响污染负荷大小的代表性特征。本申请实施例中，由表3可以确定建成区域人口密度、雨水管网覆盖率、年降雨量、人均GDP这4类数据指标与COD污染负荷之间均具有一定的相关性，且各指标彼此之间无强相关性，故认为表3的区域特征中无冗余特征。

步骤S2014，对目标区域特征的特征数据进行标准化处理，得到多个预设区域内的区域相关特征数据。

示例性地，本申请实施例中，对标准化处理的方式不做限定，本领域技术人员可以根据需求确定。

步骤S2015，对多个预设区域内的第一污染负荷数据进行标准化处理，得到多个预设区域内的污染负荷数据。

在一些可选的实施方式中，上述步骤S2011包括：

步骤a1，获取各预设区域内的多个区域特征的原始特征数据以及第二污染负荷数据。示例性地，多个区域特征的原始特征数据以及第二污染负荷数据可以如下表4所示。

表4

步骤a2，利用预设填充方法对多个区域特征的原始特征数据以及第二污染负荷数据中的缺失数值进行填充，得到各预设区域内的多个区域特征的特征数据以及第一污染负荷数据。示例性地，本申请实施例中，可以采用均值填充法对多个区域特征的原始特征数据以及第二污染负荷数据中缺失的数据进行填充，使得样本数据完整。例如，对表4中的数据进行缺失数值填充，如样本3中的雨水管网覆盖率数据缺失，通过计算所有地形为平原地区样本雨水管网覆盖率数据的平均值(0.55)，并将该值填入样本3中。

在一些可选的实施方式中，上述步骤S2012包括：

步骤b1，基于各区域特征对应的特征数据判断多个区域特征中是否存在非数值特征。示例性地，本申请实施例中，非数值特征可以是不能用数值表示的特征，非数值特征可以如表4中的地形。

步骤b2，当多个区域特征中存在非数值特征，则确定多个区域特征中除了非数值特征外的多个数值特征。示例性地，本申请实施例中，数值特征可以是用数值表示的特征，数值特征具体可以如表4中的建成区域人口密度、雨水管网覆盖率、年降雨量和人均GDP。

步骤b3，基于各数值特征对应的特征数据与其他数值特征对应的特征数据，计算各数值特征之间的第三相关性分析结果，以及数值特征分别与第一污染负荷数据之间的第四相关性分析结果。示例性地，本申请实施例中，对数值特征做相关性分析，计算各数值特征之间的第三相关性分析结果，以及数值特征分别与第一污染负荷数据之间的第四相关性分析结果。

在一些可选的实施方式中，上述步骤S2013包括：

步骤c1，当多个区域特征中存在非数值特征，则将多个区域特征中的非数值特征作为目标区域特征。示例性地，本申请实施例中，如果多个区域特征中存在非数值特征，则将该非数值特征作为目标区域特征。

在一些可选的实施方式中，上述步骤S2014包括：

步骤d1，当目标区域特征为非数值特征，则将目标区域特征的特征数据进行数值转化，得到非数值特征对应的特征数据。示例性地，本申请实施例中，将所采集信息中的非数值特征按照类别转化为标签编码格式(0，1，2，…等)，例如，可以将表4中的地形特征按照平原、丘陵、山地转化为标签编码0，1，2。

步骤d2，当目标区域特征为数值特征，则利用预设标准化算法对目标区域特征的特征数据进行标准化处理，得到数值特征对应的特征数据。示例性地，本申请实施例中，对数值特征进行标准化处理，本申请实施例对标准化处理的方法不做限定，本领域技术人员可以根据需求确定。

步骤d3，基于非数值特征对应的特征数据以及数值特征对应的特征数据，确定多个预设区域内的区域相关特征数据。示例性地，将非数值特征对应的特征数据以及数值特征对应的特征数据作为多个预设区域内的区域相关特征数据。

在一些可选的实施方式中，上述步骤d2包括：

步骤d21，计算目标区域特征数据的均值和标准差。示例性地，本申请实施例中，可以通过下式(8)计算目标区域特征数据的均值，可以通过下式(9)计算目标区域特征数据的标准差。

其中，x_i,j表示第j个特征的第i个样本数据；n表示样本数，μ_j表示第j个特征的所有样本数据的均值。

其中，σ_j表示第j个特征的所有样本数据的标准差，其他参数的含义同公式(8)。

步骤d22，基于目标区域特征数据的均值和标准差对目标区域特征数据进行标准化处理，得到数值特征对应的特征数据。示例性地，本申请实施例中，可以通过下式(10)计算。

其中，x_i,j′表示第j个特征的第i个样本数据经标准化后的值，其他参数含义参见公式(8)和公式(9)。

步骤S202，将第一数据和第二数据进行关联，得到关联数据集。详细请参见图1所示实施例的步骤S102，在此不再赘述。

步骤S203，对关联数据集进行划分，得到多个训练集以及各训练集分别对应的测试集。详细请参见图1所示实施例的步骤S103，在此不再赘述。

步骤S204，利用每个训练集分别对预设回归数据决策模型进行训练，直至模型收敛，得到各训练集分别对应的第一计算模型。详细请参见图1所示实施例的步骤S104，在此不再赘述。

步骤S205，确定每个第一计算模型的测试集，并将每个第一计算模型的测试集输入到对应的第一计算模型中，以使各第一计算模型分别输出各自对应的污染负荷预测值。详细请参见图1所示实施例的步骤S105，在此不再赘述。

步骤S206，基于每个第一计算模型输出的污染负荷预测值进行误差计算，得到每个第一计算模型的误差计算结果。详细请参见图1所示实施例的步骤S106，在此不再赘述。

步骤S207，基于多个第一计算模型的误差计算结果确定多个第一计算模型中误差最小的第二计算模型。详细请参见图1所示实施例的步骤S107，在此不再赘述。

步骤S208，基于第二计算模型确定径流污染负荷计算模型。详细请参见图1所示实施例的步骤S108，在此不再赘述。

本实施例提供的地表负荷计算模型构建方法，利用多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据构建径流污染负荷计算模型，构建模型时利用了容易获取的代表性区域特征，对城市资料的详实度要求较低，不需要获取管网结构等详细城市资料；基于机器学习模型以及多个预设区域内的区域相关特征数据和多个预设区域内的污染负荷数据构建径流污染负荷计算模型，建立的径流污染负荷计算模型可以准确对少资料、无资料地区的地表径流污染负荷进行计算。

在本实施例中还提供了一种径流污染负荷计算方法，可用于上述的处理器，图3是根据本发明实施例的地表污染负荷方法的流程图，如图3所示，该流程包括如下步骤：

步骤S301，获取待计算污染负荷区域的区域相关特征数据。

示例性地，待计算污染负荷区域可以是任一需要计算径流污染负荷的区域。本申请实施例中，可以选择3组城市样本对应的建成区域人口密度、雨水管网覆盖率、年降雨量、人均GDP、地形5类特征的数据作为待计算污染负荷区域的区域相关特征数据。

步骤S302，将待计算污染负荷区域的区域相关特征数据输入到径流污染负荷计算模型，得到待计算污染负荷区域对应的污染负荷数据，径流污染负荷计算模型通过如上述实施中的径流污染负荷计算模型构建方法构建得到。

示例性地，本申请实施例中，将待计算污染负荷区域的区域相关特征数据输入到径流污染负荷计算模型中，得到的COD污染负荷预测结果可以如表5所示。

表5

本实施例提供的径流污染负荷计算方法，基于径流污染负荷计算模型确定待计算污染负荷区域的污染负荷，可以准确对少资料、无资料地区的污染负荷进行计算。

在本实施例中还提供了一种径流污染负荷计算方法，可用于上述的处理器，图4是根据本发明实施例的地表污染负荷方法的流程图，如图4所示，该流程包括如下步骤：

步骤S401，获取待计算污染负荷区域的区域相关特征数据。详细请参见图3所示实施例的步骤S301，在此不再赘述。

步骤S402，将待计算污染负荷区域的区域相关特征数据输入到径流污染负荷计算模型，得到待计算污染负荷区域对应的污染负荷数据，径流污染负荷计算模型通过如上述实施中的径流污染负荷计算模型构建方法构建得到。详细请参见图3所示实施例的步骤S302，在此不再赘述。

步骤S403，将径流污染负荷计算模型计算污染负荷数据的计算过程进行可视化处理。示例性地，本申请实施例中，可以使用Python中的图形可视化软件(GraphVisualization Software)库对得到的决策树可视化处理。通过对污染负荷数据的计算过程进行可视化处理，便于相关人员直观地观察径流污染负荷计算模型的决策流程。

下面通过一个具体的实施例对本发明提供的一种径流污染负荷计算模型构建方法的具体过程进行说明。

步骤1，通过文献调研和现场实测，对某流域沿线城市进行资料收集。具体包括：城市降雨地表径流污染负荷、建成区域人口密度、雨水管网覆盖率、年降雨量、人均GDP、地形特征6类信息。

步骤2，对步骤1收集到的数据进行预处理，利用均值填充法对所采集样本数据中的缺失数据进行填充，以使数据样本完整。

步骤3，通过对所采集样本特征进行彼此之间的数值相关性分析，得到各指标的相关性矩阵，进而从所采集样本特征中选择代表性特征。

步骤4，对代表性特征对应的特征数据进行标准化处理。

步骤5，基于5折交叉验证法，将标准化处理后的数据拆分为5组不同的训练集和测试集。

步骤6，基于5组不同的训练集和测试集以及基于CART算法的回归决策树模型，构建得到径流污染负荷计算模型。具体构建过程参见上述实施例中相关部分的描述，此处不再赘述。

在本实施例中还提供了一种径流污染负荷计算模型构建装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种径流污染负荷计算模型构建装置，如图5所示，包括：

第一获取模块501，用于获取第一数据和第二数据，第一数据为多个预设区域内的区域相关特征数据，第二数据为多个预设区域内的污染负荷数据。

关联模块502，用于将第一数据和第二数据进行关联，得到关联数据集。

划分模块503，用于对关联数据集进行划分，得到多个训练集以及各训练集分别对应的测试集。

训练模块504，用于利用每个训练集分别对预设回归数据决策模型进行训练，直至模型收敛，得到各训练集分别对应的第一计算模型。

第一确定模块505，用于确定每个第一计算模型的测试集，并将每个第一计算模型的测试集输入到对应的第一计算模型中，以使各第一计算模型分别输出各自对应的污染负荷预测值。

第一计算模块506，用于基于每个第一计算模型输出的污染负荷预测值进行误差计算，得到每个第一计算模型的误差计算结果。

第二确定模块507，用于基于多个第一计算模型的误差计算结果确定多个第一计算模型中误差最小的第二计算模型。

第三计算模块508，用于基于第二计算模型确定径流污染负荷计算模型。

在一些可选的实施方式中，第一获取模块501包括：

获取单元，用于获取各预设区域内的多个区域特征的特征数据以及各预设区域内的第一污染负荷数据。

计算单元，用于基于各区域特征对应的特征数据以及第一污染负荷数据，计算各区域特征之间的第一相关性分析结果，以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果。

选择单元，用于根据第一相关性分析结果和第二相关性分析结果，在多个区域特征中选择至少一个目标区域特征。

第一处理单元，用于对目标区域特征的特征数据进行标准化处理，得到多个预设区域内的区域相关特征数据。

第二处理单元，用于对多个预设区域内的第一污染负荷数据进行标准化处理，得到多个预设区域内的污染负荷数据。

在一些可选的实施方式中，获取单元包括：

获取子单元，用于获取各预设区域内的多个区域特征的原始特征数据以及第二污染负荷数据。

填充子单元，用于利用预设填充方法对多个区域特征的原始特征数据以及第二污染负荷数据中的缺失数值进行填充，得到各预设区域内的多个区域特征的特征数据以及第一污染负荷数据。

在一些可选的实施方式中，计算单元包括：

判断子单元，用于基于各区域特征对应的特征数据判断多个区域特征中是否存在非数值特征。

第一确定子单元，用于当多个区域特征中存在非数值特征，则确定多个区域特征中除了非数值特征外的多个数值特征。

第一计算子单元，用于基于各数值特征对应的特征数据与其他数值特征对应的特征数据，计算各数值特征之间的第三相关性分析结果，以及数值特征分别与第一污染负荷数据之间的第四相关性分析结果。

在一些可选的实施方式中，选择单元包括：

第二确定子单元，用于当多个区域特征中存在非数值特征，则将多个区域特征中的非数值特征作为目标区域特征。

在一些可选的实施方式中，第一处理单元包括：

转化子单元，用于当目标区域特征为非数值特征，则将目标区域特征的特征数据进行数值转化，得到非数值特征对应的特征数据。

第一处理子单元，用于当目标区域特征为数值特征，则利用预设标准化算法对目标区域特征的特征数据进行标准化处理，得到数值特征对应的特征数据。

第三确定子单元，用于基于非数值特征对应的特征数据以及数值特征对应的特征数据，确定多个预设区域内的区域相关特征数据。

在一些可选的实施方式中，第一处理子单元包括：

计算子模块，用于计算目标区域特征数据的均值和标准差。

处理子模块，用于基于目标区域特征数据的均值和标准差对目标区域特征数据进行标准化处理，得到数值特征对应的特征数据。

在本实施例中还提供了一种径流污染负荷计算装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种径流污染负荷计算装置，如图6所示，包括：

第二获取模块601，用于获取待计算污染负荷区域的区域相关特征数据；

第二计算模块602，用于将待计算污染负荷区域的区域相关特征数据输入到径流污染负荷计算模型，得到待计算污染负荷区域对应的污染负荷数据，径流污染负荷计算模型通过如上述实施例中的径流污染负荷计算模型构建方法构建得到。

在一些可选的实施方式中，该装置还包括：

可视化处理单元，用于将径流污染负荷计算模型计算污染负荷数据的计算过程进行可视化处理。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的径流污染负荷计算模型构建装置以及径流污染负荷计算装置是以功能单元的形式来呈现，这里的单元是指ASIC(Application Specific IntegratedCircuit，专用集成电路)电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图5所示的径流污染负荷计算模型构建装置，或图6所示的径流污染负荷计算装置。

请参阅图7，图7是本发明可选实施例提供的一种计算机设备的结构示意图，如图7所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，所述存储器20存储有可由至少一个处理器10执行的指令，以使所述至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的第二存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种径流污染负荷计算模型构建方法，其特征在于，所述方法包括：

获取第一数据和第二数据，所述第一数据为多个预设区域内的区域相关特征数据，所述第二数据为多个预设区域内的污染负荷数据；

将所述第一数据和所述第二数据进行关联，得到关联数据集；

对所述关联数据集进行划分，得到多个训练集以及各训练集分别对应的测试集；

利用每个训练集分别对预设回归数据决策模型进行训练，直至模型收敛，得到各训练集分别对应的第一计算模型；

确定每个第一计算模型的测试集，并将每个第一计算模型的测试集输入到对应的第一计算模型中，以使各第一计算模型分别输出各自对应的污染负荷预测值；

基于每个第一计算模型输出的污染负荷预测值进行误差计算，得到每个第一计算模型的误差计算结果；

基于多个第一计算模型的误差计算结果确定多个第一计算模型中误差最小的第二计算模型；

基于第二计算模型确定径流污染负荷计算模型。

2.根据权利要求1所述的方法，其特征在于，所述获取第一数据和第二数据，所述第一数据为多个预设区域内的区域相关特征数据，所述第二数据为多个预设区域内的污染负荷数据，包括：

获取各预设区域内的多个区域特征的特征数据以及各预设区域内的第一污染负荷数据；

基于各区域特征对应的特征数据以及第一污染负荷数据，计算各区域特征之间的第一相关性分析结果，以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果；

根据所述第一相关性分析结果和所述第二相关性分析结果，在多个区域特征中选择至少一个目标区域特征；

对所述目标区域特征的特征数据进行标准化处理，得到所述多个预设区域内的区域相关特征数据；

对所述多个预设区域内的第一污染负荷数据进行标准化处理，得到所述多个预设区域内的污染负荷数据。

3.根据权利要求2所述的方法，其特征在于，所述获取各预设区域内的多个区域特征的特征数据以及各预设区域内的第一污染负荷数据，包括：

获取各预设区域内的多个区域特征的原始特征数据以及第二污染负荷数据；

利用预设填充方法对所述多个区域特征的原始特征数据以及第二污染负荷数据中的缺失数值进行填充，得到各预设区域内的多个区域特征的特征数据以及第一污染负荷数据。

4.根据权利要求2所述的方法，其特征在于，基于各区域特征对应的特征数据以及第一污染负荷数据，计算各区域特征之间的第一相关性分析结果，以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果，包括：

基于所述各区域特征对应的特征数据判断多个区域特征中是否存在非数值特征；

当所述多个区域特征中存在非数值特征，则确定所述多个区域特征中除了非数值特征外的多个数值特征；

基于各数值特征对应的特征数据与其他数值特征对应的特征数据，计算各数值特征之间的第三相关性分析结果，以及数值特征分别与第一污染负荷数据之间的第四相关性分析结果。

5.根据权利要求3所述的方法，其特征在于，根据所述第一相关性分析结果和所述第二相关性分析结果，在多个区域特征中选择至少一个目标区域特征，包括：

当所述多个区域特征中存在非数值特征，则将所述多个区域特征中的非数值特征作为目标区域特征。

6.根据权利要求4所述的方法，其特征在于，对所述目标区域特征的特征数据进行标准化处理，得到所述多个预设区域内的区域相关特征数据，包括：

当所述目标区域特征为非数值特征，则将所述目标区域特征的特征数据进行数值转化，得到所述非数值特征对应的特征数据；

当所述目标区域特征为数值特征，则利用预设标准化算法对所述目标区域特征的特征数据进行标准化处理，得到所述数值特征对应的特征数据；

基于所述非数值特征对应的特征数据以及所述数值特征对应的特征数据，确定所述多个预设区域内的区域相关特征数据。

7.根据权利要求6所述的方法，其特征在于，当所述目标区域特征为数值特征，则利用预设标准化算法对所述目标区域特征的特征数据进行标准化处理，包括：

计算所述目标区域特征数据的均值和标准差；

基于所述目标区域特征数据的均值和标准差对所述目标区域特征数据进行标准化处理，得到所述数值特征对应的特征数据。

8.一种径流污染负荷计算方法，其特征在于，所述方法包括：

获取待计算污染负荷区域的区域相关特征数据；

将所述待计算污染负荷区域的区域相关特征数据输入到径流污染负荷计算模型，得到待计算污染负荷区域对应的污染负荷数据，所述径流污染负荷计算模型通过如权利要求1至7任一项所述的径流污染负荷计算模型构建方法构建得到。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

将所述径流污染负荷计算模型计算所述污染负荷数据的计算过程进行可视化处理。

10.一种径流污染负荷计算模型构建装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一数据和第二数据，所述第一数据为多个预设区域内的区域相关特征数据，所述第二数据为多个预设区域内的污染负荷数据；

关联模块，用于将所述第一数据和所述第二数据进行关联，得到关联数据集；

划分模块，用于对所述关联数据集进行划分，得到多个训练集以及各训练集分别对应的测试集；

训练模块，用于利用每个训练集分别对预设回归数据决策模型进行训练，直至模型收敛，得到各训练集分别对应的第一计算模型；

第一确定模块，用于确定每个第一计算模型的测试集，并将每个第一计算模型的测试集输入到对应的第一计算模型中，以使各第一计算模型分别输出各自对应的污染负荷预测值；

第一计算模块，用于基于每个第一计算模型输出的污染负荷预测值进行误差计算，得到每个第一计算模型的误差计算结果；

第二确定模块，用于基于多个第一计算模型的误差计算结果确定多个第一计算模型中误差最小的第二计算模型；

第三确定模块，用于基于第二计算模型确定径流污染负荷计算模型。

11.根据权利要求10所述的装置，其特征在于，所述第一获取模块，包括：

获取单元，用于获取各预设区域内的多个区域特征的特征数据以及各预设区域内的第一污染负荷数据；

计算单元，用于基于各区域特征对应的特征数据以及第一污染负荷数据，计算各区域特征之间的第一相关性分析结果，以及各区域特征分别与第一污染负荷数据之间的第二相关性分析结果；

选择单元，用于根据所述第一相关性分析结果和所述第二相关性分析结果，在多个区域特征中选择至少一个目标区域特征；

第一处理单元，用于对所述目标区域特征的特征数据进行标准化处理，得到所述多个预设区域内的区域相关特征数据；

第二处理单元，用于对所述多个预设区域内的第一污染负荷数据进行标准化处理，得到所述多个预设区域内的污染负荷数据。

12.根据权利要求11所述的装置，其特征在于，所述获取单元，包括：

获取子单元，用于获取各预设区域内的多个区域特征的原始特征数据以及第二污染负荷数据；

填充子单元，用于利用预设填充方法对所述多个区域特征的原始特征数据以及第二污染负荷数据中的缺失数值进行填充，得到各预设区域内的多个区域特征的特征数据以及第一污染负荷数据。

13.一种径流污染负荷计算装置，其特征在于，所述装置包括：

第二获取模块，用于获取待计算污染负荷区域的区域相关特征数据；

第二计算模块，用于将所述待计算污染负荷区域的区域相关特征数据输入到径流污染负荷计算模型，得到待计算污染负荷区域对应的污染负荷数据，所述径流污染负荷计算模型通过如权利要求1至7任一项所述的径流污染负荷计算模型构建方法构建得到。

14.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至7中任一项所述的径流污染负荷计算模型构建方法，或执行权利要求8或9所述的径流污染负荷计算方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的径流污染负荷计算模型构建方法，或执行权利要求8或9所述的径流污染负荷计算方法。