CN116701970B

CN116701970B - 基于双层相似度聚类的排水管网监测点优化布置方法

Info

Publication number: CN116701970B
Application number: CN202310694673.0A
Authority: CN
Inventors: 俞志极; 黄标; 刘甲春; 朱志伟
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2024-06-04
Anticipated expiration: 2043-06-12
Also published as: CN116701970A

Abstract

本发明公开了基于双层相似度聚类的排水管网监测点优化布置方法，涉及城市排水系统监测点优化布置技术领域；该方法包括：建立排水管网模型；通过排水管网模型获得各降雨事件下的时间序列数据；使用时滞互相关系数聚类算法构建加权形态相似度矩阵，控制形态相似度阈值，对各监测点时间序列数据进行形态相似聚类；使用DTW距离聚类算法构建加权幅度相似度矩阵，控制幅度相似度阈值，对形态相似聚类结果进行二次聚类，对聚类结果进行评估；调整形态相似度阈值和幅度相似度阈值，得到不同相似度阈值下的最优聚类结果；确定最优布置方案。该方法可以从排水管网监测范围内自动识别最具代表性的监测点位，通过优化监测位置数量达到同等的监测效果。

Description

基于双层相似度聚类的排水管网监测点优化布置方法

技术领域

本发明属于城市排水系统监测点优化布置技术领域，尤其涉及一种基于双层相似度聚类的排水管网监测点优化布置方法。

背景技术

随着全球气候变化和城市化进程加快，城市下垫面条件和区域降雨特征发生了显著的改变，导致极端降雨频繁，峰值流量增加。同时，由于城市排水网络建设的滞后，部分排水系统无法承载多余的流量，城市排水网络的高水位运行和内涝已成为一种常态现象。为了应对日益严重的城市排水问题，非结构性措施如物联网监测已逐渐成为排水管理的趋势，它具有应用成本低的显著优势。

管网工程本身隐蔽性强，分布广泛，运行状况不明确，管理难度大。通过监测不仅可以及时发现运行风险，了解排水水质状况的全过程，而且能够积累长期的动态数据，实现对管网运行的评估和评价。对监测点进行优化布置，可以节省设备、人力及运维费用，并达到更全面地反映排水管网信息的目标。

对管网监测点优化布置的研究相对有限，相比运筹学中的多目标规划方法，排水网络监测点的优化布置更多地基于统计理论进行研究，核心是通过识别节点间的相关性进行聚类。申请号为201810349074.4的排水管网节点间相似性衡量的综合指标构建方法通过对排水管网进行在线监测或利用模型模拟，以得到管网节点对应监测指标的时间序列曲线；将时间序列曲线作为相似性衡量的对象，并利用皮尔逊相关系数和欧氏距离分别获取节点间相似性矩阵和距离矩阵；根据相似性矩阵和距离矩阵进行变化，以得到综合指标，并根据综合指标衡量管网节点间的相似性。该方法能够根据实际需求调整两部分所占权重，快速计算、动态评估，使相似性的定量化评估结果更符合排水管网节点特性，支持节点聚类等相关分析，方便准确，应用范围广。该方法未采用相似度衡量指标，无法克服现有技术中忽略了不同监测点的时间序列数据在上下游水流过程中存在时间滞后的问题。申请号为202111502036.6的一种用户负荷双层聚类方法使用短时互相关系数聚类算法，对用户负荷进行形态相似聚类，得到多个第一聚类簇；使用欧氏距离聚类算法，对多个第一聚类簇依据幅度进行聚类；采用短时互相关系数对负荷曲线进行形态相似聚类，保留了样本间的不相似程度，避免了互相关系数过度位移致使聚类效果不佳。因为限制了序列的位移区间，相较于DTW和k-shape两种考虑时序特性的形态聚类算法相比，算法运行时间更短，并且在聚类效果和有效性指标上表现更优，利用基于欧氏距离的聚类算法对形态相似聚类的结果进行二次聚类，将互相关系数和欧氏距离各自的优势相结合，实现了对负荷曲线的精细划分。

目前管网监测点优化布置存在仅单一考虑现场监测数据，并未考虑到极端降雨事件出现的可能；通过模拟得到时间序列数据，但模型调参得到的结果与实际情况存在差异，这些都有可能会输出不合理的监测方案，导致监测效果不理想；对时间序列数据的聚类具有不可控性，无法根据工程实际需要实现对聚类精细化控制以及优化方案不合理等问题.

基于此，本发明提出一种基于双层相似度聚类的排水管网监测点优化布置方法，该方法可以从排水管网监测范围内自动识别最具代表性的监测点位，通过优化监测位置数量达到同等的监测效果。

发明内容

本发明的目的在于提供基于双层相似度聚类的排水管网监测点优化布置方法，以解决上述背景技术中提出的现有技术中未考虑极端降雨事件、模型模拟得到时间序列数据有误差、对时间序列数据的聚类不可控等问题。

为实现上述目的，本发明采用以下技术方案实现：

基于双层相似度聚类的排水管网监测点优化布置方法，包括如下步骤：

S1、收集待监测区域排水管网数据建立排水管网模型，并利用实测数据对排水管网模型进行校准和验证；

S2、根据监测目的模拟相应降雨情景，通过排水管网模型获得不同工况的降雨事件下各点位监测指标对应的时间序列数据；

S3、根据监测目的为各降雨事件下监测指标的时间序列数据赋予不同权重，使用时滞互相关系数聚类算法构建加权形态相似度矩阵，根据监测条件控制形态相似度阈值，对各监测点时间序列数据进行形态相似聚类，得到形态相似聚类结果；

S4、使用DTW距离聚类算法构建加权幅度相似度矩阵，根据监测条件控制幅度相似度阈值，对形态相似聚类结果进行二次聚类，得到最终聚类结果，并用聚类效果评估指标对最终聚类结果进行评估；

S5、根据监测目标和监测条件调整形态相似度阈值和幅度相似度阈值，重复进行双层聚类和评估得到不同相似度阈值下的最优聚类结果；

S6、选取同类中最具代表性点位作为监测点，结合实际确定最优布置方案。

优选地，所述S1中建立管网模型，具体步骤如下：

S11、收集待监测区域排水管网数据，整理数据使其满足排水管网模型建立的要求，建立排水管网模型并根据基础数据设置模型参数；

S12、预处理实测数据，采用处理后的实测的时间序列数据率定排水管网模型的参数并进行模型验证。

优选地，所述S11中排水管网数据包括：待监测排水管网区域内的管网数据、水文数据、地形数据、河道和湖泊数据、系统实际运行数据和实测历史数据，以及其所涉及到的上游上述数据。

优选地，所述S12中预处理实测数据，具体如下：

对实测的时间序列数据补齐缺失值、处理异常值、删除重复项和处理数据噪声。

优选地，所述S2中模拟相应降雨情景，具体如下：

根据监测目的确定不同工况的降雨事件，降雨事件的参数包括总降雨量、降雨历时、降雨强度、降雨雨型。

优选地，所述S2中监测指标根据监测目的进行选取，监测指标为液位、流量、流速或水质指标。

优选地，所述S3中得到形态相似聚类结果，具体步骤如下：

S31、根据监测目的，确定各降雨事件的权重值；

S32、利用时滞互相关系数算法构建各点位间的形态相似度矩阵，并根据权重值得到加权形态相似度矩阵；

S33、根据监测条件确定形态相似度阈值，利用层次聚类算法得到形态相似聚类结果。

优选地，所述S31中各降雨事件下监测指标的时间序列数据包括：现场监测和排水管网模型模拟得到的不同工况的降雨事件下各点位监测指标对应的时间序列数据。

优选地，所述S32中时滞互相关系数的的计算公式如下：

其中，x_t、y_t是两个监测指标的时间序列；k是两时间序列之间的时滞数；L是截断长度；n是时间序列的长度，是时间序列的平均值；σ_x、σ_y是时间序列的标准偏差；C_xy(k)、r_xy(k)分别是在时间滞后k时的互协方差系数和互相关系数；

分别计算各降雨事件m个点位间监测指标时间序列的时滞互相关系数后，构建形态相似度矩阵(r_i)_m×m，根据降雨事件的权重值得到加权形态相似度矩阵：

其中，r_i是特定降雨事件下点位时间序列之间的时滞互相关系数，a_i是该降雨事件的权重值。

优选地，所述S33中形态相似度阈值δ₁通过参考皮尔逊相关系数的取值范围来确定，根据时滞互相关系数值：

正相关0.8～1.0或负相关1.0～1.2表示相关性非常弱或无相关性；

正相关0.6～0.8或负相关1.2～1.4表示弱相关性；

正相关0.4～0.6或负相关1.4～1.6表示中等相关性；

正相关0.2～0.4或负相关1.6～1.8表示强相关性；

正相关0.0～0.2或负相关1.8～2.0表示极强的相关性。

优选地，所述S4中得到最终聚类结果，具体步骤如下：

S41、利用DTW距离算法构建各点位间的幅度相似度矩阵，并根据权重值得到加权幅度相似度矩阵；

S42、根据监测条件确定幅度相似度阈值，利用层次聚类算法对形态相似聚类结果进行二次聚类；

S43、利用聚类效果评估指标对双层相似度聚类后的聚类结果进行评估，为最终监测点优化聚类的确定提供依据。

优选地，所述S41中DTW距离算法分为两步：

首先计算两个时间序列X和Y各个点之间的距离，并构建距离矩阵：

d(x_i,y_j)＝(x_i-y_j)²

之后寻找一条从矩阵左上角到右下角的路径，使得路径上的元素和最小：

路径上的元素和为路径长度，该路径长度视为两个节点之间监测指标时间序列数据的相似度。

优选地，所述S42中幅度相似度阈值δ₂由欧氏距离公式计算得出；

具体为：

其中，设定d为监测指标的最大振幅差，n是时间序列维度。

优选地，利用层次聚类算法进行聚类，具体如下：计算每两个节点之间的距离；将距离最近的两个节点聚为一类，将其看作一个整体计算与其它节点或类之间的距离；一直重复上述过程，直至所有的节点被聚为一类。

优选地，所述步骤S43中的所述聚类效果评估指标为轮廓系数。

优选地，所述步骤S5中得到不同相似度阈值下的最优聚类结果，具体如下：

根据监测目的和预算，调整形态相似度阈值δ₁和幅度相似度阈值和δ₂，重复步骤S32-S43，重复求解出不同相似度阈值下的聚类结果，通过聚类质量评估得到最佳聚类结果。

优选地，所述步骤S6中选取同类中最具代表性点位作为监测点，具体步骤如下：

S61、计算同类中各点与其他节点之间的距离，选取平均距离最小的节点作为代表性监测点；

S62、根据监测目标和实际情况对代表性监测点进行管网拓扑结构和现场监测条件检验和适当调整，确定最终布置方案。

与现有技术相比，本发明的有益效果是：

(1)、本发明采用时滞互相关系数和动态时间翘曲算法作为聚类的相似度指标，规避了现有技术中水流上下游流动对监测指标的时间序列数据造成时滞的问题，按形态和幅度对点位进行双层聚类，并采用轮廓系数对聚类结果进行评估，使得监测点位布置方案更合理可靠。

(2)、本发明将实测降雨数据与模拟降雨数据结合，考虑了不同降雨情景对监测点位设置的影响。根据监测目的和工程实际调整阈值，通过控制聚类的精细化程度，优化监测点布置方案。

附图说明

图1为本发明中基于双层相似度聚类的排水管网监测点优化布置方法的流程图；

图2为本发明中实施例2的研究区域示意图；

图3为本发明中实施例2的ICM模型管网示意图；

图4为本发明中实施例2的模型验证与率定示意图；

图5为本发明中实施例2的P＝0.5降雨时间序列曲线示意图；

图6为本发明中实施例2的时滞互相关系数形态相似度聚类树状图；

图7为本发明中实施例2的DTW距离幅度相似度聚类树状图一；

图8为本发明中实施例2的DTW距离幅度相似度聚类树状图二；

图9为本发明中实施例2的DTW距离幅度相似度聚类树状图三；

图10为本发明中实施例2的DTW距离幅度相似度聚类树状图四；

图11为本发明中实施例2的不同阈值下最终聚类数和轮廓系数图；

图12为本发明中实施例2的监测点最优布置方案图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，该双层相似度聚类的排水管网监测点优化布置方法，包括以下步骤：

S1：搜集待监测区域排水管网相关数据并建立管网模型，用处理后的实测数据对模型进行校准和验证；

在本实施例中，排水管网模型相关数据进一步包括：

待监测排水管网区域内的管网数据、水文数据、地形数据、河道和湖泊数据、系统实际运行数据和实测历史数据，以及其所涉及到的上游上述数据。

在本实施例中，步骤S1进一步包括：

S11：收集待监测区域排水管网相关数据，整理数据使其满足模型建立的要求，建立排水管网模型并根据基础数据设置模型参数；

S12：预处理实测数据，用处理后的时间序列数据率定排水管网模型的参数并进行模型验证；

在本实施例中，预处理实测数据进一步包括：

对实测的时间序列数据补齐缺失值、处理异常值、删除重复项和处理数据噪声，大大提高了数据的质量，使得到的数据适用、一致。

S2：根据监测目的模拟多种降雨情景，获得不同工况下各点位监测指标对应的时间序列数据:

在本实施例中，根据监测目的选取监测指标，确定多种降雨模拟情景，模型模拟不同的降雨事件得到各工况下各点位监测指标所对应的时间序列数据。

其中，监测指标可以是液位、流量/流速或水质指标。

降雨模拟情景根据监测目的确定不同工况的降雨事件，包括总降雨量、降雨历时、降雨强度、降雨雨型的确定。

S3：根据监测目的为各降雨事件赋予不同权重，使用时滞互相关系数聚类算法构建加权形态相似度矩阵，并根据监测条件控制形态相似度阈值，对各监测点时间序列数据进行形态相似聚类，得到形态聚类结果。

在本实施例中，步骤S2进一步包括：

S31：根据监测目的，确定各降雨事件的权重值；

S32：利用时滞互相关系数算法构建各点位间的形态相似度矩阵，并根据权重值得到加权相似度矩阵；

在本实施例中，时滞互相关系数的计算公式进一步如下：

其中，x_t、y_t是两个监测指标的时间序列；k是两时间序列之间的时滞数；L是截断长度；n是时间序列的长度，是时间序列的平均值；σ_x、σ_y是时间序列的标准偏差；C_xy(k)、r_xy(k)分别是在时间滞后k时的互协方差系数和互相关系数。

分别计算各降雨事件m个点位间监测指标时间序列的时滞互相关系数后，构建形态相似度矩阵(r_i)_m×m，根据降雨事件的权重值得到加权相似度矩阵：

其中，r_i是特定降雨事件下点位时间序列之间的时滞互相关系数，a_i是该降雨事件的权重。

S33：根据监测条件确定形态相似度阈值，利用层次聚类算法得到形态聚类结果。

在本实施例中，形态相似度阈值δ₁通过参考皮尔逊相关系数的取值范围来确定：根据时滞互相关系数值：

正相关0.8～1.0(负相关1.0～1.2)表示相关性非常弱或无相关性；

正相关0.6～0.8(负相关1.2～1.4)表示弱相关性；

正相关0.4～0.6(负相关1.4～1.6)表示中等相关性；

正相关0.2～0.4(负相关1.6～1.8)表示强相关性；

正相关0.0～0.2(负相关1.8～2.0)表示极强的相关性。

在本实施例中，层次聚类算法的过程进一步包括：

计算每两个节点之间的距离；将距离最近的两个节点聚为一类，将其看作一个整体计算与其它节点(类)之间的距离；一直重复上述过程，直至所有的节点被聚为一类。

S4：使用DTW距离聚类算法构建加权幅度相似度矩阵，根据监测条件控制的幅度相似度阈值对形态相似聚类结果进行二次聚类，得到最终聚类结果，并用聚类效果评估指标对聚类结果进行评估；

在本实施例中，步骤S4进一步包括：

S41：利用DTW距离算法构建各点位间的幅度相似度矩阵，并根据权重值得到加权相似度矩阵；

在本实施例中，DTW距离算法进一步分为两步：

d(x_i,y_j)＝(x_i-y_j)²

S42：根据监测条件确定幅度相似度阈值，利用层次聚类算法对形态相似聚类结果进行二次聚类；

在本实施例中，幅度相似度阈值由欧氏距离公式计算得出(其中设定d为监测指标的最大振幅差，n是时间序列维度)。

S43：利用聚类效果评估指标对双层相似度聚类后的聚类结果进行评估，为最终监测点优化聚类的确定提供依据。

在本实施例中，聚类效果评估指标进一步为轮廓系数。

S5：根据监测目标和监测条件调整形态和幅度相似度阈值，重复进行双层聚类和评估得到不同相似度阈值下的最优聚类结果。

在本实施例中，步骤S5进一步包括：

根据监测目的和预算等条件要求，调整形态和幅度相似度阈值δ₁和δ₂，重复步骤S32-S43，重复求解出不同相似度阈值下的聚类结果，通过聚类质量评估得到最佳聚类结果。

S6：选取同类中最具代表性点位作为监测点，结合实际确定最优布置方案

在本实施例中，步骤S6进一步包括：

S61：计算同类中各点与其他节点之间的距离，选取平均距离最小的节点作为代表性监测点；

S62：根据监测目标和实际情况对代表性监测点进行管网拓扑结构和现场监测条件检验和适当调整，确定最终布置方案。

实施例2：

为使本领域技术人员进一步理解本发明，将通过实施例2以下一个具体实施例对实施例1中基于双层相似度聚类的排水管网监测点优化布置方法进行详细说明。

步骤S1：建立排水管网模型获得各点位时间序列数据。

S11：收集数据建立模型。

选取的待监测区域为宁波市镇海区的某小区(图2)，收集管网、地形、降雨等相关数据，利用城市综合流域排水模型软件InfoWorks ICM建立研究区域排水管网模型，如图3所示，共282个检查井，考虑监测43个节点与44条管段。

S12：率定模型。

在待监测区域内选取两个关键节点进行监测用以率定验证模型(如图2、3所示)，两个初始监测点分别位于管道系统的中游和下游附近，代表了模型的整体情况。补齐现场监测数据的缺失值，处理异常值。

在本实施例中，监测指标为节点流量。

2020年8月27日和9月11日的降雨具有相似且相对较小的降雨深度(15mm和21.6mm)，但持续时间(2h和10h)完全不同。使用两个初始监测点该场降雨的流量数据进行校准和验证，如图4所示。

模型结果的准确性由确定性系数(R²)和纳什系数(NSE)来评估。率定和验证的NSE值均>0.77，R²>0.78。因此，该模型可以用来进行双层相似度聚类方法对排水管网监测点的优化布置。

表1模型率定和验证结果

S2：确定工况得到数据。

由于降雨的强度和时长等因素，排水管网各节点的水量和水质可能会有很大差异。因此，监测点的位置必须考虑到降雨因素。

在本实施例中，除了9月14日的降雨事件外，还根据宁波暴雨强度公式计算的(浙江省住房和城乡建设厅2020)，考虑了较大的降雨重现期(P＝0.5，5，50)，P＝0.5a的设计降雨如图5所示。

表2降雨事件统计数据

步骤S3：设置降雨事件权重进行形态聚类。

S31：确定权重。

假设4种降雨情景在本次监测目的中按降雨重现期占不同重要性，即a₁＝a₂＝0.35,a₃＝0.2,a₄＝0.1。

S32：计算加权形态相似度矩阵。

利用Python 3计算环境中编写的算法计算时滞互相关系数，并构造相似度矩阵。

S33：设置阈值层次聚类。

设定阈值δ₁＝0.4为强相关性，利用编写的层次聚类算法进行形态相似度聚类，形态聚类结果如图6所示。

步骤S4：幅度聚类并评估聚类结果。

S41：计算加权幅度相似度矩阵。

利用Python 3计算环境中编写的算法计算DTW距离，并构造相似度矩阵。

S42：设置阈值层次聚类。

设定阈值δ₂＝0.19(d＝0.01m³/s)，利用编写的层次聚类算法进行幅度相似度聚类，形态聚类结果如图7-10所示。

S43：聚类效果评估。

在本实施例中，在双层迭代聚类后得到10个聚类，轮廓系数为0.929。

步骤S5：调整阈值输出优化布置方案。

S51：调整形态和幅度相似度阈值重复双层聚类。

在本实施例中，不同相似度阈值下(δ₁＝0.1-0.6，d＝0.005-0.04m³/s)的聚类结果以及聚类效果如图11所示。

步骤S6：选取同类中最具代表性点位作为监测点。

S61：选出代表性节点。

从10个聚类簇中分别选出与簇中各点平均距离最小的节点作为代表性节点进行监测，如图12所示。

S62：根据现场条件等确定最终方案。

本发明的监测点优化布置方法可以减少对人为判断的依赖，使城市排水管网管理和排水工程的监测点选择更加科学简洁。在一定经济成本投入的约束下，可以快速确定有限数量的最优监测方案。当然，随着项目实施的推进，监测方案将需要在一定程度上进行优化和调整。

本发明未尽事宜为公知技术。

以上所述，仅用于帮助理解本发明的方法及其核心要义，但本发明的保护范围并不局限于此，对于本技术领域的一般技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于双层相似度聚类的排水管网监测点优化布置方法，其特征在于，包括如下步骤：

得到形态相似聚类结果，具体步骤如下：

S31、根据监测目的，确定各降雨事件的权重值；

时滞互相关系数的的计算公式如下：

其中，r_i是特定降雨事件下点位时间序列之间的时滞互相关系数，a_i是该降雨事件的权重值；

S33、根据监测条件确定形态相似度阈值，利用层次聚类算法得到形态相似聚类结果；

2.根据权利要求1所述的基于双层相似度聚类的排水管网监测点优化布置方法，其特征在于，所述S2中模拟相应降雨情景，具体如下：

3.根据权利要求2所述的基于双层相似度聚类的排水管网监测点优化布置方法，其特征在于，所述S2中监测指标根据监测目的进行选取，监测指标为液位、流量、流速或水质指标。

4.根据权利要求1所述的基于双层相似度聚类的排水管网监测点优化布置方法，其特征在于，所述S31中各降雨事件下监测指标的时间序列数据包括：现场监测和排水管网模型模拟得到的不同工况的降雨事件下各点位监测指标对应的时间序列数据。

5.根据权利要求4所述的基于双层相似度聚类的排水管网监测点优化布置方法，其特征在于，所述S4中得到最终聚类结果，具体步骤如下：

S43、利用聚类效果评估指标对双层相似度聚类后的聚类结果进行评估，为最终监测点优化聚类的确定提供依据；聚类效果评估指标为轮廓系数。

6.根据权利要求5所述的基于双层相似度聚类的排水管网监测点优化布置方法，其特征在于，所述S41中DTW距离算法分为两步：

d(x_i,y_j)＝(x_i-y_j)²

7.根据权利要求6所述的基于双层相似度聚类的排水管网监测点优化布置方法，其特征在于，利用层次聚类算法进行聚类，具体如下：

计算每两个节点之间的距离；将距离最近的两个节点聚为一类，将其看作一个整体计算与其它节点或类之间的距离；一直重复上述过程，直至所有的节点被聚为一类。

8.根据权利要求7所述的基于双层相似度聚类的排水管网监测点优化布置方法，其特征在于，所述步骤S5得到不同相似度阈值下的最优聚类结果，具体如下：