CN115759785A

CN115759785A - 一种基于k-means均值聚类的DMA小区漏损评价方法

Info

Publication number: CN115759785A
Application number: CN202211578330.XA
Authority: CN
Inventors: 周韧; 高云; 王兴双; 周柯; 徐光东; 花秀霞; 陈春芳
Original assignee: Changzhou Tongyong Water Supply Co ltd
Current assignee: Changzhou Tongyong Water Supply Co ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-07

Abstract

本发明公开了一种基于k‑means均值聚类的DMA小区漏损评价方法，步骤包括：统计所有DMA小区某时期夜间最小流量；选出需评价漏损情况的DMA小区；选择聚类变量：7天平均夜间最小流量、7天平均夜间最小流量/日均流量、单位管长夜间最小流量；数据标准化；根据漏损评价等级确定合理的聚类数目k；采用K‑means均值聚类算法进行聚类分析；根据聚类结果评价不同DMA小区漏损情况并确定处理漏损的优先级。

Description

一种基于k-means均值聚类的DMA小区漏损评价方法

技术领域

本发明涉及DMA分区管理技术领域，特别是一种基于k-means均值聚类的DMA小区漏损评价方法。

背景技术

目前，国家对公共管网的漏损率要求不断提高，现有技术中，DMA分区管理是常用的手段,DMA为供配水系统中一个被切割分离的独立区域，通常采取关闭阀门或安装流量计，形成虚拟或实际独立区域[张志明.供水管网漏损控制分区装表计量技术和应用[D].上海：同济大学，2006]。所以，各地水司纷纷建立各级DMA分区，在DMA入口端加装流量计及远传装置进行实时监控，由此建立的leakview漏损管理平台得到许多水司的采用[王瑞彬，陈峰，张蕊等.DMA管理在济南市供水漏损控制中的应用[J].净水技术，2019，38(2)：1-6.；周晨.LeakView平台在徐州首创管网漏损控制中的实践与应用.城镇供水,2017,37(03):33-39]，众多DMA小区因此产生。一个城市往往建立了几百个DMA小区，每天产生大量的各类数据，那么如何深入挖掘这些数据，如何利用这些数据评价如此众多小区的漏损情况，对漏损小区进行聚类分级处理，是一个值得探讨的问题。

MNF法即夜间最小流量法是常用的分析评价方法，但是仅仅用这一指标评价DMA小区漏损情况显得比较片面，因为MNF还和DMA小区用水量和管线长度有关

发明内容

针对现有技术中存在的问题，本发明提供了一种基于k-means均值聚类的DMA小区漏损评价方法，采用MNF(夜间最小流量)、夜间最小流量/日均流量、单位管长夜间流量三个变量指标，用K-means均值聚类法对DMA小区漏损进行聚类分级评价。

本发明的目的通过以下技术方案实现。

一种基于k-means均值聚类的DMA小区漏损评价方法，步骤包括：

1)统计所有DMA小区某时期夜间最小流量；

2)选出需评价漏损情况的DMA小区；

3)选择聚类变量：7天平均夜间最小流量、7天平均夜间最小流量/日均流量、单位管长夜间最小流量；

4)数据标准化；

5)根据漏损评价等级确定合理的聚类数目k；

6)采用K-means均值聚类算法进行聚类分析；

7)根据聚类结果评价不同DMA小区漏损情况并确定处理漏损的优先级。

步骤3)具体为：设有n个DMA小区：D1、D2…Dn，统计n个DMA小区7天平均MNF夜间最小流量、7天平均夜间最小流量/日均流量、单位管长夜间最小流量，分别记为Ave7_MNF,Ave7_RMNF，UNPI_MNF，在n个DMA小区中，令ap1＝Ave7_MNF,ap2＝

Ave7_RMNF,ap3＝UNPI_MNF。p＝1…n，则n个DMA小区数据集可以表示为：

D1(a11，a12，a13)，

D2(a21，a22，a23)，

………

Dn(an1，an2，an3)。

步骤4)采用Z-score法对数据标准化。

步骤6)应用k-means算法进行聚类分析：

a)指定聚类数目k；

b)确定k个类的初始中心点；

c)根据距离最近原则进行分类：依次计算每个数据点到k类中心点的平方欧式距离，

平方欧式距离定义如下：两个体(x,y)的平方欧式距离是2个体p个变量值之差的平方和，数学定义如下：

其中：SED(x,y)为两个体(x,y)的平方欧式距离

xi为个体x中第i个变量值，i＝1…p

yi为个体y中第i个变量值，i＝1…p

依次计算出每个数据点到k个类中心点的平方欧式距离，并按照与k个类中心点距离最短的原则将所有数据点分派到k个类中；

d)重新确定k个类中心点：

重新确定k个类中心点的原则是：依次计算各类中各变量的均值，并以均值点作为各类的新的中心点，完成一次迭代；

e)判断是否满足聚类终止的条件：

是通过类中心点的偏移程度来判断，当新确定的类中心点距离上次迭代的类中心点距离小于0.02的时候，聚类终止，否则，返回到步骤c)。

步骤7)将n个DMA小区分成k类，并且可以得到最终的k类中心点，比较k类中心点各变量值的大小，k类中心点中各变量值最大的一类即为漏损程度最高类，其次为漏损程度次高类，以此类推。漏损处理优先级也是按照这个顺序。

相比于现有技术，本发明的优点在于：本发明利用MNF(夜间最小流量)、夜间最小流量/日均流量、单位管长夜间流量三个变量指标，采用k-means均值聚类法对DMA小区进行聚类漏损分析评价，并且确定DMA小区漏损处理的优先级。

附图说明

图1为本发明流程图。

具体实施方式

下面结合说明书附图和具体的实施例，对本发明作详细描述。

如图1所示，一种基于k-means均值聚类的DMA小区漏损评价方法，步骤包括：

1)统计所有DMA小区某时期夜间最小流量；

2)选出需评价漏损情况的DMA小区；

4)数据标准化；

5)根据漏损评价等级确定合理的聚类数目k；

6)采用K-means均值聚类算法进行聚类分析；

D1(a11，a12，a13)，

D2(a21，a22，a23)，

………

Dn(an1，an2，an3)。

目前我司共管理321个DMA小区，根据leakview漏损管理系统2022.9.1日的数据，绝大部分MNF都低于5(m3·h-1)，根据我司经验，这部分小区漏损可能性不是很大，所以取超过5(m3·h-1)的13个小区(见表1)。采用K-means聚类分析的方法把这13个小区作为研究对象分析评价这些DMA小区的漏损情况，根据聚类结果确立漏损处理的优先级。聚类变量的选择非常重要，所选取的变量要能够对目标分析产生作用，我们分析的目标主要是对DMA小区漏损情况进行分析评价，因此，选择MNF(夜间最小流量)，夜间最小流量/日均流量，单位管长夜间流量3个变量指标，这3个都是漏损评价常用指标。为了避免异常值的干扰，取7天平均MNF(夜间最小流量)、7天平均(夜间最小流量/日均流量)、单位管长夜间最小流量(MNF/小区管线总长度)。分别记为Ave7_MNF,Ave7_RMNF，Unpi_MNF如表1所示。

表1 13个小区变量指标表

上述3个变量存在量纲上的差异，需进行标准化处理后方可聚类分析。在这里采用Z-score法(标准差法)，其是基于原始数据的均值和标准差进行数据的标准化的一种方法，转换后数据均值为0，标准差为1，如表2所示。

表2 13个小区变量标准化表

关于聚类数目k是比较重要的问题，考虑聚类目的和所选个体不是很多，所以将聚类的数目k＝3。分别定义为漏损情况严重、中等、一般。

采用SPSS软件进行K-means聚类，聚类数目k＝3，初始类中心点软件系统自定。结果如表3所示，然后根据分类结果，对每类数据进行描述性统计如表4所示。

表3聚类结果

表4每类的数学统计

由上述聚类结果可知，第一类有3个小区，是三个群类里面小区数最少的，但3个变量指标的均值都很高，在三类里面都是最高，这说明了这3个小区漏损严重，应该优先处理。其中滨江明珠城东区和怡康花园3个变量指标都很高，但中意宝第相对于这一类其他小区，Ave7_MNF较低而Unpi_MNF较高，这说明该小区单位管长的夜间最小流量偏高，漏损严重，同时由于管长在13个小区里面是最低的(见表1)，这说明该小区易于查找漏点。

第二类有6个小区，是三个群类里面小区数最多的，3个变量指标中Ave7_MNF、Unpi_MNF均值在三类中处在中等程度，而Ave7_RMNF均值0.29却比较高，略低于第一类该变量的最高均值0.3，这说明该类小区夜间最小流量与日均用水量的比值偏高，存在漏损的可能性比较大。总体而言，该类小区的漏损情况为中等，处理的优先级应该是第二。

第三类有4个小区，3个变量指标的均值都不高，在三类里面都是最低的。3个变量指标中Ave7_MNF均值相对于其他类来说，差距不是特别大，尤其是和第二类接近，但其他2个变量Ave7_RMNF和Unpi_MNF却和其他2类差距较大。这说明该类小区，存在合理的夜间最小流量的可能性比较大。所以，该类小区的漏损程度为一般，处理的优先级应该是最后。

综上所述，对于上述3类DMA小区的漏损情况评价为，第一类>第二类>第三类，处理的优先级也按照这个顺序。从上面的分析可以看出DMA小区的漏损评价，应该综合Ave7_MNF,Ave7_RMNF，Unpi_MNF三个变量综合考虑，而不是以夜间最小流量单一评价，因为每个DMA小区的夜间最小流量、用水规模和管线长度都不一样，夜间最小流量与日均用水量相关，日均用水量越高，说明了该小区用户数量大，夜间最小流量也相应增加，夜间最小流量还与管线长度有关，管线长度越长说明连接的用户数越多，夜间最小流量也会相应增加。

本发明应用K-means均值聚类法对常州市13个DMA小区进行了聚类分析，根据聚类结果对DMA小区漏损程度进行了评价，同时确定DMA小区漏损处理的优先级别。结果显示，k-means均值聚类法在DMA小区漏损分析评价中适用，可以根据相似性把13个DMA小区分成3类；根据聚类结果分析，对13个DMA小区的漏损情况进行评价，第一类>第二类>第三类，处理漏损的优先级也是这个顺序。

Claims

1.一种基于k-means均值聚类的DMA小区漏损评价方法，其特征在于步骤包括：

1)统计所有DMA小区某时期夜间最小流量；

2)选出需评价漏损情况的DMA小区；

4)数据标准化；

5)根据漏损评价等级确定合理的聚类数目k；

6)采用K-means均值聚类算法进行聚类分析；

2.根据权利要求1所述的一种基于k-means均值聚类的DMA小区漏损评价方法，其特征在于步骤3)具体为：设有n个DMA小区：D1、D2…Dn，统计n个DMA小区7天平均MNF夜间最小流量、7天平均夜间最小流量/日均流量、单位管长夜间最小流量，分别记为Ave7_MNF,Ave7_RMNF，Unpi_MNF，在n个DMA小区中，令ap1＝Ave7_MNF,ap2＝Ave7_RMNF,ap3＝Unpi_MNF。p＝1…n，则n个DMA小区数据集可以表示为：

D1(a11，a12，a13)，

D2(a21，a22，a23)，

………

Dn(an1，an2，an3)。

3.根据权利要求1所述的一种基于k-means均值聚类的DMA小区漏损评价方法，其特征在于步骤4)采用Z-score法对数据标准化。

4.根据权利要求1所述的一种基于k-means均值聚类的DMA小区漏损评价方法，其特征在于步骤6)应用k-means算法进行聚类分析：

a)指定聚类数目K；

b)确定k个类的初始中心点；

其中：SED(x,y)为两个体(x,y)的平方欧式距离

xi为个体x中第i个变量值，i＝1…p

yi为个体y中第i个变量值，i＝1…p

d)重新确定k个类中心点：

e)判断是否满足聚类终止的条件：

5.根据权利要求4所述的一种基于k-means均值聚类的DMA小区漏损评价方法，其特征在于步骤7)将n个DMA小区分成k类，并且可以得到最终的k类中心点，比较k类中心点各变量值的大小，k类中心点中各变量值最大的一类即为漏损程度最高类，其次为漏损程度次高类，以此类推，漏损处理优先级也是按照这个顺序。