CN109190783B - 城市水网渗漏空间聚集性检测及关键影响因素识别方法 - Google Patents

城市水网渗漏空间聚集性检测及关键影响因素识别方法 Download PDF

Info

Publication number
CN109190783B
CN109190783B CN201810712187.6A CN201810712187A CN109190783B CN 109190783 B CN109190783 B CN 109190783B CN 201810712187 A CN201810712187 A CN 201810712187A CN 109190783 B CN109190783 B CN 109190783B
Authority
CN
China
Prior art keywords
aggregation
area
leakage
leakage space
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810712187.6A
Other languages
English (en)
Other versions
CN109190783A (zh
Inventor
双晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201810712187.6A priority Critical patent/CN109190783B/zh
Publication of CN109190783A publication Critical patent/CN109190783A/zh
Application granted granted Critical
Publication of CN109190783B publication Critical patent/CN109190783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种城市水网渗漏空间聚集性检测及关键影响因素识别方法,本发明包括:步骤1:加载城市水网渗漏的基本数据信息;步骤2:计算城市水网空间聚集性;该步骤包括以下子步骤:子步骤1):确定扫描方式,即如何定义扫描窗口的位置和大小;子步骤2):计算统计量;子步骤3):显著性分析;子步骤4):聚类分析;步骤3:计算城市水网空间聚集性的可靠性分值;步骤4:分析城市水网空间聚集性的演化;步骤5:建立基于概率神经网络的城市水网空间聚集性影响因素预测模型;该步骤包括以下子步骤:子步骤1):因变量选取;子步骤2):因素选取;子步骤3):概率神经网络建模;步骤6:筛选关键影响因素。

Description

城市水网渗漏空间聚集性检测及关键影响因素识别方法
技术领域
本发明涉及一种城市水网渗漏空间聚集性检测及关键影响因素识别的方法,本发明主要用于城市水网渗漏问题的空间评估中。
背景技术
城市供水管网是城市关键基础设施之一,其稳定性有助于保证当地居民的生活质量和机构、工业的正常运转。然而,城市供水管网老龄化问题正在造成极大的困扰,导致大量水资源浪费、间接经济损失并降低了居民生活质量。
为解决渗漏造成的问题,有必要从水网渗漏的空间聚集性角度进行分析,识别发现渗漏在空间上的高聚集区和低聚集区。以辅助管理者结合聚集情况替换管段。
空间聚类分析是通过计算点间的距离,对位置相近的点进行聚类,最终把所有的点分成若干类,使类内的差异最小、类间差异最大。在空间聚类分析方面,扫描统计方法比其它方法有更强的热点探测能力。
扫描统计是通过位置和大小变化的窗口沿着时间轴或空间轴对数据进行扫描,获得每个窗口内的事件数,根据窗口内与窗口外区域之间的事件发生率差异分析最有可能存在聚集的区域,并检验聚集有无统计学意义。与其他聚类分析方法相比,扫描统计方法具有如下特点:
·既可以空间扫描,也可以时间扫描同时扫描。
·不需要事先确定集聚的规模,通过动态改变窗口的大小来探测集聚的范围。
在分析得到城市水网渗漏聚集性后,进一步识别影响渗漏空间聚集性的因素。医学和犯罪学的空间聚类研究结果显示,疾病和犯罪的聚集区与人口因素、社会因素有关联。居民用水量和城市空间结构及社会经济因素相关。常用的建筑结构变量有平均住房面积、建筑密度、建筑年龄、卧室数量、空置率和室内节水设施等;常用的社会经济因素有失业率、每户收入中位数、户主率、老年人、人种等。
此外,水管渗漏还与环境和气候因素有关。常用的环境和气候因素包括降雨、温度和干旱环境等。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种城市水网渗漏空间聚集性检测和关键影响因素识别方法。该方法利用扫描统计技术,采用泊松分布模型判断地区是否属于空间聚集区。对空间统计扫描数据进行聚类可靠性分析。利用概率神经网络建立渗漏聚集性预测模型。识别影响城市水网空间渗漏聚集性的关键因素。
为达到以上目的,本发明采取的技术方案是:
一种城市水网渗漏空间聚集性检测及关键影响因素识别方法。提出了利用扫描统计技术分析城市水网空间聚集性。采用泊松分布模型判断区域的聚集性。采用大量蒙特卡罗模拟计算最大对数似然比,选择显著性小于等于5%的集群被识别渗漏聚集区。对空间统计扫描数据进行进一步的聚类可靠性分析。分析渗漏聚集区的演变情况。利用概率神经网络建立渗漏聚集区预测模型。因变量为渗漏非聚类地区和渗漏聚类地区两类。因素集为建筑结构因素、社会经济因素和环境因素。采用随机抽样的方式划分样本,以80%的容量从每组(渗漏非聚类地区和渗漏聚类地区)中随机抽取样本进行模型训练,剩余20%样本用于模型检测。筛选出影响模型预测效果的关键因素。
步骤1:加载城市水网渗漏的基本数据信息
收集城市历年渗漏数据,收集城市GIS地图数据,建立城市建筑结构因素、社会经济因素和环境因素数据库。
步骤2:计算城市水网空间聚集性
子步骤1):确定扫描方式,即如何定义扫描窗口的位置和大小;
设定扫描窗口为圆形窗口。该圆形窗口沿着地图进行扫描,检测具有不同定位点的地区。圆形窗口的中心点为扫描地区的图心,窗口的半径根据该中心点与相邻点的距离来确定。所述图心为扫描地区中所有点的算术平均值的位置,所述相邻点指其他人口普查块组的图心。
子步骤2):计算统计量
利用似然函数计算每个圆形窗口的统计量。似然函数值通过对比圆形窗口范围内风险值和圆形窗口范围外风险值来反映该圆形窗口为渗漏空间集聚区的可能性,似然函数值最大的圆形窗口表示最有可能是渗漏空间集聚区。
利用泊松分布模型计算一个区域属于渗漏空间集聚区的概率,似然函数的计算公式为:
Figure GDA0003153235370000031
式中,c为圆形窗口内的事例数,C为研究区域总的事例数,C-c为圆形窗口外的事例数,μ为基于无效假设的圆形窗口内预期事例数。假设渗漏事例为随机分布。
子步骤3):渗漏空间聚集区显著性分析
进一步分析所计算得到的渗漏空间聚集区属于非随机的置信度。多次采用蒙特卡罗方法生成每个空间数据集。该方法根据总的事例数产生一系列随机分布数据集,计算每个数据集的最大对数似然比。通过比较真实数据集和随机数据集的最大似然比分析渗漏空间聚集区属于非随机的置信度。将真实数据集和随机分布数据集的最大似然比由大到小排序,若真实数据集的最大似然比排在第R位,则渗漏空间聚集区显著性p=R/(N+1),N为蒙特卡罗方法模拟次数。真实数据集的排序越靠前,计算的渗漏空间聚集区显著性数值越小,表明该渗漏空间聚集区为随机的概率越小,设定蒙特卡罗方法模拟次数,选择显著性p≤0.05的地区为渗漏空间聚集区,其中,所述真实数据集是根据渗漏实际发生的记录得到的。
子步骤4):聚类分析
设定圆形窗口最大扫描范围,逐年利用扫描统计技术分析地区的渗漏空间聚集性,将地区的渗漏空间聚集性划分为高渗漏空间聚集区和低渗漏空间聚集区;其中,高渗漏空间聚集区表示该地区发生渗漏的频率高,低渗漏空间聚集区表示该地区发生渗漏的频率低。
步骤3:计算城市水网空间聚集性的可靠性分值
为降低圆形扫描窗口范围的敏感性并获取稳定的渗漏空间聚集区,计算地区的渗漏空间聚集性的可靠性分值,对每一年的渗漏数据根据扫描窗口范围的变化进行多次聚类分析;设定圆形扫描窗口的变化范围为从最大扫描窗口,每次迭代降低1%,逐次下降至最小扫描窗口内,记录所执行的扫描次数;
根据迭代计算结果,能够计算地区的渗漏空间聚集性的可靠性分值,可靠性分值的计算公式为
Ri=Ci/S (2)
其中Ri为地区i的可靠分值,Ci为每次迭代中该地区属于渗漏空间聚集区的次数,S为迭代计算次数,可靠分值取值在0和1之间,0表示该地区未被识别为统计显著聚集区;1表示在每一次迭代中,该地区均被识别为统计显著聚集区。
步骤4:分析城市水网空间聚集性的演化
在进行逐年渗漏空间聚集性分析的基础上,针对每年的分析结果进行了渗漏聚集区演化分析,将渗漏聚集区的类型划分为持续聚集区、新增聚集区、消失聚集区、偶发聚集区和间歇聚集区。
·持续聚集区是指在研究周期内,一直处于聚集区状态。
·新增聚集区是指以前未形成聚集区,随着时间的推移,新增加的聚集区。
·消失聚集区是指最开始是聚集区状态,但随时间推移而消失的聚集区。
·偶发聚集区是指只存在一年的聚集区。
·间歇聚集区是指出现后消失,间隔1到2年又重新出现的聚集区。
步骤5:建立基于概率神经网络的城市水网空间聚集性影响因素预测模型
利用概率神经网络建立预测模型识别城市水网渗漏空间聚集性的影响因素
子步骤1):因变量选取
以地区的渗漏空间聚集性分析结果作为因变量,渗漏空间聚集性分析结果有两种情况:高渗漏聚集性和低渗漏聚集性;其中高渗漏聚集性取值越大,越趋近于1,表示该地区是高渗漏聚集区的稳定性越高,低渗漏聚集性取值越大,越趋近于1,表示该地区是低渗漏聚集区的稳定性越高,为预测地区的渗漏空间聚集性,将高渗漏空间聚集区和高渗漏空间聚集区合并,渗漏空间聚集性的分析结果分为0和1两类,0表示非空间聚类地区:高渗漏空间聚集区和高渗漏空间聚集区的可靠性分值均取值为0的地区;1表示空间聚类地区:高渗漏空间聚集区和高渗漏空间聚集区的可靠性分值均取值大于0的地区。
子步骤2):因素集选取
建立包含建筑结构因素、社会经济因素和环境因素的因素集;
·建筑结构因素:区块面积、平均住房面积、建筑年龄占比、房屋空置率占比。
·社会经济因素:人口密度、年龄占比、人种占比、未雇用率占比、住户收入中位数、租客占比、低出生率。
·环境因素:气候带、日均最高气温、降雨量、社区环境指数2.0、臭氧占比、PM2.5占比、饮用水占比、交通占比、地下水威胁占比、受污染水体占比、固体废弃物占比。
子步骤3):概率神经网络建模
概率神经网络是一种前馈型神经网络,由Specht在1990年提出,采用Parzen提出的由高斯函数为基函数来形成联合概率密度分布的估计方法和贝叶斯优化规则,构造了一种概率法密度分类估计和并行处理的神经网络。因此,概率神经网络即具有一般神经网络所具有的特点,又具有很好的泛化学习能力及快速学习能力。概率神经网络已经在模式识别和模式分类领域取得了广泛的应用。
概率神经网络由输入层、隐含层及输出层组成。概率神经网络的优势在于用线性学习算法来完成以往非线性学习算法所做的工作,同时又能保持非线性算法的高精度特性。其网络对应的权值就是模式样本的分布,避免人工赋权存在的主观性。
根据步骤3计算得到的渗漏空间聚集性的可靠性分值结果,将样本分成两部分,一部分为训练集样本用于对模型的训练,另一部分为测试集样本用于对模型的检验,采用随机抽样的方式划分样本,以80%的容量从每组(非聚类地区和聚类地区)中随机抽取样本,为分析因素多种组合形式对模型准确度的影响,每次进入一个因素,并与剩余因素量逐一组合并预测测试集样本的准确性,通过迭代求得每种因素组合结果。
算法流程如下:
读取因变量和因素集
随机选取训练集样本和测试集样本
for i=1→所有因素
for j=i→所有因素
分别建立训练样本和测试样本数据集
建立基于概率神经网络的城市水网空间聚集性影响因素预测模型
测试基于概率神经网络的城市水网空间聚集性影响因素预测模型
记录基于概率神经网络的城市水网空间聚集性影响因素预测模型结果
end for
end for
计算基于概率神经网络的城市水网空间聚集性影响因素预测模型预测准确性;将预测模型结果和测试模型进行对比,预测准确性为预测模型结果与测试模型相匹配的百分比。
步骤6:筛选关键影响因素
在获得模型预测准确性基础上,为识别影响模型准确性的关键影响因素,对因素进行筛选,固定随机选择的训练集样本和测试集样本,逐一剔除因素集中的一个因素,通过迭代分析观察变动对模型准确性的影响,若剔除某因素后,造成模型准确性大幅度下降,则该因素为影响模型预测准确性的关键影响因素,根据每次剔除因素后的预测结果,对因素重要性进行排序,得到影响模型准确性的关键因素。
具体建模流程为固定所选择的训练样本和测试样本。每次删除一个因素,执行算法流程,记录测试集准确性。依次迭代直到完成每个因素的筛选分析。得到因素敏感性分析排序,识别对模型预测准确性有显著影响的因素。
有益效果:
本发明的城市水网渗漏空间聚集性检测及关键影响因素识别方法,基于城市水网渗漏情况提出了一个带有空间聚集性检测和关键影响因素的识别模型,与已有模型的区别在于:(1)考虑了渗漏的空间聚集性分析;(2)利用空间聚集性可靠性分值评价稳定程度,降低了窗口范围的敏感性并获取稳定的渗漏集聚区;(3)给出了城市水网渗漏空间聚集区的类型,并能够分析历年渗漏空间聚集性的演变情况;(4)建立基于概率神经网络的城市水网渗漏空间聚集性预测模型,模型能够有效预测渗漏的空间聚集性;(5)提出因素筛选方法,大量减少了模型因素,仅用少量因素即可达到相同的预测准确性。
本发明在城市水网渗漏实际数据的基础上,结合地理信息系统分析城市水网渗漏的空间聚集性。提出了空间聚集性可靠性分值评价方法,使结果更加稳定可靠。所建立的城市水网渗漏空间聚集性神经网络模型预测准确性较高,通过筛选方法能够有效筛选出对模型有影响的关键因素。
附图说明
本发明有如下附图:
图1本发明提出的一种带有应急恢复机制的城市供水管网级联鲁棒性测算方法的流程图。
图2 2010-2013年有空间聚集性的人口普查块组百分比示意图。
图3高渗漏发生空间聚集区示意图,其中,(a)2010年洛杉矶市高渗漏空间聚集区,(b)2011年洛杉矶市高渗漏空间聚集区,(c)2012年洛杉矶市高渗漏空间聚集区,(d)2013年洛杉矶市高渗漏空间聚集区。
图4低渗漏发生空间聚集区示意图,其中,(a)2010年洛杉矶市低渗漏空间聚集区,(b)2011年洛杉矶市低渗漏空间聚集区,(c)2012年洛杉矶市低渗漏空间聚集区,(d)2013年洛杉矶市低渗漏空间聚集区。
图5关键因素组合预测模型结果示意图。
具体实施方式
以下结合附图1-5对本发明作进一步详细说明。
一种城市水网渗漏空间聚集性检测及关键影响因素识别方法,包括如下步骤:
步骤1:加载城市水网渗漏的参考案例数据
研究范围是洛杉矶市。洛杉矶市位于洛杉矶县中南部,具有人口数989万。洛杉矶市可以划分为1003个人口普查区。更细致的,洛杉矶市可以划分为2504个人口普查块组,人口普查块组是人口普查区块的统计划分,每个人口普查区块至少包含一个人口普查组。每个组大约定义有600到3000居民。人口普查块组是由美国人口普查局收集、制表并展示的。本具体实施例选用人口普查块组作为测量地理单位,是由于人口普查块组所对应的社会数据是所能获取的最小单位。社会数据来自于Social Explorer网站,该网站整理了美国人口普查局的相关数据。
洛杉矶市渗漏数据是由LA Times网站公布的,该网站公布了2010年1月1日至2014年11月30日发生渗漏的数据。每条数据包含了每个渗漏事件的地址、地理坐标、渗漏时间(年、月、日)、管龄、渗漏类型和维修时间。其中地址、地理坐标和渗漏时间为完整数据,管龄、渗漏类型和维修时间上均存在数据缺失问题,其中,管龄、渗漏类型和维修时间分别存在8.9%、15.1%和23.3%的数据缺失率。由于无法获取2014年12月渗漏数据,本发明所研究的洛杉矶市渗漏数据时间跨度限定为2010年1月1日到2013年12月31日,共存在4714条渗漏记录。
洛杉矶市渗漏数据中给出了渗漏点所处的地址,但并未给出渗漏影响范围或渗漏影响人群数据。因此以渗漏点所在房屋地址为实验组,以该地址所在人口普查块组所包含的房屋总量为对照组,分析洛杉矶市高渗漏区和低渗漏区。利用Social Explorer获取2010-2013年人口普查中每个人口普查块组所含房屋数量。
洛杉矶市地理信息系统数据库提供了给公共使用的洛杉矶市地理信息系统数据资源。将渗漏记录导入ArcGIS,并显示渗漏点位置。利用ArcGIS关联工具统计每年每个人口普查区块所发生的渗漏次数。利用ArcGIS的几何计算功能计算每个人口普查区块图心的地理坐标。
步骤2:计算城市水网空间聚集性
执行扫描统计SatScan聚类分析,从最小扫描窗口范围1%依次分析至最大扫描窗口范围25%。选择显著性significant为P≤0.05,即显著性小于等于0.05的地区为渗漏空间聚集区。
步骤3:计算城市水网空间聚集性的可靠性分值
计算每年每个人口普查块组的可靠性分值。可靠性分值R取值在0和1之间,按照聚类和非聚类,将其划分为两类:I类(R=0),表示该地区在空间上没有渗漏聚集性;II类(0<R≤1),表示该地区在空间上有渗漏聚集性。4年有空间聚集性区块量百分比如图2所示。2012年渗漏聚集区数量明显高于其他年。
步骤4:分析城市水网空间聚集性的演化
对2010到2013年的可靠分值依次分区并利用ArcGIS绘图。图3(a)-(d)用圆圈分别显示了2010到2013年高渗漏聚集区;图4(a)-(d)用圆圈分别显示了2010到2013年低渗漏聚集区。对存在时间超过2年的热点,分析其随时间演变趋势。表3给出了各集聚区的演变情况。除表1所示热点外,其余热点只在当年出现,属于偶发热点。
表1.聚集区随时间演变情况
Figure GDA0003153235370000101
高渗漏聚集区A和B属于持久热点,意味着四年里A和B两个区域均属于渗漏高发区,应重点关注。高渗漏聚集区C在2010和2011年存在,但在2012和2013年不再作为聚集区,属于消失热点。高渗漏聚集区D在2010和2011年不存在,在2012年新增,2013年面积扩大,属于新增热点,同样应受到政府和水务部门的关注。E和F出现隔年呈现的现象。
低渗漏聚集区G、H和I属于持久热点,意味着四年里G、H和I三个区域均属于渗漏低发区,说明该地区常年有渗漏发生,但渗漏点发生频率低。J和K在2013年均不存在,属于消失热点。L在2010年不存在,在2011、2012和2012年新增,属于新增热点。
步骤5:建立基于概率神经网络的城市水网空间聚集性影响因素预测模型
根据空间聚集性可靠性分值对因变量进行分类。将其分为两类。0表示非空间聚类地区;1表示空间聚类地区。
整理因素数据集合,因素数据来自建筑结构数据、社会经济数据和环境数据。气候带数据来自于水务局、日均最高气温和降雨量数据来自城市附近气象站,数据涵盖每个气象站每月所收集的气温和降雨量数据。对气象站数据进行Kiriging插值,并计算每个人口普查区块日均最高气温和降雨量。
社区环境指数2.0、臭氧占比、PM2.5占比、饮用水占比、交通占比、地下水威胁占比、受污染水体占比、固体废弃物占比数据来自于CalEnviroScreen。CalEnviroScreen是用来识别受污染影响社区及评价人们对污染的脆弱性的地图工具。
在梳理并得到建筑结构因素、社会经济因素和环境因素后,对数据进行进一步整理。其中,由于占比数据能够反映当前地区相对于其地区总量的特征,占比数据不进行归一化处理。为消除量纲对数据的影响,对非占比数据进行归一化处理。归一化处理的方式为利用Matlab中的mapminmax函数实现归一化,将因素矩阵处理到[-1,1]区间内。其中1表示该因素在洛杉矶市人口普查块组层级上取值最大,-1表示取值最小。
随机选择80%样本数据为训练集,20%样本数据为测试集。按算法流程执行。模型预测准确性为86.12%。
步骤6:筛选关键影响因素
固定训练集样本和测试集样本,执行敏感性分析。所得到的敏感性分析排序如表2所示。
表2聚类预测模型敏感性分析结果
Figure GDA0003153235370000121
敏感性分析结果取值越低,表示删除该因素对预测模型准确性的影响越大。因此,预测模型关键因素按重要度由高到低排序为日均最高气温(79.71%)、降雨量(79.71%)、CES 2.0得分(82.16%)、低出生率(82.36%)、和气候带(82.57%)这5个因素。其中,日均最高气温、降雨量、CES 2.0Score和气候带为气候类变量,低出生率为社会经济变量。
将5个因素带入模型重新执行算法,得到单一因素和组合因素的准确性(图5为模型预测结果)。其中,模型1为以气候带为单一因素,模型6为以日均最高气温为单一因素,模型10为以降水量为单一因素,模型13为以CES 2.0得分为单一因素,模型15为以低出生率为单一因素。其他模型为组合输入。输入格式如表3所示。
表3.15个模型对应的输入变量
Figure GDA0003153235370000122
由图5可见,将5个因素同时引入模型所得到的组合模型准确性最高,达到86.12%。用5个因素可达到28个因素的预测准确性。因此,所筛选出来的5个因素为对预测模型有重要影响的因素。其次,图5显示了仅引入单一因素对预测模型的准确性影响程度为:日均最高气温(67.43%)、气候带(66.58%)、降雨量(63.73%)、CES 2.0得分(62.02%)、低出生率(61.62%)。
表4显示了考虑5个因素的组合预测模型在训练集和测试集的错判和分类能力。通过对训练集和测试集的判别错误率对比,可以发现组合模型在聚类样本上准确性较高。非聚类样本错误率高于聚类样本错误率。反映出模型对非聚类地区的分类能力要低于聚类地区的分类能力。出现这种情况可能是由于聚类地区存在更多的相同特征和信息,较非聚类地区而言样本分离化更加明显。
表4组合预测模型在训练集和测试集的错判和分类能力
Figure GDA0003153235370000131
至此,城市水网空间聚集性检查及关键影响因素识别测算完成。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (4)

1.一种城市水网渗漏空间聚集性检测及关键影响因素识别方法,其特征在于,包括以下步骤:
步骤1:加载城市水网渗漏的基本数据信息
收集城市历年的渗漏数据,收集城市地理信息系统地图数据,建立城市建筑结构因素、社会经济因素和环境因素数据库;
步骤2:计算城市水网渗漏空间聚集性
步骤21):确定扫描方式
设定扫描窗口为圆形窗口,圆形窗口沿着地图进行扫描,检测具有不同定位点的地区,圆形窗口的中心点为扫描地区的图心,圆形窗口的半径根据中心点与相邻点的距离来确定;
步骤22):计算统计量
利用似然函数计算每个圆形窗口的统计量,通过似然函数值对比圆形窗口范围内风险值和圆形窗口范围外风险值反映该圆形窗口为渗漏空间聚集区的可能性,似然函数值最大的圆形窗口表示最有可能是渗漏空间聚集区;
利用泊松分布模型计算一个区域属于渗漏空间聚集区的概率,似然函数的计算公式为:
Figure FDA0003153235360000011
式中,c为圆形窗口内的事例数,C为研究区域总的事例数,C-c为圆形窗口外的事例数,μ为基于无效假设的圆形窗口内预期事例数;
步骤23):渗漏空间聚集区显著性分析
进一步分析所计算得到的渗漏空间聚集区属于非随机的置信度,多次采用蒙特卡罗方法生成空间数据集,蒙特卡罗方法根据研究区域总的事例数产生一系列随机分布数据集,计算每个随机分布数据集的最大对数似然比,通过比较真实数据集和随机分布数据集的最大似然比分析渗漏空间聚集区属于非随机的置信度,将真实数据集和随机分布数据集的最大似然比由大到小排序,若真实数据集的最大似然比排在第R位,则渗漏空间聚集区显著性p=R/(N+1),N为蒙特卡罗方法模拟次数,真实数据集的排序越靠前,计算的渗漏空间聚集区显著性数值越小,表明该渗漏空间聚集区为随机的概率越小,设定蒙特卡罗方法模拟次数,选择显著性p≤0.05的地区为渗漏空间聚集区;
步骤24):聚类分析
设定圆形窗口最大扫描范围,逐年利用扫描统计技术分析地区的渗漏空间聚集性,将地区的渗漏空间聚集性划分为高渗漏空间聚集区和低渗漏空间聚集区;其中,高渗漏空间聚集区表示该地区发生渗漏的频率高,低渗漏空间聚集区表示该地区发生渗漏的频率低;
步骤3:计算城市水网渗漏空间聚集性的可靠性分值
为降低圆形扫描窗口范围的敏感性并获取稳定的渗漏空间聚集区,计算地区的渗漏空间聚集性的可靠性分值,对每一年的渗漏数据根据扫描窗口范围的变化进行多次聚类分析;设定圆形扫描窗口的变化范围为从最大扫描窗口,每次迭代降低1%,逐次下降至最小扫描窗口内,记录所执行的扫描次数;
根据迭代计算结果,能够计算地区的渗漏空间聚集性的可靠性分值,可靠性分值的计算公式为
Ri=Ci/S (2)
其中Ri为地区i的可靠分值,Ci为每次迭代中该地区属于渗漏空间聚集区的次数,S为迭代计算次数,可靠分值取值在0和1之间,0表示该地区未被识别为统计显著聚集区;1表示在每一次迭代中,该地区均被识别为统计显著聚集区;
步骤4:分析城市水网渗漏空间聚集性的演化
在进行逐年渗漏空间聚集性分析的基础上,针对每年的分析结果进行了渗漏聚集区演化分析,将渗漏聚集区的类型划分为持续聚集区、新增聚集区、消失聚集区、偶发聚集区和间歇聚集区;
步骤5:建立基于概率神经网络的城市水网渗漏空间聚集性影响因素预测模型;
步骤51):因变量选取
以地区的渗漏空间聚集性分析结果作为因变量,渗漏空间聚集性分析结果有两种情况:高渗漏聚集性和低渗漏聚集性,其中高渗漏聚集性取值越大,越趋近于1,表示该地区是高渗漏聚集区的稳定性越高,低渗漏聚集性取值越大,越趋近于1,表示该地区是低渗漏聚集区的稳定性越高,为预测地区的渗漏空间聚集性,将高渗漏空间聚集区和高渗漏空间聚集区合并,渗漏空间聚集性的分析结果分为0和1两类,0表示非空间聚类地区:高渗漏空间聚集区和高渗漏空间聚集区的可靠性分值均取值为0的地区;1表示空间聚类地区:高渗漏空间聚集区和高渗漏空间聚集区的可靠性分值均取值大于0的地区;
步骤52):因素集选取
建立包含建筑结构因素、社会经济因素和环境因素的因素集;
步骤53):概率神经网络建模
根据步骤3计算得到的渗漏空间聚集性的可靠性分值结果,将样本分成两部分,一部分为训练集样本用于对模型的训练,另一部分为测试集样本用于对模型的检验,采用随机抽样的方式划分样本,以80%的容量从每组中随机抽取样本,为分析因素多种组合形式对模型准确度的影响,每次进入一个因素,并与剩余因素量逐一组合并预测测试集样本的准确性,通过迭代求得每种因素组合结果;
算法流程如下:
读取因变量和因素集
随机选取训练集样本和测试集样本
for i=1→所有因素
for j=i→所有因素
分别建立训练样本和测试样本数据集
建立基于概率神经网络的城市水网空间聚集性影响因素预测模型
测试基于概率神经网络的城市水网空间聚集性影响因素预测模型
记录基于概率神经网络的城市水网空间聚集性影响因素预测模型结果
end for
end for
计算基于概率神经网络的城市水网空间聚集性影响因素预测模型预测准确性;将预测模型结果和测试模型进行对比,预测准确性为预测模型结果与测试模型相匹配的百分比;
步骤6:筛选关键影响因素
在获得模型预测准确性基础上,为识别影响模型准确性的关键影响因素,对因素进行筛选,固定随机选择的训练集样本和测试集样本,逐一剔除因素集中的一个因素,通过迭代分析观察变动对模型准确性的影响,若剔除某因素后,造成模型准确性大幅度下降,则该因素为影响模型预测准确性的关键影响因素,根据每次剔除因素后的预测结果,对因素重要性进行排序,得到影响模型准确性的关键因素。
2.如权利要求1所述的城市水网渗漏空间聚集性检测及关键影响因素识别方法,其特征在于,所述建筑结构因素包括:区块面积、平均住房面积、建筑年龄占比、房屋空置率占比;
所述社会经济因素包括:人口密度、年龄占比、人种占比、未雇用率占比、住户收入中位数、租客占比、低出生率;
所述环境因素包括:气候带、日均最高气温、降雨量、社区环境指数2.0、臭氧占比、PM2.5占比、饮用水占比、交通占比、地下水威胁占比、受污染水体占比、固体废弃物占比。
3.如权利要求1所述的城市水网渗漏空间聚集性检测及关键影响因素识别方法,其特征在于,步骤21)中所述图心为扫描地区中所有点的算术平均值的位置,所述相邻点指其他人口普查块组的图心。
4.如权利要求1所述的城市水网渗漏空间聚集性检测及关键影响因素识别方法,其特征在于,步骤23)中所述真实数据集是根据渗漏实际发生的记录得到的。
CN201810712187.6A 2018-07-03 2018-07-03 城市水网渗漏空间聚集性检测及关键影响因素识别方法 Active CN109190783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810712187.6A CN109190783B (zh) 2018-07-03 2018-07-03 城市水网渗漏空间聚集性检测及关键影响因素识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810712187.6A CN109190783B (zh) 2018-07-03 2018-07-03 城市水网渗漏空间聚集性检测及关键影响因素识别方法

Publications (2)

Publication Number Publication Date
CN109190783A CN109190783A (zh) 2019-01-11
CN109190783B true CN109190783B (zh) 2021-11-09

Family

ID=64948797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810712187.6A Active CN109190783B (zh) 2018-07-03 2018-07-03 城市水网渗漏空间聚集性检测及关键影响因素识别方法

Country Status (1)

Country Link
CN (1) CN109190783B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465378B (zh) * 2020-12-09 2022-04-29 国网四川省电力公司电力科学研究院 基于电力大数据挖掘的住房空置自适应研判方法及装置
CN115527125A (zh) * 2022-10-19 2022-12-27 中国农业大学 一种基于卫星观测和深层神经网络的农田渗漏量估算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866899A (zh) * 2015-06-17 2015-08-26 山东省环境保护科学研究设计院 一种基于城市供水管网水力模型校核的漏失检测方法
CN107230021A (zh) * 2017-06-08 2017-10-03 桂林理工大学 高效筛选供水管网泄漏区域的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2906411T3 (es) * 2015-06-29 2022-04-18 Suez Groupe Procedimiento de detección de anomalías en un sistema de distribución de agua

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866899A (zh) * 2015-06-17 2015-08-26 山东省环境保护科学研究设计院 一种基于城市供水管网水力模型校核的漏失检测方法
CN107230021A (zh) * 2017-06-08 2017-10-03 桂林理工大学 高效筛选供水管网泄漏区域的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Spatial analysis of water mains failure clusters and factors: a Hong Kong case study;Wen-Zhong Shi 等;《Annals of GIS》;20130423;第19卷(第2期);全文 *
江阴市供水管网事故回归模型的建立与分析;曾武等;《制造业自动化》;20110325(第06期);全文 *
空间数据挖掘在爆管信息中的应用;彭茜;《西南给排水》;20110515(第03期);全文 *

Also Published As

Publication number Publication date
CN109190783A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
Hajela et al. A clustering based hotspot identification approach for crime prediction
US11335179B1 (en) Water environment risk prediction and early warning method
CN112506990B (zh) 一种基于时空信息的水文数据异常检测方法
CN111489008B (zh) 一种交通事故影响因素空间效应分析方法及其应用
CN111651545A (zh) 一种基于多源数据融合的城市边缘区提取方法
CN111080356A (zh) 一种利用机器学习回归模型计算住宅价格影响因素的方法
CN112820415B (zh) 一种基于gis的慢性病时空演化特征分析及环境健康风险监测系统及方法
CN114997534B (zh) 基于视觉特征的相似降雨预报方法和设备
CN109190783B (zh) 城市水网渗漏空间聚集性检测及关键影响因素识别方法
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
Ou et al. A data‐driven approach to determining freeway incident impact areas with fuzzy and graph theory‐based clustering
Nowobilski et al. Estimating the probability of accidents on building scaffoldings
CN114066037A (zh) 一种基于人工智能的流域污染溯源预测方法及装置
Gong The road traffic safety risk projection based on improved random forest.
Keskin et al. Cohort fertility heterogeneity during the fertility decline period in Turkey
Li et al. Identifying urban form typologies in seoul with mixture model based clustering
CN110610446A (zh) 一种基于两步聚类思路的县域城镇分类方法
CN110674471A (zh) 基于GIS与Logistic回归模型的泥石流易发性预测方法
Fiorio et al. Modeling coverage error in address lists due to geocoding error: The impact on survey operations and sampling
Yin Spatiotemporal retrieval and feature analysis of air pollution episodes
Suryani et al. Prediction Of Election Participant With Malang City Demographic Data Using The K-Nn Algorithm
CN113965618B (zh) 基于模糊理论的异常轨迹检测方法
Gu et al. Improved Cloud-NARX Estimation Algorithm for Uncertainty Analysis of Air Pollution Prediction
Somers et al. Reference Model Supporting Documentation for CABIN Analytical Tools
CN117196325A (zh) 一种户外社交互动系统性测评工具

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant