CN117609218A - 基于动态知识库的排水管网gis数据质量控制方法及系统 - Google Patents
基于动态知识库的排水管网gis数据质量控制方法及系统 Download PDFInfo
- Publication number
- CN117609218A CN117609218A CN202410076817.0A CN202410076817A CN117609218A CN 117609218 A CN117609218 A CN 117609218A CN 202410076817 A CN202410076817 A CN 202410076817A CN 117609218 A CN117609218 A CN 117609218A
- Authority
- CN
- China
- Prior art keywords
- data
- pipe network
- abnormal
- knowledge base
- drainage pipe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 32
- 230000002159 abnormal effect Effects 0.000 claims abstract description 114
- 238000012216 screening Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000012544 monitoring process Methods 0.000 claims description 148
- 238000000034 method Methods 0.000 claims description 43
- 230000005856 abnormality Effects 0.000 claims description 22
- 238000009792 diffusion process Methods 0.000 claims description 19
- 238000007689 inspection Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012847 principal component analysis method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 abstract description 16
- 238000012937 correction Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 14
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000010865 sewage Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000000342 Monte Carlo simulation Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于动态知识库的排水管网GIS数据质量控制方法及系统,解决了现有排水管网GIS数据审核耗时长、效率低的问题,方法包括获取排水管网GIS数据;对排水管网GIS数据进行预处理;基于预训练的数据检查知识库对预处理数据集进行检查,形成异常数据集;基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断,得到异常原因,叠加GIS管网及地形图,确定各管网问题的空间分布;本发明实施例通过预训练的数据检查知识库对预处理数据集进行检查,可以快速准确的实现对预处理数据集的自动筛选,受人为主观因素较小,可靠性高,并将问题结果以文档、图表、台账、平面图、热力图等进行输出展示,方便进行错误定位并修正。
Description
技术领域
本发明属于排水管网技术领域,具体涉及基于动态知识库的排水管网GIS数据质量控制方法及系统。
背景技术
城市排水系统承担着城市污水处收集处理的重要职能,是保障人民生活、城市环境和城市安全的重要市政基础设施,同时,城市排水管网的安全有效运行也是城市水环境质量的重要保障,使城市水环境质量得到有力保证。
GIS信息化排水管网系统是一个综合系统,GIS技术的应用将城市排水管网空间所在位置与特性合理融合,并归类储存与管理,使地下排水网被详细表现出来,而城市排水管网GIS系统的有用性离不开高质量的数据,而对排水管网GIS数据主要通过人工审核或系统审核的方式进行,人工审核的主要将数字化数据与数据源进行比较,图形部分的检查包括目视法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原属性逐个对比,传统人工审核的方式耗时长、效率低,且受限于当前工作人员的专业性及工作状态,尤其是面对大批量的数据质量检查,效果及效率都难以保证,而系统审核也是通过取点线表的方式进行入库,均为测绘单位后期人工转换的成果,也存在耗时长、效率低的问题,基于此,我们提出了基于动态知识库的排水管网GIS数据质量控制方法及系统。
发明内容
本发明的目的在于针对现有技术的不足之处,提供基于动态知识库的排水管网GIS数据质量控制方法及系统,解决了现有排水管网GIS数据审核耗时长、效率低的问题。
本发明是这样实现的,基于动态知识库的排水管网GIS数据质量控制方法,所述基于动态知识库的排水管网GIS数据质量控制方法,具体包括:
获取排水管网GIS数据,其中排水管网GIS数据包括排水管网设施的属性特征、空间特征以及时间特征;
加载排水管网GIS数据,对排水管网GIS数据进行预处理,筛除无效和干扰数据,整合预处理后数据,得到预处理数据集;
基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常,筛选出异常数据,形成异常数据集;
获取异常数据集,基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断,得到异常原因,叠加GIS管网及地形图,确定各管网问题的空间分布。
优选地,所述基于动态知识库的排水管网GIS数据质量控制方法,具体还包括:
遍历异常数据集,基于多次多米诺效应计算异常数据关联的管网监测点扩散风险。
优选地,所述获取排水管网GIS数据的方法,具体包括:
识别排水管网平面图中的关键管道以及管道交叉点,基于关键管道以及管道交叉点布置管网监测点;
遍历所述管网监测点的权重值,基于主成分分析法对管网监测点的权重值进行排序,对管网监测点进行简化处理,得到关键监测点;
加载关键监测点,筛除管网监测点中关键监测点,将预设距离范围内管网监测点权重值总和低于预设权重阈值的相邻管网监测点简化为一个监测节点;
整合监测节点以及关键监测点,对整合监测节点以及关键监测点的排水管网GIS数据进行收集。
优选地,所述数据检查知识库的构建方法,具体包括:
采集排水管网GIS合理数据样本,将合理数据样本分为样本训练集、样本测试集以及样本验证集,所述样本验证集包括合理验证数据以及合理验证数据对应生成的数据判断对象;
基于样本训练集构建初始数据检查知识库;
加载样本测试集,基于样本测试集对初始数据检查知识库中数据完整性、属性完整性、属性合理性、拓扑完整性、拓扑有效性进行测试;
获取样本验证集,样本验证集输入初始数据检查知识库,得到初始检查结果。
优选地,所述数据检查知识库的构建方法,具体还包括:
遍历初始检查结果,以初始检查结果为输入,计算初始检查结果与数据判断对象相似度;
其中,所述相似度的计算公式(1)为:
(1)
其中,为判定经验因子,/>为数据/>与与/>判断对象的相似度,/>为/>的属性个数,为/>与数据判断对象相同的属性个数;
判定相似度是否大于预设相似阈值,若大于预设相似阈值,则生成数据检查知识库,若小于预设相似阈值,则执行所述基于样本训练集构建初始数据检查知识库步骤。
优选地,所述基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常的方法,具体包括:
获取预处理数据集;
其中,预处理数据集为,基于数据检查知识库识别预处理数据集所属一级属性;
计算预处理数据集与所属一级属性的一级关联度,其中,一级关联度/>的计算公式(2)为:
(2)
其中,为一级属性个数,/>为/>关联的一级属性个数,/>为/>一级属性个数的累加关联值,/>为关联初始概率值;
基于一级关联度判定预处理数据集一级属性,加载数据检查知识库中一级属性关联的二级属性,计算预处理数据集与所属二级属性的二级关联度/>;
基于预设的关联阈值判断预处理数据集二级属性,调取数据检查知识库评估规则,基于评估规则计算预处理数据集的异常度,异常度/>的计算公式(3)为:
(3)
其中,为异常误差函数,异常误差函数/>通过以下方程表示:
(4)
其中,表示异常误差函数曲线的前置系数,/>表示异常误差函数曲线的后置系数,且/>表示异常误差函数迭代次数。
优选地,所述基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断的方法,具体包括:
加载异常数据集;
调取异常数据集中异常数据以及异常数据一级关联度、二级关联度;
以一级关联度、二级关联度输入异常识别模型,重构排水管网异常三维模型。
另一方面,本发明还提供了基于动态知识库的排水管网GIS数据质量控制系统,所述基于动态知识库的排水管网GIS数据质量控制系统,具体包括:
数据获取模块,所述数据获取模块用于获取排水管网GIS数据,其中排水管网GIS数据包括排水管网设施的属性特征、空间特征以及时间特征;
预处理模块,所述预处理模块用于加载排水管网GIS数据,对排水管网GIS数据进行预处理,筛除无效和干扰数据,整合预处理后数据,得到预处理数据集;
异常筛选模块,所述异常筛选模块基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常,筛选出异常数据,形成异常数据集;
原因诊断模块,所述原因诊断模块用于获取异常数据集,基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断,得到异常原因,叠加GIS管网及地形图,确定各管网问题的空间分布;
扩散风险确定模块,所述扩散风险确定模块用于遍历异常数据集,基于多次多米诺效应计算异常数据关联的管网监测点扩散风险。
优选地,所述数据获取模块,具体包括:
监测点布置单元,所述监测点布置单元用于识别排水管网平面图中的关键管道以及管道交叉点,基于关键管道以及管道交叉点布置管网监测点;
关键监测点确定单元,所述关键监测点确定单元用于遍历所述管网监测点的权重值,基于主成分分析法对管网监测点的权重值进行排序,对管网监测点进行简化处理,得到关键监测点;
监测点简化单元,所述监测点简化单元用于加载关键监测点,筛除管网监测点中关键监测点,将预设距离范围内管网监测点权重值总和低于预设权重阈值的相邻管网监测点简化为一个监测节点;
数据整合收集单元,所述数据整合收集单元用于整合监测节点以及关键监测点,对整合监测节点以及关键监测点的排水管网GIS数据进行收集。
与现有技术相比,本申请实施例主要有以下有益效果:
本发明实施例通过预训练的数据检查知识库对预处理数据集进行检查,可以快速准确的实现对预处理数据集的自动筛选,受人为主观因素较小,可靠性高,并将问题结果以文档、图表、台账、平面图、热力图等进行输出展示,方便进行错误定位并修正。
本申请通过计算一级关联度以及二级关联度/>可以有效判定异常数据,避免出现误判的现象,同时一级关联度/>以及二级关联度/>交叉验证可以显著提高数据处理的效率。
附图说明
图1是本发明提供的基于动态知识库的排水管网GIS数据质量控制方法的实现流程示意图。
图2示出了获取排水管网GIS数据方法的实现流程示意图。
图3示出了数据检查知识库构建方法的实现流程示意图。
图4示出了基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常方法的实现流程示意图。
图5示出了基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断方法的实现流程示意图。
图6示出了基于多次多米诺效应计算异常数据关联的管网监测点扩散风险方法的实现流程示意图。
图7示出了基于动态知识库的排水管网GIS数据质量控制系统的框架示意图。
图8示出了数据获取模块的框架示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
现阶段,对排水管网GIS数据主要通过人工审核或系统审核的方式进行,人工审核的主要将数字化数据与数据源进行比较,图形部分的检查包括目视法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原属性逐个对比,传统人工审核的方式耗时长、效率低,且受限于当前工作人员的专业性及工作状态,尤其是面对大批量的数据质量检查,效果及效率都难以保证,而系统审核也是通过取点线表的方式进行入库,均为测绘单位后期人工转换的成果,也存在耗时长、效率低的问题,基于此,我们提出了基于动态知识库的排水管网GIS数据质量控制方法及系统。
简而言之,所述基于动态知识库的排水管网GIS数据质量控制方法,具体包括:获取排水管网GIS数据;然后对排水管网GIS数据进行预处理,筛除无效和干扰数据,得到预处理数据集;基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常;再基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断,得到异常原因,叠加GIS管网及地形图,确定各管网问题的空间分布。本发明实施例通过预训练的数据检查知识库对预处理数据集进行检查,可以快速准确的实现对预处理数据集的自动筛选,受人为主观因素较小,可靠性高,并将问题结果以文档、图表、台账、平面图、热力图等进行输出展示,方便进行错误定位并修正。
本发明实施例提供了基于动态知识库的排水管网GIS数据质量控制方法,如图1所示,示出了基于动态知识库的排水管网GIS数据质量控制方法的实现流程示意图,所述基于动态知识库的排水管网GIS数据质量控制方法,具体包括:
步骤S10,获取排水管网GIS数据,其中排水管网GIS数据包括排水管网设施的属性特征、空间特征以及时间特征;
步骤S20,加载排水管网GIS数据,对排水管网GIS数据进行预处理,筛除无效和干扰数据,整合预处理后数据,得到预处理数据集;
步骤S30,基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常,筛选出异常数据,形成异常数据集;
步骤S40,获取异常数据集,基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断,得到异常原因,叠加GIS管网及地形图,确定各管网问题的空间分布。
步骤S50,遍历异常数据集,基于多次多米诺效应计算异常数据关联的管网监测点扩散风险。
在本实施例中,需要说明的是,GIS为“Geographic Information System,且排水管网GIS数据为排水管网设施关联的全部设施GIS数据,例如包括但不限于管网监测点GIS数据的属性特征、空间特征以及时间特征,而管网监测点的属性特征表现为排水管网的实际特征或现象,例如排水管网的变量、级别、数量特征和标号,而管网监测点的空间特征表现为排水管网的三维坐标、地理定位,管网监测点的时间特征表现为管网监测点的时间变化或数据采集的时间属性特征、空间特征以及时间特征。
示例性的,排水管网GIS数据具体可以为排水管道/管线的管径、管长、壁厚、硬度、拉伸强度,管井的地面标高、井深、井底标高、断面形状、管井类型、管井内径、土壤以及地质状况,排水管网GIS数据还包括特征点、雨水口/雨水篦、排放口以及闸门的。
本发明实施例通过预训练的数据检查知识库对预处理数据集进行检查,可以快速准确的实现对预处理数据集的自动筛选,受人为主观因素较小,可靠性高,并将问题结果以文档、图表、台账、平面图、热力图等进行输出展示,方便进行错误定位并修正。
本发明实施例提供了获取排水管网GIS数据的方法,如图2所示,示出了获取排水管网GIS数据方法的实现流程示意图,所述获取排水管网GIS数据的方法,具体包括:
步骤S101,识别排水管网平面图中的关键管道以及管道交叉点,基于关键管道以及管道交叉点布置管网监测点;
需要说明的是,本申请中所述监测节点为布设在监测对象(检查井、管线、管廊、排放口、雨水口、闸门)的敏感位置上,能反映监测对象变形特征的测量点,而每组所述的监测对象可以对应设置有单组或多组监测节点。
步骤S102,遍历所述管网监测点的权重值,基于主成分分析法对管网监测点的权重值进行排序,对管网监测点进行简化处理,得到关键监测点;
在本申请实施例中,基于主成分分析法对管网监测点的权重值进行排序是基于管网监测点中多种因素影响排水管网状态考量的,基于主成分分析法对管网监测点的权重值进行排序的规则为:基于主成分分析法构建主成分回归模型,主成分回归模型可以为线性或非线性的,同时加入多种影响因素交互影响的考量,对管网监测点进行简化处理的同时也对管网监测点的权重值进行排序,使得数据筛选和处理更为高效和有序,简化了数据处理流程,同时提高了数据处理的效率。
步骤S103,加载关键监测点,筛除管网监测点中关键监测点,将预设距离范围内管网监测点权重值总和低于预设权重阈值的相邻管网监测点简化为一个监测节点;
示例性的,将预设距离范围内管网监测点权重值总和低于预设权重阈值的相邻管网监测点简化为一个监测节点遵循以下基本原则:设定距离范围(≤50米)内相邻交叉管网监测点权重值总和低于预设权重阈值(≤0.1)的相邻管网监测点简化为一个监测节点,同时,简化后引起的计算差值不超过2%。
步骤S104,整合监测节点以及关键监测点,对整合监测节点以及关键监测点的排水管网GIS数据进行收集。
在本实施例中,整合监测节点以及关键监测点后,通过布设多种数据采集终端来获取整合监测节点以及关键监测点的排水管网GIS数据,具体地,数据采集终端可以为具有通讯功能的污水监测传感器、水流量传感器、湿度传感器、位置传感器、水流速传感器、液位传感器、GIS数据采集器。
在本发明实施例中,对排水管网GIS数据进行预处理的方法包括:基于ENVI对排水管网进行辐射定标、几何校正,所述ENVI为Landsat TM遥感资料;其他资料的预处理方法主要为剔除异常数据、统一数据尺度以及对数据进行差值处理。
本发明实施例提供了数据检查知识库的构建方法,如图3所示,示出了数据检查知识库构建方法的实现流程示意图,所述数据检查知识库的构建方法,具体包括:
步骤S201,采集排水管网GIS合理数据样本,将合理数据样本分为样本训练集、样本测试集以及样本验证集,所述样本验证集包括合理验证数据以及合理验证数据对应生成的数据判断对象;
同时,样本训练集、样本测试集以及样本验证集的比例为3:3:1。
步骤S202,基于样本训练集构建初始数据检查知识库;
示例性的,所述初始数据检查知识库的构建是从主要排水设施的重要属性数据及空间关系的完整性及合理性入手,构建了包含数据完整性、属性完整性、属性合理性、拓扑完整性、拓扑有效性5个一级类,36个二级类的知识库检查体系,涵盖了管线、管渠、检查井、雨水口、排放口、特征点、闸门七类主要排水设施,同时,表1示出了初始数据检查知识库的评估规则。
表1
步骤S203,加载样本测试集,基于样本测试集对初始数据检查知识库中数据完整性、属性完整性、属性合理性、拓扑完整性、拓扑有效性进行测试;
步骤S204,获取样本验证集,样本验证集输入初始数据检查知识库,得到初始检查结果。
步骤S205,遍历初始检查结果,以初始检查结果为输入,计算初始检查结果与数据判断对象相似度;
其中,所述相似度的计算公式(1)为:
(1)
其中,为判定经验因子,/>为数据/>与与/>判断对象的相似度,/>为/>的属性个数,为/>与数据判断对象相同的属性个数;
步骤S206,判定相似度是否大于预设相似阈值,若大于预设相似阈值,则生成数据检查知识库,若小于预设相似阈值,则执行所述步骤S202。
在本实施例中,通过计算初始检查结果与数据判断对象相似度可以对数据检查知识库进行训练和调整,从而使得数据检查知识库成为动态知识库,有利于实现对GIS数据的规范性及合理性的批量检查,自动筛选出不符合提交要求及规范的测绘数据。
本发明实施例提供了基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常的方法,如图4所示,示出了基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常方法的实现流程示意图,所述基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常的方法,具体包括:
步骤S301,获取预处理数据集;
其中,预处理数据集为,基于数据检查知识库识别预处理数据集所属一级属性;
步骤S302,计算预处理数据集与所属一级属性的一级关联度,其中,一级关联度/>的计算公式(2)为:
(2)
其中,为一级属性个数,/>为/>关联的一级属性个数,/>为/>一级属性个数的累加关联值,/>为关联初始概率值;
需要说明的是,一级属性个数可以为五组,具体可以为数据完整性、属性完整性、属性合理性、拓扑完整性、拓扑有效性。
步骤S303,基于一级关联度判定预处理数据集一级属性,加载数据检查知识库中一级属性关联的二级属性,计算预处理数据集与所属二级属性的二级关联度/>;
其中,二级关联度的计算公式(5)为:
(5)
其中,w为二级属性个数,/>为/>关联的二级属性个数,/>为/>二级属性个数的累加关联值,/>为关联初始概率值,其中,二级属性个数可以为三十六组;
步骤S304,基于预设的关联阈值判断预处理数据集二级属性,调取数据检查知识库评估规则,基于评估规则计算预处理数据集的异常度,异常度/>的计算公式(3)为:
(3)
其中,为异常误差函数,异常误差函数/>通过以下方程表示:
(4)
其中,表示异常误差函数曲线的前置系数,/>表示异常误差函数曲线的后置系数,且/>表示异常误差函数迭代次数,而异常误差函数迭代次数可以为2、3、4或5次,而异常误差函数曲线的前置系数以及后置系数可以为常量,比如0.1、0.2、0.5。
在本实施例中,预处理数据集的异常度若大于预设异常阈值(≤0.9)则判定预处理数据集中单组数据为异常数据,若小于预设异常阈值则为正常数据,本申请通过计算一级关联度/>以及二级关联度/>可以有效判定异常数据,避免出现误判的现象,同时一级关联度/>以及二级关联度/>交叉验证可以显著提高数据处理的效率。
本发明实施例提供了基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断的方法,如图5所示,示出了基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断方法的实现流程示意图,所述基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断的方法,具体包括:
步骤S401,加载异常数据集;
步骤S402,调取异常数据集中异常数据以及异常数据一级关联度、二级关联度;
步骤S403,以一级关联度、二级关联度输入异常识别模型,重构排水管网异常三维模型。
在本实施例中,重构排水管网异常三维模型后,可以将判定结果从后台以文档、图表、台账、平面图、热力图等进行输出展示,方便进行错误定位并修正,同时数据检查知识库的建立方便对管网GIS数据开展分析,基于集成动态知识库,自动识别管网GIS数据中存在的逆坡、大管接小管、混接、断头等管网问题,叠加GIS管网及地形图,明确各管网问题的空间分布,为管网改造及日常运营的优先级提供决策支撑。
需要说明的是,所述异常识别模型具体为卷积神经网络、深度置信网络(DeepBelief Networks,DBN)组成的复合神经网络模型。其中,异常识别模型由卷积层(Convolution Conv)、池化层(Pooling)、全连接层(Fully connected)、激活层(Activation Function)组成。
本发明实施例提供了基于多次多米诺效应计算异常数据关联的管网监测点扩散风险的方法,如图6所示,示出了基于多次多米诺效应计算异常数据关联的管网监测点扩散风险方法的实现流程示意图,所述基于多次多米诺效应计算异常数据关联的管网监测点扩散风险的方法,具体包括:
步骤S501,确定异常数据关联的管网监测点;
步骤S502,基于异常数据关联的管网监测点计算管网监测点的风险扩散矩阵,辨识风险扩散矩阵的影响范围;
步骤S503,基于蒙特卡罗方法模拟管网监测点多米诺效应二次、三次事故综合概率;
步骤S504,加载多米诺效应三次事故综合概率,以高斯概率分布函数为扩展概率,计算管网监测点四次及多次多米诺效应扩展综合概率。
本申请基于蒙特卡罗方法以及高斯概率分布函数结合的方式实现对异常数据关联的管网监测点扩散风险的预测,从而方便对排水管网进行监控预警,保证了排水管网的正常运行。
本发明实施例提供了基于动态知识库的排水管网GIS数据质量控制系统,如图7所示,示出了基于动态知识库的排水管网GIS数据质量控制系统的框架示意图,所述基于动态知识库的排水管网GIS数据质量控制系统,具体包括:
数据获取模块100,所述数据获取模块100用于获取排水管网GIS数据,其中排水管网GIS数据包括排水管网设施的属性特征、空间特征以及时间特征;
预处理模块200,所述预处理模块200用于加载排水管网GIS数据,对排水管网GIS数据进行预处理,筛除无效和干扰数据,整合预处理后数据,得到预处理数据集;
异常筛选模块300,所述异常筛选模块300基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常,筛选出异常数据,形成异常数据集;
原因诊断模块400,所述原因诊断模块400用于获取异常数据集,基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断,得到异常原因,叠加GIS管网及地形图,确定各管网问题的空间分布;
扩散风险确定模块500,所述扩散风险确定模块500用于遍历异常数据集,基于多次多米诺效应计算异常数据关联的管网监测点扩散风险。
在本实施例中,数据获取模块100、预处理模块200、异常筛选模块300、原因诊断模块400以及扩散风险确定模块500基于5G通讯或DTU通讯的方式实现数据交互,且扩散风险确定模块500的设置实现了对异常数据关联的管网监测点扩散风险的预测,从而方便对排水管网进行监控预警,保证了排水管网的正常运行。
本发明实施例提供了数据获取模块100,如图8所示,示出了数据获取模块100的框架示意图,所述数据获取模块100,具体包括:
监测点布置单元110,所述监测点布置单元110用于识别排水管网平面图中的关键管道以及管道交叉点,基于关键管道以及管道交叉点布置管网监测点;
关键监测点确定单元120,所述关键监测点确定单元120用于遍历所述管网监测点的权重值,基于主成分分析法对管网监测点的权重值进行排序,对管网监测点进行简化处理,得到关键监测点;
监测点简化单元130,所述监测点简化单元130用于加载关键监测点,筛除管网监测点中关键监测点,将预设距离范围内管网监测点权重值总和低于预设权重阈值的相邻管网监测点简化为一个监测节点。
数据整合收集单元140,所述数据整合收集单元140用于整合监测节点以及关键监测点,对整合监测节点以及关键监测点的排水管网GIS数据进行收集。
在本实施例中,整合监测节点以及关键监测点后,通过布设多种数据采集终端来获取整合监测节点以及关键监测点的排水管网GIS数据,具体地,数据采集终端可以为具有通讯功能的污水监测传感器、水流量传感器、湿度传感器、位置传感器、水流速传感器、液位传感器、GIS数据采集器。
另一方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序指令,该计算机程序指令可以被处理器执行。该计算机程序指令被执行时实现上述任意一项实施例的方法。
同时,本发明实施例的另一方面,还提供了一种计算机设备,所述计算机设备包括存储器和处理器,该存储器中存储有计算机程序,该计算机程序被该处理器执行时实现上述任意一项实施例的方法。
存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的基于动态知识库的排水管网GIS数据质量控制方法对应的程序指令/模块。存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储基于动态知识库的排水管网GIS数据质量控制方法的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
最后需要说明的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
综上所述,本发明提供了基于动态知识库的排水管网GIS数据质量控制方法及系统,本发明实施例通过预训练的数据检查知识库对预处理数据集进行检查,可以快速准确的实现对预处理数据集的自动筛选,受人为主观因素较小,可靠性高,并将问题结果以文档、图表、台账、平面图、热力图等进行输出展示,方便进行错误定位并修正。
需要说明的是,对于前述的各实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可能采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,涉及的动作和模块并不一定是本发明所必须的。
以上实施例仅用以说明本发明的技术方案,而非对发明的保护范围进行限制。显然,所描述的实施例仅仅是本发明部分实施例,而不是全部实施例。基于这些实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明所要保护的范围。尽管参照上述实施例对本发明进行了详细的说明,本领域普通技术人员依然可以在不冲突的情况下,不作出创造性劳动对本发明各实施例中的特征根据情况相互组合、增删或作其他调整,从而得到不同的、本质未脱离本发明的构思的其他技术方案,这些技术方案也同样属于本发明所要保护的范围。
Claims (10)
1.基于动态知识库的排水管网GIS数据质量控制方法,其特征在于,所述基于动态知识库的排水管网GIS数据质量控制方法,具体包括:
获取排水管网GIS数据,其中排水管网GIS数据包括排水管网设施的属性特征、空间特征以及时间特征;
加载排水管网GIS数据,对排水管网GIS数据进行预处理,筛除无效和干扰数据,整合预处理后数据,得到预处理数据集;
基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常,筛选出异常数据,形成异常数据集;
获取异常数据集,基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断,得到异常原因,叠加GIS管网及地形图,确定各管网问题的空间分布。
2.如权利要求1所述的基于动态知识库的排水管网GIS数据质量控制方法,其特征在于:所述基于动态知识库的排水管网GIS数据质量控制方法,具体还包括:
遍历异常数据集,基于多次多米诺效应计算异常数据关联的管网监测点扩散风险。
3.如权利要求2所述的基于动态知识库的排水管网GIS数据质量控制方法,其特征在于:所述获取排水管网GIS数据的方法,具体包括:
识别排水管网平面图中的关键管道以及管道交叉点,基于关键管道以及管道交叉点布置管网监测点;
遍历所述管网监测点的权重值,基于主成分分析法对管网监测点的权重值进行排序,对管网监测点进行简化处理,得到关键监测点;
加载关键监测点,筛除管网监测点中关键监测点,将预设距离范围内管网监测点权重值总和低于预设权重阈值的相邻管网监测点简化为一个监测节点;
整合监测节点以及关键监测点,对整合监测节点以及关键监测点的排水管网GIS数据进行收集。
4.如权利要求3所述的基于动态知识库的排水管网GIS数据质量控制方法,其特征在于:所述数据检查知识库的构建方法,具体包括:
采集排水管网GIS合理数据样本,将合理数据样本分为样本训练集、样本测试集以及样本验证集,所述样本验证集包括合理验证数据以及合理验证数据对应生成的数据判断对象;
基于样本训练集构建初始数据检查知识库;
加载样本测试集,基于样本测试集对初始数据检查知识库中数据完整性、属性完整性、属性合理性、拓扑完整性、拓扑有效性进行测试;
获取样本验证集,样本验证集输入初始数据检查知识库,得到初始检查结果。
5.如权利要求4所述的基于动态知识库的排水管网GIS数据质量控制方法,其特征在于:所述数据检查知识库的构建方法,具体还包括:
遍历初始检查结果,以初始检查结果为输入,计算初始检查结果与数据判断对象相似度;
其中,所述相似度的计算公式(1)为:
(1)
其中,为判定经验因子,/>为数据/>与/>判断对象的相似度,/>为/>的属性个数,/>为/>与数据判断对象相同的属性个数;
判定相似度是否大于预设相似阈值,若大于预设相似阈值,则生成数据检查知识库,若小于预设相似阈值,则执行所述基于样本训练集构建初始数据检查知识库步骤。
6.如权利要求5所述的基于动态知识库的排水管网GIS数据质量控制方法,其特征在于:所述基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常的方法,具体包括:
获取预处理数据集;
其中,预处理数据集为,基于数据检查知识库识别预处理数据集所属一级属性;
计算预处理数据集与所属一级属性的一级关联度,其中,一级关联度/>的计算公式(2)为:
(2)
其中,为一级属性个数,/>为/>关联的一级属性个数,/>为/>一级属性个数的累加关联值,/>为关联初始概率值;
基于一级关联度判定预处理数据集一级属性,加载数据检查知识库中一级属性关联的二级属性,计算预处理数据集与所属二级属性的二级关联度/>;
基于预设的关联阈值判断预处理数据集二级属性,调取数据检查知识库评估规则,基于评估规则计算预处理数据集的异常度,异常度/>的计算公式(3)为:
(3)
其中,为异常误差函数,异常误差函数/>通过以下方程表示:
(4)
其中,表示异常误差函数曲线的前置系数,/>表示异常误差函数曲线的后置系数,且/>表示异常误差函数迭代次数。
7.如权利要求1所述的基于动态知识库的排水管网GIS数据质量控制方法,其特征在于:所述基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断的方法,具体包括:
加载异常数据集;
调取异常数据集中异常数据以及异常数据一级关联度、二级关联度;
以一级关联度、二级关联度输入异常识别模型,重构排水管网异常三维模型。
8.如权利要求1-7任一所述基于动态知识库的排水管网GIS数据质量控制方法的基于动态知识库的排水管网GIS数据质量控制系统,其特征在于:所述基于动态知识库的排水管网GIS数据质量控制系统,具体包括:
数据获取模块,所述数据获取模块用于获取排水管网GIS数据,其中排水管网GIS数据包括排水管网设施的属性特征、空间特征以及时间特征;
预处理模块,所述预处理模块用于加载排水管网GIS数据,对排水管网GIS数据进行预处理,筛除无效和干扰数据,整合预处理后数据,得到预处理数据集;
异常筛选模块,所述异常筛选模块基于预训练的数据检查知识库对预处理数据集进行检查,判定预处理数据集中数据是否存在异常,筛选出异常数据,形成异常数据集;
原因诊断模块,所述原因诊断模块用于获取异常数据集,基于预训练的异常识别模型对异常数据集对应的异常原因进行分析判断,得到异常原因,叠加GIS管网及地形图,确定各管网问题的空间分布;
扩散风险确定模块,所述扩散风险确定模块用于遍历异常数据集,基于多次多米诺效应计算异常数据关联的管网监测点扩散风险。
9.如权利要求8所述的基于动态知识库的排水管网GIS数据质量控制系统,其特征在于:所述数据获取模块,具体包括:
监测点布置单元,所述监测点布置单元用于识别排水管网平面图中的关键管道以及管道交叉点,基于关键管道以及管道交叉点布置管网监测点;
关键监测点确定单元,所述关键监测点确定单元用于遍历所述管网监测点的权重值,基于主成分分析法对管网监测点的权重值进行排序,对管网监测点进行简化处理,得到关键监测点;
监测点简化单元,所述监测点简化单元用于加载关键监测点,筛除管网监测点中关键监测点,将预设距离范围内管网监测点权重值总和低于预设权重阈值的相邻管网监测点简化为一个监测节点。
10.如权利要求9所述的基于动态知识库的排水管网GIS数据质量控制系统,其特征在于:所述,具体还包括:
数据整合收集单元,所述数据整合收集单元用于整合监测节点以及关键监测点,对整合监测节点以及关键监测点的排水管网GIS数据进行收集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410076817.0A CN117609218B (zh) | 2024-01-19 | 2024-01-19 | 基于动态知识库的排水管网gis数据质量控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410076817.0A CN117609218B (zh) | 2024-01-19 | 2024-01-19 | 基于动态知识库的排水管网gis数据质量控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117609218A true CN117609218A (zh) | 2024-02-27 |
CN117609218B CN117609218B (zh) | 2024-04-30 |
Family
ID=89951929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410076817.0A Active CN117609218B (zh) | 2024-01-19 | 2024-01-19 | 基于动态知识库的排水管网gis数据质量控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609218B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890792A (zh) * | 2011-07-20 | 2013-01-23 | 北京源汇远科技有限公司 | 市政排水管网决策评估方法 |
CN113074324A (zh) * | 2021-04-09 | 2021-07-06 | 天津大学 | 基于城市供水管网运行安全动态预警的数据库及建立方法 |
CN116384746A (zh) * | 2023-04-04 | 2023-07-04 | 城云科技(中国)有限公司 | 基于图算法的城市管网危险预警方法、系统及其应用 |
CN116702638A (zh) * | 2023-05-05 | 2023-09-05 | 郑州大学 | 排水管道淤积病害双层智能诊断方法及系统 |
-
2024
- 2024-01-19 CN CN202410076817.0A patent/CN117609218B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890792A (zh) * | 2011-07-20 | 2013-01-23 | 北京源汇远科技有限公司 | 市政排水管网决策评估方法 |
CN113074324A (zh) * | 2021-04-09 | 2021-07-06 | 天津大学 | 基于城市供水管网运行安全动态预警的数据库及建立方法 |
CN116384746A (zh) * | 2023-04-04 | 2023-07-04 | 城云科技(中国)有限公司 | 基于图算法的城市管网危险预警方法、系统及其应用 |
CN116702638A (zh) * | 2023-05-05 | 2023-09-05 | 郑州大学 | 排水管道淤积病害双层智能诊断方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117609218B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Reckhow et al. | Statistical evaluation of mechanistic water-quality models | |
CN105678481A (zh) | 一种基于随机森林模型的管线健康状态评估方法 | |
Guo et al. | Monitoring and modelling of PM2. 5 concentration at subway station construction based on IoT and LSTM algorithm optimization | |
Wu et al. | Dynamic risk analysis for adjacent buildings in tunneling environments: a Bayesian network based approach | |
CN108319788B (zh) | 一种识别雨水管网污水直排污染源的方法 | |
CN114912079B (zh) | 污水厂碳排放量的计算方法、装置、设备及存储介质 | |
CN103898890B (zh) | 一种基于bp神经网络的双桥静力触探数据的土层量化分层方法 | |
CN115713448A (zh) | 基于汇水单元的流域水污染常规因子快速溯源方法 | |
CN117609218B (zh) | 基于动态知识库的排水管网gis数据质量控制方法及系统 | |
CN111080129B (zh) | 排水管网监测点的评分方法、装置和电子设备 | |
Ierimonti et al. | A Bayesian-based inspection-monitoring data fusion approach for historical buildings and its post-earthquake application to a monumental masonry palace | |
Liu et al. | Uncertainty quantification of machine learning models to improve streamflow prediction under changing climate and environmental conditions | |
Lu et al. | Uncertainty quantification of machine learning models to improve streamflow prediction under changing climate and environmental conditions | |
CN117171128A (zh) | 一种基于四水耦合模型的水生生物保护阈值识别方法 | |
CN116822366A (zh) | 一种径流污染负荷计算模型构建和径流污染负荷计算方法 | |
CN116776263A (zh) | 基于数据驱动的街区尺度建筑高能耗异常检测方法及系统 | |
CN115204688A (zh) | 排水系统健康性综合评价方法 | |
CN114324800A (zh) | 一种排水管道来水监测方法及其系统、存储介质 | |
AU2021101951A4 (en) | Method of real-time safety warning of tunnel approaching construction based on data fusion | |
Maruéjouls et al. | Impact of two pollutant fluxes calculation methods along with uncertainties on estimation of combined sewer overflow contribution to environmental pollution at the whole urban catchment scale | |
CN107977727A (zh) | 一种基于社会发展和气候因素预测光缆网阻断概率的方法 | |
Zhou et al. | Real‐time prediction and ponding process early warning method at urban flood points based on different deep learning methods | |
CN113378380A (zh) | 一种基于数值模拟的地下水中污染物溯源方法 | |
Abotaleb et al. | Forecasting and modeling on average rainwater and vapor pressure in Chelyabinsk Russia using deep learning models | |
Kabir et al. | Prediction of water mains failure: a Bayesian approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |