CN114416692B - 一种构建流域水环境管理数据资源体系的方法 - Google Patents

一种构建流域水环境管理数据资源体系的方法 Download PDF

Info

Publication number
CN114416692B
CN114416692B CN202111615133.6A CN202111615133A CN114416692B CN 114416692 B CN114416692 B CN 114416692B CN 202111615133 A CN202111615133 A CN 202111615133A CN 114416692 B CN114416692 B CN 114416692B
Authority
CN
China
Prior art keywords
data
water
water environment
resource system
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111615133.6A
Other languages
English (en)
Other versions
CN114416692A (zh
Inventor
刘晓
刘海涵
耿京保
曾可
黄孝艳
邵景安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Ecological Environment Big Data Application Center
Original Assignee
Chongqing Ecological Environment Big Data Application Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Ecological Environment Big Data Application Center filed Critical Chongqing Ecological Environment Big Data Application Center
Priority to CN202111615133.6A priority Critical patent/CN114416692B/zh
Publication of CN114416692A publication Critical patent/CN114416692A/zh
Application granted granted Critical
Publication of CN114416692B publication Critical patent/CN114416692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种构建流域水环境管理数据资源体系的方法,包括:收集所述研究区域内的水域环境信息;分析所述区域内的水环境特征;确定所述区域内水环境主要问题;确定水环境资源体系的构建目标;进行所述资源体系的需求分析;对所述区域内的水环境资源体系信息进行数据抽取;构建流域水环境数据资源体系模型;将抽取后的数据信息加载到所述资源体系模型;形成适于流域水环境管理的数据资源体系。

Description

一种构建流域水环境管理数据资源体系的方法
技术领域
本发明涉及流域水环境数据库系统的开发技术领域,具体而言,涉及一种构建流域水环境管理数据资源体系的方法。
背景技术
加强水环境大数据应用,是全面提升生态环境治理体系和治理能力现代化的重点内容,是实现水生态环境科学治理、精准治理的具体举措。国家战略和需求层面,建设和应用水环境管理大数据智慧监管平台,加强水环境质量、污染源、水文、环境承载力等海量数据关联分析和综合研判,更是一项长期的重要任务。
我国境内河流众多,地形地貌复杂,生态环境脆弱,加上地区水资源的禀赋和经济发展空间匹配差异较大,不同流域存在不同程度的水环境压力,水污染原因复杂,经多年治理,呈现“大河”水质好而“小河”水质差的问题。随着管理深度加大和频度的提高,水环境管理面临诸多困难:
数据多头、散乱,不能满足水环境的综合智能管理。水环境的自然属性决定了水环境质量改善必须从流域尺度,统筹考虑点源和非点源污染传输全过程,综合分析水(降水、地表径流、壤中流等)、土壤、地形、植被、受纳水体的生态功能等多种要素对水环境质量的相互影响。水环境管理部门掌握了已经掌握污染源在线监测数据、污染源调查数据、环境质量数据、流域背景数据、气象遥感等,为后续的大数据挖掘、人工智能、分布式计算,大数据关联分析、趋势分析、空间分析等提供了有利条件。但这些数据分散在多个业务工作部门,亟需构建与流域水环境管理要求相适应的大数据库。
水环境问题发现不及时、不全面。多年来,水环境问题多采用手工监测实现,且监测频次一月一次,加之国家、省、市、区县多级监测数据上下共享滞后等原因,难以满足快速发现环境问题的需求。而且,以往水环境问题多重视水质超标,对水质恶化、临界超标等的原因追溯问题识别较少。
污染源排放量估算动态更新不及时。精准溯源需要污染源排放量的科学估算做支撑,然而,目前污染源清单的建立主要依靠工作量大、周期长的实地调查工作,且除少数工业企业有小时排放数据外,大多数点源、面源的污染排放量的估算多为按年计算,忽略了污染物排放的中间过程,但每个月水质问题都不一样,无法做到按照污染源的动态估算,无法满足科学管理需求。
污染源识别不及时、不精准。水环境管理主要基于问题导向,针对污染问题开展溯源。以往的办法主要依靠长时间的野外调查分析,研判一次污染问题发生的污染物来源。由于识别结果分析时间滞后,往往得出的是流域宏观和常态化问题,无法根据当期水质快速得出溯源结果。加之,数据范围、数据采集时间限制,无法将污染源精准识别到乡镇、点源上,更不能按照季节、水期变化,得出精准的污染源溯源结果,无法满足管理部门精准溯源的需求。
以上问题解决,需要探索建立流域水环境数据资源体系的方法,并建成适应流域水环境智慧管理需求的数据库系统,以强化多源异构数据整合协同、融合处理、关联管理、及时调用等。
发明内容
本发明旨在解决上述问题,提出一种构建流域水环境管理数据资源体系的方法。根据本明的方法,具体包括:确定构建流域水环境数据资源体系的研究区域;收集所述研究区域内的水域环境信息;分析所述区域内的水环境特征;确定所述区域内水环境主要问题;基于所述区域内的所述水环境主要问题确定水环境资源体系的构建目标;基于所述构建目标,进行所述资源体系的需求分析;基于ETL数据抽取技术对所述区域内的水环境资源体系信息进行数据抽取;在所述数据抽取的基础上,构建流域水环境数据资源体系模型;将抽取后的数据信息加载到所述资源体系模型;所述所述资源体系模型包括:水背景、水空间、水质量、水污染、水监管、水模型六个大类55小类;所述水模型具体包括:断面水质当月评价预测信息、断面主要污染因子预测信息、断面水质累计平均预测信息、三类水标准_当月评价超标因子及倍数预测信息、三类水标准_累计平均超标因子及倍数预测信数据资源体系构建完成,形成适于流域水环境管理的数据资源体系。
优选地是,所述数据抽取工具采用开源软件kettle。
优选地是,所述数据抽取过程采用的数据治理方法包括:汇聚分散数据,构建集中数据资源池;明确数据定义,统一数据管理标准;处理数据资源,支撑数据应用需求;评估数据质量,提升数据使用价值实现数据质量评估和管控,完善数据质量管控流程,提升数据质量和应用支撑能力。
优选地是,所述数据治理在数据治理服务平台上进行,所述数据治理服务平台包括:数据存储、数据挖掘和分析、数据管理。
优选地是,所述水域环境信息来自于:政策资料标准规范、流域基础资料、流域基础图件、现场监测调查以及无人机航飞采集。
优选地是,分析所述区域内的水环境特征包括分析:区域概况、水环境状况、水污染物排放状况、污染治理现状。
优选地是,所述水环境状况包括水环境质量和水资源状况;所述水环境质量包括:水环境质量排名、市控及以上断面水环境质量以及自动监测断面布设情况;所述水资源状况包括:水资源总量、供水量、用水量、水资源开发利用率和用水效率。
优选地是,所述资源体系的需求分析包括:确定数据需求、确定数据整合需求、确定数据资源访问服务需求、确定数据标准管理功能需求、确定数据质量管理功能需求、确定数据质量校验标准以及非功能需求。
优选地是,所述水空间信息是GIS图层数据资源目录,其进一步包括:基础图层信息、入河排污口图层信息、工业污染源图层信息、排污许可图层信息、风险源专题图层。
优选地是,所述将抽取后的数据信息加载到所述资源体系模型包括:数据建模、建立实体关系E-R概念模型和建立模型实体结构。
附图说明
本公开的各种实施例或样例(“示例”)在以下的具体实施方式和附图中得以公开。没必要将附图按比例绘制。一般而言,除非在权利要求中另有规定,否则可以任意顺序执行本发明所公开方法的操作。附图中:
图1示出了根据本发明的一种构建流域水环境数据资源体系的方法流程图;
图2示出了根据本发明的流域水环境数据资源体系模型;
图3为污染源信息–废水排口的数据建模过程;
图4为污染源信息–污染源企业ER图。
具体实施方式
在详细解释本公开的一个或多个实施例之前,应当理解,实施例不限于它们具体应用中的构造细节,以及下文实施方式或附图所提出步骤或方法。
一、确定构建流域水环境数据资源体系的研究区域
图1示出了根据本发明的一种构建流域水环境数据资源体系的方法流程图。如图1所示,构建流域水环境数据资源体系首先要确定研究区域,不同区域的地理位置和生态环境不同,其水环境管理和应用的层面不同。例如,重庆地处长江上游和三峡库区腹心地带,是长江流域重要生态屏障和全国水资源战略储备库。璧南河是长江流域重要次级河流,属典型次级河流,且全流域均在重庆辖区内。据统计,“十三五”期间,在重庆市境内布设的国家考核断面所涉及的30条河流中,璧南河水质指数排名2018~2019年为30名,2020年为29名,是全市水质目标考核未达标的关键河流之一,主要污染物为化学需氧量、总磷、氨氮、高锰酸盐指数、五日生化需氧量。而且,由于沿岸污染物来源复杂,既有工业问题、又有农业问题、养殖问题,也有城镇问题,以两河口国控断面为代表的水质状况极不稳定。2016~2019年国控考核断面两河口水质不能稳定达标,48个月水质监测结果中,有14个月水质超标,超标比例高达29%,主要超标因子总磷共超标48次,化学需氧量共超标34次,氨氮共超标8次,其他因子超标较少。2018年1月甚至为劣Ⅴ类。因此,选择璧南河流域开展流域水环境智慧管理系统研发与应用具有很好的代表性。
二、收集研究区域内的水域环境信息
构建流域水环境数据资源体系,首先得获取相关水域的环境信息,这些信息获取的渠道或来源包括:政策资料标准规范、流域基础资料、流域基础图件、现场监测调查以及无人机航飞采集。
政策资料标准规范如表1所示:
表1相关依据和标准
Figure GDA0003944154630000031
/>
Figure GDA0003944154630000041
流域基础资料包括水环境质量资料,污染源相关资料,水文资料和人口资料。水质监测数据,主要因子包括:pH值、氨氮、氟化物、高锰酸盐指数、化学需氧量、挥发酚、溶解氧、石油类、五日生化需氧量、总磷、总氮等。污染源相关资料主要包括:工业污水排放数据、各城镇生活污水及垃圾排放数据、各镇畜禽/水产养殖数据、各镇农田面源/水土流失数据。水文资料包括:年降雨量、流量等数据、水文站年水文数据。
流域基础文件:就指定研究区域而言,可以通过购买或网站下载,获得璧南河流域2018-2019年作物非生长季2m高分辨率遥感数据,用于土地利用遥感解译校证的2018年第三次土地调查结果数据、行政区划矢量数据和流域水系划分数据,12.5m分辨率的数字高程图,土壤类型和土壤属性数据等。辅助解译和结果验证的野外踏勘影像与GPS点位均有项目组自行完成,借助经纬度予以空间化。
现场监测调查:就指定研究区域而言,结合主要干支流及已有监测点位数据,在璧南河的上中下游选择7个监测点(包括双河口、主河道斑竹二社双河口、新大桥、安乐村八社何家大院子、狗窝凼、廖家油坊、两河口)。使用便携式多普勒流量计FLOW-ADC-1000,每个月上、中、下旬进行常规监测3次,逢降雨期间及雨后进行加密监测。共获得2019年12月至2020年5月,共6个月的水文数据,包括流量、流速、河宽、河深等数据。
无人机航飞采集:采用无人机航测技术,可以获取遥感影像数据。针对璧南河流域,沿两岸各1KM范围,共计342.33平方公里的面积进行遥感影像采集、内外业处理工作,并开展问题图斑解译及现场核实工作,形成多源成果数据。外业像控点按照均匀分布的方式进行布设,并通过合理调整飞行参数,保证采集影像地面分辨率优于10cm。内业通过平差处理,解算得到CGCS2000地理坐标系,并开展纠偏,去重影、拉花、雾霾、调色及拼接镶嵌等工作,为问题图斑解译做好基础工作
三、分析区域内的水环境特征
1.区域概况
包括地理位置、地质地貌、气象气候、土壤植被、土地利用及水土保持现状以及社会经济状况。
地理位置信息主要包括流域内的干流和支流水系情况以及区域内的水库水系。
气象气候方面,璧南河流域属长江上游亚热带湿润季风气候区,四季分明,气候适宜,降雨量充足。雨量充足,多年平均降雨量1047.5mm;风力小湿度大,多年平均风速1.6m/s,平均相对湿度81%;多云雾,日照少。流域气温垂直分布相差较大。降水量年内分配不均。多年平均流量5.176m3/s,年径流总量为1.5644×108m3。璧南河流域水土流失面积为493.85km2,占流域面积的46.6%,年平均侵蚀模数4223t/km2,年平均侵蚀总量达207.67×104t。其中强度以上流失面积112.29km2,占水土流失面积的22.74%。
土壤植被方面,璧南河流域内土壤类型主要有黄壤、紫色土、潮土、水稻土4类,以水稻土和紫色土为主,黄壤、潮土次之。流域内植被覆盖主要类型为林地和耕地,流域呈狭长状由北向南流,流域东西两侧分布山脉,林地遍布,包括常绿阔叶林、落叶阔叶林等,是流域重要的水源涵养地。流域内经济林主要为柑橘树、梨树等。耕地分布于中部宽广谷地,农作物以水稻、玉米、红薯以及茎叶类蔬菜为主。
土地利用及水土保持现状方面,2018年,璧山区幅员面积915km2,城市建设用地面积31.73km2,常用耕地面积239.18km2,人均耕地面积0.554亩。璧山区耕地面积239.18km2,其中田173.92km2,土65.26km2。地势较平坦,82%以上耕地在15°以下,约50%在8°以下。土壤肥沃,一、二级土壤占总耕地的68.1%;二级土壤占42.6%,适宜发展蔬菜生产的耕地约201km2。
社会经济状况方面,璧南河流域地处重庆主城都市区渝西片区,第一、第二产业都较发达。域内有璧山国家级高新工业园区,璧玉梨、蜜莉葡萄、云雾山枇杷、青杠板栗、云雾绿茶等农产品基地,璧南河流域主要以种植业和畜禽养殖业为主。2018年璧南河总人口为93.42万人,其中城镇人口46.02万人,乡镇人口47.39万人,分别占47.49%和51.51%。
2.水环境状况
包括水环境质量、水资源状况。
水环境质量包括:水环境质量排名、市控及以上断面水环境质量以及自动监测断面布设情况。
水资源状况包括:水资源总量、供水量、用水量、水资源开发利用率和用水效率。
3.水污染物排放状况
以本发明的研究区域为例,根据环统、二污普及其他调查数据显示,截止2020年,璧南河流域共有工业污染源22000余个,畜禽养殖场24000余个生活污水处理厂2600余个。COD排量总量为84098.90万吨,各类污染源COD排放量依次为:工业源80253.10万吨(占比95.43%)>农业源3695.98万吨(占比4.39%)>生活源149.82万吨(占比0.18%)。氨氮排放总量为7703.12万吨,各类污染源氨氮排放量依次为:工业源7666.94万吨(占比99.53%)>农业源30.42万吨(占比0.39%)>生活源5.75万吨(占比0.07%)。总磷排放总量为137.22万吨,各类污染源氨氮排放量依次为:工业源91.39万吨(占比66.60%)>农业源44.89万吨(占比32.71%)>生活源0.94万吨(占比0.68%)。
4.污染治理现状
包括:城镇生活污水处理情况、农村生活污水处置情况、园区污水治理情况、城市生活垃圾处置情况、畜禽养殖污染治理情况、入河排污口分布情况。
四、确定区域内水环境主要问题
在区域水环境特征分析的基础上,可以获得区域内水环境的主要问题。以本发明的研究区域壁南河区域而言,其存在的主要问题是:
人均水资源量匮乏。2018年璧山区水资源总量为4.1056亿立方米,常住人口81.19万人,人均水资源拥有量为506m3,只接近全市人均水资源量1697m3的1/3,是全国人均量1972m3的1/4,属于重庆市西部缺水区县之一。
水土流失现象普遍存在。2018年重庆水土保持公报数据显示,璧山区水土流失面积205.54km2,占全区总面积的22.46%。2020年现场调研发现璧山区境内水土流失现象较为严重,大雨过后泥沙在地表径流冲刷下进入河流,河流水质发黄,携带大量的泥沙。
水质不稳定,化学需氧量、总磷、氨氮超标情况突出。璧南河水质排名靠后,市考断面矮墩桥和市控断面油溪,均存在年度累积平均水质不达标的情况。璧南河两河口国控断面水质不稳定,2016-2019年近四年月度累积平均水质中,超过29%的时间水质不达标。综合考虑年度和月度水质结果,均存在化学需氧量、总磷、氨氮超标的情况,且超标次数占比较大,在临界超标情况中,化学需氧量和氨氮最高也分别达到了99%和98%的临界超标率。
因此,人均水资源的缺乏,加上水质问题的突出,使得选择璧南河流域作为该研究的示范区域意义重大,同时,水土流失的普遍存在,决定了,面源污染研究在研究中的重要地位。
五、确定水环境资源体系的构建目标
由于流域水环境数据资源具有多点采集、分散处理的特点,异构的水环境数据资源分散存储于中央、省、市和区县各级生态环境单位;同时水环境涉及数据面广生态环境、水利、国土、林业、农业、住建等各个部门,数据相互分散和独立的数据资源,服务目标单一,利用效率低下,信息共享问题显得越来越突出。目前国家到地方,均无统一的流域数据资源目录体系建设的相关规范。
本发明的目标是按照流域水环境智慧管理需求,全面梳理所需数据资源,为流域水环境智慧管理提供流域水环境智慧管理资源体系的标准规范,提升数据综合利用水平,充分发挥生态环境数据资源价值。
建立流域水环境数据管理体系。从政策、流程、组织与人员、技术平台与工具等方面开展数据体系建设工作,形成数据全生命周期管理、数据资源管理、编码统一管理、数据质量管理等几个核心管理领域。重点是落实数据质量保障体系。
在现有生态环境数据中心基础上整合环境核心数据,构建统一完整的数据资源视图。通过统一完整的数据资源视图,解决部门之间的业务和数据交叉问题,避免因业务和数据交叉导致的数据资源不一致问题,全面提升一体化管理能力。
建立水环境信息的资源目录体系,整合生态环境核心数据,对现有环境业务数据编码标准、数据质量、交互数据及质量、传输数据质量进行智能研判。通过数据资源管理,解决数据资源分散存储、版本不统一问题,实现数据统一交换,提升信息集成水平,提高数据质量;通过编码管理,解决各业务系统重复生成编码而导致同物不同码的问题,实现编码的统一生成、变更与发布;通过数据质量管理,实现对数据进行事前、事中和事后的校验与监控;通过对数据模型、数据标准、业务定义、技术定义等管理,为业务系统之间的数据交换、共享、集成提供基础支撑。
六、进行资源体系的需求分析
1.确定数据需求
(1)数据资源总体分布
根据数据资源分类以及业务系统对数据资源的维护、使用情况,确定在环境信息资源目录体系平台建设完成之后,数据资源在平台以及环境业务系统中的分布情况。
环境信息资源目录体系平台是对数据资源的统一、集中管理;
各业务系统间数据资源相关交互统一通过环境信息资源目录体系平台实现;
集中管理类数据资源分布在环境信息资源目录体系平台,统一在环境信息资源目录体系平台进行维护;
业务系统中按照需求保留适当的数据资源本地副本;
数据资源来源于大数据中心、办公自动化、污染源自动监测、督查督办等多个业务系统中水环境相关的数据。
(2)数据资源判别标准
根据对现有数据模型的研究分析及相关的行业、项目经验,整理出本发明使用的数据资源判断标准。
2、确定数据整合需求
(1)资源唯一识别原则
数据资源识别是指根据识别条件,对新进入平台的数据资源进行判断,该对象是否已经存在于平台。
数据资源识别的规则适用于各系统新增数据以及某个数据资源修改了识别条件相关的数据项时,判断新数据资源是否与平台中的既有对象为同一对象。
识别规则不仅用于平台联机接口处理数据资源新增,批量处理时,数据资源整合也会用到识别原则。
(2)数据覆盖原则
数据覆盖过程必须按照下述原则顺序依次判断是否将源系统数据覆盖平台中对应的数据。按照唯一性原则、有效性原则、时间优先原则。
(3)数据校验规则
为保证平台及各业务系统的数据质量,平台提供数据校验功能。对平台管理的数据资源,提供事中校验功能(进入平台时的数据校验)及事后校验功能(进入平台后的数据校验),对其他业务系统及数据中心,提供事后校验功能。
数据格式校验要依据已有数据标准,结合平台数据模型对进入平台的所有数据进行校验,包括:数据完备性校验、数据唯一性校验、数据一致性校验、数据类型校验,是指待校验的数据类型要符合服务接口及平台数据模型规定的数据类型、完整性校验。
(4)历史数据保留规则
历史数据保留范围:核心数据资源,都需要保留数据新增、修改、删除、锁定、解锁的历史。历史数据保留原则:建议只保留每条数据记录最近20条历史记录,并支持定时及手动触发清理历史数据功能。
3、数据资源访问服务需求
环境信息资源平台除保存数据资源信息外,还应记录数据审计信息,包括数据在平台的创建时间、数据来源系统,源系统数据时间、最后更新时间、最后更新系统、最后更新用户等信息。包括:查询类需求、新增类需求、更新类需求、删除类需求、数据资源批量加载需求、数据资源准实时加载需求、数据资源订阅/发布需求、数据资源导入/导出需求、数据资源访问日志需求。
4、数据标准管理功能需求
(1)数据模型管理需求
提供数据模型实体和属性新增、修改功能,提供物理模型导入/导出、物理模型比对功能。记录模型中各实体及属性来源系统和引用系统,生成模型影响分析报告,记录模型变更历史及版本信息。
(2)分类\编码管理需求
提供信息分类和编码规则定义功能,包括用途、类型、取值、业务含义、参考来源等,并记录变更日志;提供分类和编码规则的导入/导出功能。为其他业务部门仅提供信息分类和编码规则的查看功能。
(3)数据集标准管理需求
提供数据集、数据元定义功能,包括字段名称、字段描述、数据类型、长度、业务含义等,并记录变更日志。提供数据集、数据元标准的发布功能。提供数据集、数据元导入/导出以及标准变更版本管理功能。
5、数据质量管理功能需求
(1)质量问题发现:
根据预定校验规则对指定数据定期或手动进行质量校验,校验规则定义包括校验目标、校验范围、校验逻辑、校验输出形式等,数据质量校验完成后保存校验结果以及样本问题数据,以便进行追踪分析。
(2)质量问题分析
基于数据质量问题发现的结果,对数据质量问题进行统计,并根据定义的报告格式生成图表分析报告,报告格式可由用户自定义。
(3)质量问题跟踪
提供数据质量问题的查看、分配、反馈等流程处理功能,对已处理完成的数据质量问题进行复核。
(4)数据质量评估
包括设置数据质量评价指标,开发评价模型,自动生成《数据质量评估报告》,定期形成数据质量报表。数据质量评价指标管理功能可以实现定期评估和专项评估功能,评估流程要求可以设置为自动或手工启动模式。
6、数据质量校验标准
规则模板用于生成常规的校验规则,包括:唯一性检查、编码检查、值域检查、长度检查、格式检查、非空检查。配置好的规则模板会在配置校验规则时使用。
配置校验规则的模板,由常用的6种规则模板:唯一性检查、编码检查、值域检查、长度检查、格式检查、非空检查。
7、非功能需求
(1)响应时间
平台部署在两台PC服务器,在关系型数据库,Java应用服务器条件下应达到表2所示的要求:
表2:Java应用服务器条件下应达到的要求
Figure GDA0003944154630000091
(2)数据安全性
确保系统数据运行安全,是系统设计中最重要的原则,系统的数据相当一部分为保密数据,因此安全保密性对系统显得尤其重要,系统的总体设计必须充分考虑这一点。系统运行的网络和系统环境应遵照相关安全标准。
七、基于ETL数据抽取技术进行数据抽取
1、确定ETL数据抽取工具
本发明的数据抽取工具采用成熟的开源软件kettle。
kettle平台包括UI、插件管理、元数据管理和数据集成引擎。UI显示Spoon这个核心组件的界面,通过xul实现菜单栏、工具栏的定制化,显示插件界面接口元素。元数据管理引擎管理ktr、kjb或者元数据库,插件通过该引擎获取基本信息。插件管理引擎主要负责插件的注册。数据集成引擎负责调用插件,并返回相应信息。
Spoon在启动的时候会对所有插件进行注册,并保存在PluginRegistry类里面。平台通过查找PluginRegistry注册表获取插件信息。Kettle安装插件需要进行重启,卸载插件也只需简单的删除plugins目录结构下对应的文件即可。
Kettle中调用插件时,平台通过元素管理引擎获取对应的插件信息,通过反射生成插件对象,调用对应的函数。
Spoon界面交互相关的处理器都封装到SpoonDelegates中,根据不同的事件类型调用对应的事件处理函数。
SpoonStepsDelegate提供了与UI交互相关的处理事件,如复制、删除、粘贴、编辑等。双击某个step时会调用编辑功能,编辑功能是对插件StepDialogInterface的封装。
2、采用适当的数据治理方法
数据治理服务系统可以构建一体化的数据管理体系,将分散、异构的数据通过采集汇聚和清洗处理,形成可供上层应用使用的标准化数据,并根据实际的业务需求,高效进行数据地开发应用,分析挖掘数据的内在价值,实现以数据驱动的场景应用建设。
本发明采用的数据治理方法如下。
(1)汇聚分散数据,构建集中数据资源池
汇聚多种不同类型的数据,整合数据资源,形成统一集中的数据资源池,进行高效数据运用。
(2)明确数据定义,统一数据管理标准
通过统一的标准管理,可以明确数据定义,使数据的内涵在运用上保持一致、完整和可控。
(3)处理数据资源,支撑数据应用需求
实现结构化和非结构化数据处理,实现数据清洗、转换、计算和加载等功能,为上层应用提供所需形式的数据资源。
(4)评估数据质量,提升数据使用价值实现数据质量评估和管控,完善数据质量管控流程,提升数据质量和应用支撑能力。
通过对数据资源中心现有数据资源的梳理,制定统一的数据接口规范,通过服务接口封装或ETL数据抽取,形成物理分开,逻辑统一的综合业务数据库。在此综合业务数据库上提供统一的数据服务。后续根据上层应用的不同需求,灵活封装成不同的服务,供上层应用调用。
对数据进行数据治理要在数据治理服务平台上进行,数据治理服务平台共有3部分组成,分别为数据存储、数据挖掘和分析、数据管理。
a)数据存储
数据治理服务平台的数据存储,采用了多种分布式存储技术来存储从数据源汇聚到的数据,从而建立大数据存储资源池,便于实现快速查询、智能检索、统计分析、深度挖掘,统一对应用提供数据服务。为此,平台的数据存储功能中提供分布式文件存储功能,主要用于存储结构化和非结构化数据。包含基础数据库、支撑数据库、专题数据库的采集、处理、更新。
b)数据分析挖掘
数据分析挖掘系统所提供的算法由一个或多个算子组成。系统内置Join/Union/GroupBy等多种数据操作算子,并内置梯度下降、决策树、逻辑回归、随机森林、SVM、K均值等多种机器学习算法算子。除了内置算子,系统还应内置多个数据挖掘、机器学习、预测性建模及优化好的分析流程,多种预置模型,支持超大数据量训练。
c)数据管理
数据服务注册:通过服务注册功能安全可靠地将基础数据服务和数据查询分析服务开放给各应用使用。
数据服务发布:通过服务发布功能安全可靠地将基础数据服务和数据查询分析服务开放给各应用使用。
数据服务权限:通过服务权限分配功能安全可靠地将基础数据服务和数据查。
八、构建流域水环境数据资源体系模型
根据本发明的方法,设计处的流域水环境数据资源体系模型如图2所示。该模型包括水背景、水空间、水质量、水污染、水监管、水模型六个大类55小类,分别为:
水背景信息,12个小类;水空间信息,5个小类。水质量信息,11个小类;水污染信息,11个小类;水监管信息,11个小类;水模型信息,5个小类。
1、水背景信息
本发明所指的水背景信息是指如下表3所示的水环境基础信息资源,包括12个小类。
表3水环境基础数据资源目录
Figure GDA0003944154630000111
/>
Figure GDA0003944154630000121
2、水质量信息
本发明所指的水质量信息是指如下表4所示的水环境监测信息资源,包括11个小类
表4水环境监测数据资源目录
Figure GDA0003944154630000131
/>
Figure GDA0003944154630000141
3、水监管信息
本发明所指的水监管信息是指如下表5所示的水环境监管数据资源目录,包括11个小类。
表4水环境监管数据资源目录
Figure GDA0003944154630000142
/>
Figure GDA0003944154630000151
4、水污染信息
本发明所指的水污染信息是指如下表6所示的涉水污染源数据资源目录,包括11个小类。
表6涉水污染源数据资源目录
Figure GDA0003944154630000161
/>
Figure GDA0003944154630000171
5、水模型信息
本发明所指的水模型信息是指如下表7所示的水模型水质预测数据资源目录,包括5个小类。
表7水模型水质预测数据资源目录
Figure GDA0003944154630000172
/>
Figure GDA0003944154630000181
6、水空间信息
本发明所指的水空间信息是指如下表8所示的GIS图层数据资源目录,包括5个小类。
表8GIS图层数据资源目录
Figure GDA0003944154630000182
/>
Figure GDA0003944154630000191
九、将抽取后的数据加载到资源体系模型
1、数据建模
数据建模指的是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。将经过系统分析后抽象出来的概念模型转化为物理模型后,利用工具建立数据库实体以及各实体之间关系的过程(实体一般是表)。
如图3所示,其示出了污染源信息–废水排口的数据建模过程。
2、建立实体关系E-R概念模型
建立E-R概念模型,例如,如图4所示的污染源信息–污染源企业ER图。
3、建立模型实体结构
模型的实体结构如表9所示。
表9模型实体结构
Figure GDA0003944154630000192
/>
Figure GDA0003944154630000201
十、数据资源体系构建完成
数据资源体系构建完成后,对已经现场调查和搜集的资料进行处理整合和ETL抽取,解决多源数据异构问题,建立了示例性河流基本信息数据库。对于示例性的壁南河流域而言,得到如下的数据处理结果:
(1)水环境数据处理及成果
1)河流基本信息
获取1959-2020年的流量、降雨量等水文气象数据、人口、经济(含单独的分镇街的农业总产值)数据及其他如流域面积、河流长度、自然地理环境等河流基本信息近20000余条。
2)水质监测数据
获取2016-2020年4个市控及以上断面的手工监测数据11000余条(包含23个监测因子和水质评价数据),2019-2020年15个自动监测断面的监测数据10万余条(包含9个监测因子和水质评价数据),2018年-2020年55个评估监测断面的监测数据390条(包含8个监测因子和水质评价数据),2019至今94个区控断面监测数据约800条(主要为水质评价数据)。
(3)水污染数据
通过前期收集整理入库污染源共48000余个,其中,工业污染源22000余个,农业污染源24000余个,生活污染源2600余个。通过断面及流域溯源模型计算生成2020年污染溯源数据近6000条。断面研究获取2015-2017年污染源相关数据200余条,包含工业污染源排放量数据300余条,生活污染源产生量及入河量数据10条(包含城镇污水垃圾、农村污水垃圾),农业污染源产生量及入河量数据10条(包含畜禽养殖及水产、农业面源),水土流失污染入河量数据10条,地表径流污入河量数据10条。获取1-12月的降雨系数、来水系数12条。获取每个月各个污染因子(包含化学需氧量、氨氮、总磷等)浓度数据130余条。流域研究获取2015-2017年污染源相关数据482条,包含工业污染源排放量数据300余条,生活污染源产生量及入河量数据10条(包含城镇污水垃圾、农村污水垃圾),农业污染源产生量及入河量数据10条(包含畜禽养殖及水产、农业面源),水土流失污染入河量数据10条,地表径流污入河量数据10条。获取1-12月的降雨系数、来水系数12条。获取每个月各个污染因子(包含化学需氧量、氨氮、总磷等)浓度数据130余条。
(4)水模型计算数据
将训练数据进行预处理,并入库,获得:工业废水数据1612,340kB,27个字段;畜禽数据30350,6500KB,28个字段;水产养殖数据14342条,5500KB,15个字段;化肥使用量数据14274条,6500KB,21个字段;秸秆数据14320条,6500KB,18个字段;有机肥使用量数据13919条,共5500kB,16个字段;农村生活污水数据14250条,27个字段;农村生活垃圾数据14250条,27个字段;城市生活污水数据4077条,1500KB,21个字段;城市面源数据13912条,21个字段;土壤侵蚀数据14105条,2500KB,23个字段。
通过以上训练数据,本发明利用断面溯源模型,成功计算生成以断面为溯源核心的2020年的12000条污染排放量、入河量以及污染占比数据,完成了两河口断面的溯源。同时,利用流域分析模型,成功计算生成以流域为溯源核心的2020年的45000条排放量,入河量以及污染占比数据,精准的完成了璧南河流域的污染物溯源。
(4)GIS空间数据及航飞数据
1)GIS空间数据
为计算农业面源污染,通过对2018-2019年的2m分辨率遥感影像图进行目视解译,获取璧南河流域20个乡镇的包括水田、旱地、林地、园地、草地、水域、农村建设用地、城镇建设用地等7类用地的图斑数据338715个(2018年)、338661个(2019年)。其中,以林地为主,面积为547.59km2,占比过半,为53.33%。其次依次为农业用地(面积266.46km2,占比25.95%)、草地(面积162.48km2,占比15.83%)、建设地(面积39.56km2,占比3.85%)、水域(面积10.73km2,占比1.04%)。并对流域内土壤类型进行解译,获取水稻土、紫色土、黄壤、潮土4种土壤类型图斑数据1073个。其中,最多土壤为水稻土,面积471.75km2,占比近半为45.94%;其次为紫色土,面积298.34km2,占比29.06%;再次之为黄壤,面积234.83km2,占比22.87%;潮土分布最少,面积21.89km2,占比2.13%。
2)航飞数据
获取覆盖璧南河周边一公里范围,342.33平方公里的航飞数据,包含附件照片23284张,附件视频1526个,附件全景340个,共解译疑似问题12571个,其中涉水工业企业问题690个,漂浮物区域问题69个,农业种植问题7426个,小水电问题12个,城区硬化岸线问题28个,非城区自然岸线问题180个,水产养殖问题4166个。
流域数据资源体系建设是实现流域水环境智慧管理业务应用和数据互联共享的基础和关键。本发明围绕山地流域水环境智慧管理数据资源需求,按水背景、水空间、水质量、水污染、水监管、水模型六个大类建立起完善的流域水环境管理数据资源目录体系,为跨部门、跨平台的流域水环境数据聚集、整合与共享提供了支撑。本发明以璧南河流域为例进行了验证,通过ETL数据抽题技术,解决多源异构数据融合问题,建立了示范河流基本信息数据库,汇集生态环境、水利、住建、国土、林业、农业等相关部门数据,覆盖河流基本信息、水质信息、自然环境、水文信息、社会经济、污染源、河网信息,入库水质监测点位86个,水文监测日数据7170条,工业污水处理厂、畜禽养殖场、工业污染企业、入河排污口、水电站等各类污染源15042个,航飞数据影像数据200GB,解译关注问题图斑2.3万条,将璧南河两河口国家考核断面水质监测数据采集频次由每月一次缩短为4小时1次,实现各类空间信息、属性信息、监测数据、各类污染源基础信息、环保管理数据的动态更新。

Claims (8)

1.一种构建流域水环境管理数据资源体系的方法,包括:
确定构建流域水环境数据资源体系的研究区域;
收集所述研究区域内的水域环境信息;
分析所述区域内的水环境特征;
确定所述区域内水环境主要问题;
基于所述区域内的所述水环境主要问题确定水环境资源体系的构建目标,所述构建目标是为流域水环境智慧管理提供流域水环境智慧管理资源体系的标准规范,提升数据综合利用水平,充分发挥生态环境数据资源价值;
基于所述构建目标,进行所述资源体系的需求分析,确定数据需求、数据整合需求、数据资源访问服务需求、数据标准管理功能需求、数据质量管理功能需求、数据质量校验标准、非功能需求;
基于ETL数据抽取技术对所述区域内的水环境资源体系信息进行数据抽取;
在所述数据抽取的基础上,构建流域水环境数据资源体系模型;
将抽取后的数据信息加载到所述资源体系模型;
所述所述资源体系模型包括:水背景、水空间、水质量、水污染、水监管、水模型六个大类55小类;
所述水模型包括:断面水质当月评价预测信息、断面主要污染因子预测信息、断面水质累计平均预测信息、三类水标准_当月评价超标因子及倍数预测信息、三类水标准_累计平均超标因子及倍数预测信息;
所述水空间模型包括:基础图层信息、入河排污口图层信息、工业污染源图层信息、排污许可图层信息、风险源专题图层;
数据资源体系构建完成,形成适于流域水环境管理的数据资源体系。
2.根据权利要求1所述的构建流域水环境管理数据资源体系的方法,其特征在于,所述数据抽取工具采用开源软件kettle。
3.根据权利要求1或2所述的构建流域水环境管理数据资源体系的方法,其特征在于,所述数据抽取过程采用的数据治理方法包括:汇聚分散数据,构建集中数据资源池;明确数据定义,统一数据管理标准;处理数据资源,支撑数据应用需求;评估数据质量,提升数据使用价值实现数据质量评估和管控,完善数据质量管控流程,提升数据质量和应用支撑能力。
4.根据权利要求3所述的构建流域水环境管理数据资源体系的方法,其特征在于,所述数据治理在数据治理服务平台上进行,所述数据治理服务平台包括:数据存储、数据挖掘和分析、数据管理。
5.根据权利要求1所述的构建流域水环境管理数据资源体系的方法,其特征在于,所述水域环境信息来自于:政策资料标准规范、流域基础资料、流域基础图件、现场监测调查以及无人机航飞采集。
6.根据权利要求1所述的构建流域水环境管理数据资源体系的方法,其特征在于,分析所述区域内的水环境特征包括分析:区域概况、水环境状况、水污染物排放状况、污染治理现状。
7.根据权利要求6所述的构建流域水环境管理数据资源体系的方法,其特征在于,所述水环境状况包括水环境质量和水资源状况;所述水环境质量包括:水环境质量排名、市控及以上断面水环境质量以及自动监测断面布设情况;所述水资源状况包括:水资源总量、供水量、用水量、水资源开发利用率和用水效率。
8.根据权利要求1所述的构建流域水环境管理数据资源体系的方法,其特征在于,所述将抽取后的数据信息加载到所述资源体系模型包括:数据建模、建立实体关系E-R概念模型和建立模型实体结构。
CN202111615133.6A 2021-12-27 2021-12-27 一种构建流域水环境管理数据资源体系的方法 Active CN114416692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111615133.6A CN114416692B (zh) 2021-12-27 2021-12-27 一种构建流域水环境管理数据资源体系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111615133.6A CN114416692B (zh) 2021-12-27 2021-12-27 一种构建流域水环境管理数据资源体系的方法

Publications (2)

Publication Number Publication Date
CN114416692A CN114416692A (zh) 2022-04-29
CN114416692B true CN114416692B (zh) 2023-06-09

Family

ID=81268591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111615133.6A Active CN114416692B (zh) 2021-12-27 2021-12-27 一种构建流域水环境管理数据资源体系的方法

Country Status (1)

Country Link
CN (1) CN114416692B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024030525A1 (en) * 2022-08-03 2024-02-08 Schlumberger Technology Corporation Automated record quality determination and processing for pollutant emission quantification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426993A (zh) * 2015-11-10 2016-03-23 中国环境科学研究院 一种流域水环境安全预警方法及系统
CN112417788A (zh) * 2020-11-30 2021-02-26 重庆市生态环境大数据应用中心 基于大数据的水环境污染分析系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3760439B2 (ja) * 2001-11-14 2006-03-29 株式会社山田組 河川環境シミュレーション装置およびその方法並びに当該方法をコンピュータに実行させるための手順を当該コンピュータが読取可能に記録した記録媒体
US10579951B2 (en) * 2016-03-15 2020-03-03 Ipq Pty Ltd Systems and methods for administering an extraction rights market in a groundwater basin
AR109623A1 (es) * 2018-02-16 2019-01-09 Pescarmona Enrique Menotti Proceso y sistema de análisis y gestión hidrológica para cuencas
CN112541028B (zh) * 2020-11-30 2021-08-13 重庆市生态环境大数据应用中心 水环境大数据监控系统及方法
AU2021104998A4 (en) * 2021-08-05 2021-10-21 Environment Monitoring Center of Jiangsu Province Evaluation method system of quality control index for the whole process of monitoring organic pollutants in basin water environment
CN113778967B (zh) * 2021-09-14 2024-03-12 中国环境科学研究院 长江流域数据采集处理与资源共享系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426993A (zh) * 2015-11-10 2016-03-23 中国环境科学研究院 一种流域水环境安全预警方法及系统
CN112417788A (zh) * 2020-11-30 2021-02-26 重庆市生态环境大数据应用中心 基于大数据的水环境污染分析系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙栋元 ; 金彦兆 ; 李元红 ; 胡想全 ; .干旱内陆河流域水资源管理模式研究.中国农村水利水电.2015,(第01期),全文. *

Also Published As

Publication number Publication date
CN114416692A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Glavan et al. Land use change in a 200‐year period and its effect on blue and green water flow in two Slovenian Mediterranean catchments—lessons for the future
CN112765800A (zh) 一种分布式水资源配置模型的设计方法
Hanh et al. Dynamics of agrarian systems and land use change in North Vietnam
Jiang et al. Relationships between aboveground biomass and plant cover at two spatial scales and their determinants in northern Tibetan grasslands
Hu et al. Measuring water footprint on a lake basin scale: a case study of lake dianchi, China
Li et al. Mapping spatiotemporal decisions for sustainable productivity of bamboo forest land
CN114416692B (zh) 一种构建流域水环境管理数据资源体系的方法
von Oppen et al. Annual air temperature variability and biotic interactions explain tundra shrub species abundance
Beshir et al. Trend analysis, past dynamics and future prediction of land use and land cover change in upper Wabe-Shebele river basin
Farazmand et al. Determining the factors affecting rangeland suitability for livestock and wildlife grazing.
Kimaro et al. Distribution of traditional irrigation canals and their discharge dynamics at the southern slopes of Mount Kilimanjaro
Mercado‐Bettín et al. Long‐term water balance partitioning explained by physical and ecological characteristics in world river basins
Fraser Social, economic and political aspects of forest clearance and land-use planning in Indonesia
Ramachandra et al. Conservation and sustainable management of local hotspots of biodiversity
Wei et al. From experience-oriented to quantity-based: A method for landscape plant selection and configuration in urban built-up areas
Aryastana et al. Irrigation Water Management by Using Remote Sensing and GIS Technology to Maintain the Sustainability of Tourism Potential in Bali
Yu Environmental effects under China’s Western Development Strategy: a case study in the Beipan River basin, Guizhou
Martinez et al. Energy regimes help tackle limitations with the prehistoric cultural‐phases approach to learn about sustainable transitions: Archaeological evidence from northern Spain
Manlike et al. Monitoring and analysing grassland ecosystem service values in response to grassland area changes–an example from northwest China
Benavides et al. Evaluating irrigation scheme performance in a tropical environment: The Guanacaste scheme, Costa Rica
Cheng et al. Using GIS remote sensing image data for wetland monitoring and environmental simulation
Shahriary et al. Partitioning variation in vegetation communities around Lajaneh Piosphere, Iran
Lei et al. Management methods and demonstration on pollution load control of Song-Liao River Basin
Ekstedt Local water resource assessment in Messinia, Greece
Liu et al. Comprehensive quality evaluation on arable land allocated for basic vegetable production in metropolitan suburb

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant