CN112231333A - 一种生态环境数据共享交换方法和系统 - Google Patents

一种生态环境数据共享交换方法和系统 Download PDF

Info

Publication number
CN112231333A
CN112231333A CN202011237509.XA CN202011237509A CN112231333A CN 112231333 A CN112231333 A CN 112231333A CN 202011237509 A CN202011237509 A CN 202011237509A CN 112231333 A CN112231333 A CN 112231333A
Authority
CN
China
Prior art keywords
data
management
catalog
standard
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011237509.XA
Other languages
English (en)
Inventor
陆俊辰
李毅
徐斌
任俊武
刘佳瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Laiwangxin Technology Research Institute Co ltd
Original Assignee
Nanjing Laiwangxin Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Laiwangxin Technology Research Institute Co ltd filed Critical Nanjing Laiwangxin Technology Research Institute Co ltd
Priority to CN202011237509.XA priority Critical patent/CN112231333A/zh
Publication of CN112231333A publication Critical patent/CN112231333A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种生态环境数据共享交换方法和系统,通过数据采集子系统分类采集业务数据,并存储于原始数据库;数据加工子系统对原始数据进行加工处理,加工后的数据根据生态环境资源目录存储进入资源库;数据治理通过标准管理、元数据管理、目录管理和数据质量管理为各个子系统提供支撑,提高数据质量;最终通过数据共享子系统进行生态环境领域各委办局间数据共享交换。

Description

一种生态环境数据共享交换方法和系统
技术领域
本发明涉及一种生态环境数据共享交换方法和系统。
背景技术
目前在生态环境领域,对于市局层面来说,根据国家生态环境部、省生态环境厅和自建等方式,大多数已拥有多套业务系统。涵盖各项业务应用,因所有系统均由业务部门进行建设,无统一规划,无统一的数据结构与接口,在兼容性、数据整合、数据共享方面存在很大问题。例如截止2018年10月统计,江苏省某市生态环境局自建业务系统有14个,省厅及国家环保部下发的系统达23个,由于国家、省、市、县数据标准及管理方式不一,尚未构建统一的数据共享交换平台,省厅系统数据下发、数据回传均未实现,对市、县数据共享、数据融合形成了阻碍。
建设生态数据共享与交换服务平台,对各类生态业务应用提供共性信息服务,实现市直系统与条线系统、生态领域各委办局间的数据共享交换已迫在眉睫。同时,就服务对象而言,环境信息化最终要走向市场、服务公众。对于目前市场上的数据共享交换系统,数据采集、存储、治理、加工、共享交换的标准并不符合生态领域,没有统一的资源目录标准并且数据处理效率较低。在此背景下,为了达成生态环境数据的融合、共享交换的目标,本发明利用大数据分析、存储技术,有效整合多源异构的信息资源,编制信息资源目录,实现生态领域各委办局间的数据共享交换。
发明内容
发明目的:为解决生态领域各委办局间的数据共享交换问题,本发明具体提供了一种生态环境数据共享交换方法,包括以下步骤:
包括如下步骤:
步骤S1,根据生态环境局各部门、各业务、各数据类型的数据格式及其特征,采取不同的采集方式采集数据;
步骤S2,根据数据类型、数据量的不同,采取不同的存储方式,并根据采集目录进行临时数据的存储;
步骤S3,按照数据治理要求,对数据进行加工,将临时数据转换成标准数据,按照资源目录存储于资源库;
步骤S4,接受用户数据请求,通过审核后执行数据共享请求。
步骤S1中,所述不同的采集方式包括在线填报、文件批量导入、库表交换、接口服务。
步骤S1包括:
判断数据提供方(数据提供方分为生态环境局和其它单位,生态环境局所有部门均有录入权限,生态环境局外其它单位需要由系统管理员进行审核)是否具有数据录入权限,如果有权限,由数据提供方选择不同的接入方式(分别为在线填报、文件批量导入、库表交换、接口服务),然后创建录入申请信息,系统管理员审批通过后进行数据接入执行;如果无权限,则反馈数据提供方无数据提供权限。
步骤S2中所述采集目录包括:生态环境局信息资源目录与外部单位系统采集目录;
步骤S2包括:所述不同的存储方式包括分布式文件系统、分布式列式数据库、分布式数据仓库、关系型数据库;
由管理员根据存储的数据类型、数据量以及数据库的特点选择不同的存储机制;
其中,分布式文件系统用于存储非结构化数据,包括txt,doc,rar等格式的文件、GIS数据、遥感数据以及视频;
分布式列式数据库用于存储海量历史数据和需要查询效率高的数据,包括数据量较大(一般单表超过2GB为数据量较大)实时监测的全量历史数据,实时位置类数据;
分布式数据仓库用于存储非实时的全量数据和分析型数据,包含环境质量、污染物扩散、预测预报等分析数据;
关系型数据库用于存储业务运行数据,包括基础站点信息表,例如大气、水、土壤监测站点信息表,数据量较大(一般单表超过2GB为数据量较大)实时监测的增量数据、数据量较小(一般单表不超过2GB为数据量较小)的监控数据表和文件信息表,文件信息表用于存储文件名称、路径、更新时间等信息。
步骤S3中,所述数据治理要求包括标准管理、元数据管理、目录管理、数据质量管理,标准管理用于实现标准的规范化、流程化管理以及目录、数据字典的标准化管理,同时提供标准的分类管理、标准的制定、指标管理、下发、认领、标准的查询、统计以及标准符合度校验;元数据管理是对数据结构模型的描述,对核心数据的属性及特征进行管理;目录管理对资源目录与采集目录、服务目录的管理功能的规划和设计,实现目录分编目、审核、发布、同步及查询功能;数据质量管理的目的是为了及时发现数据质量问题,改善数据使用的质量,从而提升数据的可用性,实现数据更大的利用价值,包含检查规则管理、任务执行、最终质量评估报告生成功能。
所述目录管理包括系统管理人员通过标准管理制定体系分类,建立生态环境体系分类,按照不同的标准内容进行分类,涵盖基础标准、采集标准、共享标准,运维人员对这些分类进行管理和运维,包括新增、修改、删除。
所述目录管理包括对采集目录与资源目录的管理,采集目录有两种方式,第一种按照生态环境信息分类进行采集,第二种以生态环境部门、直属单位、外部单位建立节点进行采集;按照生态环境信息分类建立资源目录,包含环境监测、污染源监控、环境监察执法、企业基础信息、环境政策法规、环境应急管理和地理信息,资源目录下根据实际业务建设需求建立子目录;最终由管理员进行目录审核后进行发布。
所述数据质量管理由管理员进行数据质量规则配置,任务配置后交由系统进行执行,最后会针对资源目录中的某一个目录或数据表进行质量审查,若有问题则生成数据质量问题并发送给提供数据的委办局进行处理,并同时发送给管理员进行处理或。
步骤S3中,所述对数据进行加工,包括清洗对比、关联映射、多源比对,首先对采集目录中的原始数据进行清洗比对,包括空缺值清洗、不一致数据清洗、重复数据、错误数据清洗;将源数据结构(源数据结构是指采集目录中的原始数据的数据结构)与目标结构(目标结构指资源库中标准的数据)进行比对,针对字段名、字段中文注释进行分析比对,分析数据项映射关系,实现源字段和目标字段映射的自动匹配,包含有三种情况:完全符合清单的、字段名相同但中文注释不同、中文注释相同但字段名不同,这三种情况下将源数据存入目标数据库,依据准则是:生态环境部优先于直属单位,如果各直属单位报送不一致则以首次生成数据的单位上报数据为最优,对于无法明确的数据,则以问题形式发送给相关数据源单位。
其中,所述异常数据清洗包括如下步骤:
步骤A1,将每一个监测值看做是随机变量,拟合建立数据模型,公式为:
Figure BDA0002767230640000031
其中,X2表示关联性,T表示理论数据,A为监测值,如果X2大于临界值,判定A为异常数据并剔除,执行如下步骤:
步骤A2,将剔除的异常数据设置为标准值,并将它们记为参考序列:
Y0={Y(1),Y(2)Y,(3)…Y(k)}
其中m为参考序列中监测值个数,m同时表示缺失值个数,k=1,2,3…m,Y0表示序列监测值中将异常值设置为标准值后生成的新的序列;Y(k)表示Y0中第k个值;
步骤A3,对样本缺失部分数据进行插补,随机选择k个监测值作为中心,将剩余监测值,根据其与初始序列中心的距离,归到距离最近的序列中,并将每个族平均向量作为新的聚类中心,得到n个新的补差序列,记为:
Yn={Y(1)(B),Y(2)(B),Y(3)(B)…Y(k)(B)}
其中,Yn表示得到的新的补差序列;Y(k)(B)表示补差序列中第k个值;
步骤A4,对补差序列进行误差分析,采用公式为:
Figure BDA0002767230640000041
其中,Y(i)(B)为补差序列中第i个值,Y(i)为参考序列中第i个值,X表示平均绝对百分比误差,X越小误差越小;
步骤A5,根据不同的X值计算相应的权重值,公式为:
Figure BDA0002767230640000042
其中Wj表示补差权重,Xj表示平均绝对百分比误差,n为补差方法的个数;
步骤A6,对使用补差权重,对相似的数据进行补差,得到的序列记为:
Y’={Y′(1),Y′(2)Y,Y′(3)…Y′(k)}
其中Y’表示使用补差权重生成的新的补差序列;Y′(k)为Y’中第k个值;
步骤A7,计算得到第i个监测数值Y′(i)为:
Figure BDA0002767230640000043
其中Y′(k)表示使用补差权重之后生成新的补差序列中第k个值。
平台会对生态环境部及其直属机构数据进行采集,若出现多渠道采集、重复采集的问题,则会出现“一数多源”的局面,首先以生态环境部优先于直属单位,如果各直属单位(指生态环境局的下属单位或者部门,这些单位和部门也是参与数据共享交换的)报送不一致则以首次生成数据的单位上报数据为最优,对于无法明确的数据,则以问题形式发送给相关数据源单位。
步骤S4中,采用的数据共享交换方式包括在线访问、打包下载、订阅服务、接口服务,管理员对可共享的资源目录进行开放;数据请求方向开放的资源目录中的数据目录或数据项发起申请,如果通过审批,则以申请的请求方式提供给请求方;如果未通过审批,则说明原因后发送未通过原因给数据请求方。
本发明还提供了一种生态环境数据共享交换系统,包括数据采集子系统、数据存储子系统、数据加工子系统和数据共享子系统;
所述数据采集子系统用于,根据生态环境局各部门、各业务、各数据类型的数据格式及其特征,采取不同的采集方式采集数据;
所述数据存储子系统用于,根据数据类型、数据量的不同,采取不同的存储方式,并根据采集目录进行临时存储;
所述数据加工子系统用于,按照数据治理要求,对数据进行加工,将临时数据转换成标准数据,按照资源目录存储于资源库;
所述数据共享子系统用于,接受用户数据请求,通过审核后执行数据共享请求。
数据存储子系统融合了传统的关系型数据存储、分布式存储技术等多种存储机制,为多源、异构、海量的业务应用数据提供了存储支撑。
与现有技术方案与系统相比,本发明的有益效果如下所示:
本发明很好的解决了生态领域各委办局间数据共享交换的问题。通过数据采集子系统、数据存储子系统,在数据源处对生态环境数据进行分类并利用不同的存储方式,便于数据的整理和查询效率的优化;通过数据加工子系统、数据治理子系统,使原始数据加工得到标准数据,并按照资源目录进行存储,突出生态领域数据的特点特色,数据标准的一致性。最终通过数据共享子系统,根据生态环境资源目录,为各委办局提供数据支撑。总的来说,根据采集目录,从数据源处整合生态领域数据资源,并增加审核、加工、治理机制,最终得到的资源目录是标准的并且符合该领域的。从业务与技术的角度,保证各委办局间数据共享交换的信息资源可用性、可靠性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明整体流程图;
图2是本发明数据采集流程图;
图3是本发明数据治理示意图;
图4是本发明数据加工流程图;
图5是本发明数据共享流程图。
图6是本发明数据架构图。
具体实施方式
如图1所示,本发明提供了一种生态环境数据共享交换方法,包括以下步骤:
S1,根据生态环境局各部门、各业务、各数据类型的数据格式及其特征,数据采集子系统采取不同的采集方式。
步骤S1包括:
判断数据提供方(数据提供方分为生态环境局和其它单位,生态环境局所有部门均有录入权限,生态环境局外其它单位需要由系统管理员进行审核)是否具有数据录入权限,如果有权限,由数据提供方选择不同的接入方式(分别为在线填报、文件批量导入、库表交换、接口服务),然后创建录入申请信息,系统管理员审批通过后进行数据接入执行;如果无权限,则反馈数据提供方无数据提供权限。
S2,根据数据类型、数据量的不同,数据存储子系统采取不同的存储方式,并根据采集目录进行临时存储。
步骤S2中所述采集目录包括:生态环境局信息资源目录与外部单位系统采集目录,具体内容如下表所示,表1是生态环境局信息资源目录,表2是外部系统资源清单:
表1
Figure BDA0002767230640000061
Figure BDA0002767230640000071
表2
Figure BDA0002767230640000072
Figure BDA0002767230640000081
步骤S2包括:所述不同的存储方式包括分布式文件系统、分布式列式数据库、分布式数据仓库、关系型数据库;
由管理员根据存储的数据类型、数据量以及数据库的特点选择不同的存储机制;
其中,分布式文件系统用于存储非结构化数据,包括txt,doc,rar等格式的文件、GIS数据、遥感数据以及视频;
分布式列式数据库用于存储海量历史数据和需要查询效率高的数据,包括数据量较大(一般单表超过2GB为数据量较大)实时监测的全量历史数据,实时位置类数据;
分布式数据仓库用于存储非实时的全量数据和分析型数据,包含环境质量、污染物扩散、预测预报等分析数据;
关系型数据库用于存储业务运行数据,包括基础站点信息表,例如大气、水、土壤监测站点信息表,数据量较大(一般单表超过2GB为数据量较大)实时监测的增量数据、数据量较小(一般单表不超过2GB为数据量较小)的监控数据表和文件信息表,文件信息表用于存储文件名称、路径、更新时间等信息。
S3,按照数据治理要求,数据加工子系统对数据进行深度加工,将临时数据转换成标准数据,按照资源目录存储于资源库,如图6所示。
步骤S3中,所述数据治理要求包括标准管理、元数据管理、目录管理、数据质量管理,标准管理用于实现标准的规范化、流程化管理以及目录、数据字典的标准化管理,同时提供标准的分类管理、标准的制定、指标管理、下发、认领、标准的查询、统计以及标准符合度校验;元数据管理是对数据结构模型的描述,对核心数据的属性及特征进行管理;目录管理对资源目录与采集目录、服务目录的管理功能的规划和设计,实现目录分编目、审核、发布、同步及查询功能;数据质量管理的目的是为了及时发现数据质量问题,改善数据使用的质量,从而提升数据的可用性,实现数据更大的利用价值,包含检查规则管理、任务执行、最终质量评估报告生成功能。
所述目录管理包括系统管理人员通过标准管理制定体系分类,建立生态环境体系分类,按照不同的标准内容进行分类,涵盖基础标准、采集标准、共享标准,运维人员对这些分类进行管理和运维,包括新增、修改、删除。
所述目录管理包括对采集目录与资源目录的管理,采集目录有两种方式,第一种按照生态环境信息分类进行采集,第二种以生态环境部门、直属单位、外部单位建立节点进行采集;按照生态环境信息分类建立资源目录,包含环境监测、污染源监控、环境监察执法、企业基础信息、环境政策法规、环境应急管理和地理信息,资源目录下根据实际业务建设需求建立子目录;最终由管理员进行目录审核后进行发布。
所述数据质量管理由管理员进行数据质量规则配置,任务配置后交由系统进行执行,最后会针对资源目录中的某一个目录或数据表进行质量审查,若有问题则生成数据质量问题并发送给提供数据的委办局进行处理,并同时发送给管理员进行处理或。
步骤S3中,所述对数据进行加工,包括清洗对比、关联映射、多源比对,首先对采集目录中的原始数据(见表1和表2)进行清洗比对,包括空缺值清洗、不一致数据清洗、重复数据、错误数据清洗;将源数据结构(源数据结构是指采集目录中的原始数据的数据结构)与目标结构(目标结构指资源库中标准的数据)进行比对,针对字段名、字段中文注释进行分析比对,分析数据项映射关系,实现源字段和目标字段映射的自动匹配,包含有三种情况:完全符合清单的、字段名相同但中文注释不同、中文注释相同但字段名不同,这三种情况下将源数据存入目标数据库,依据准则是:生态环境部优先于直属单位,如果各直属单位报送不一致则以首次生成数据的单位上报数据为最优,对于无法明确的数据,则以问题形式发送给相关数据源单位。
平台会对生态环境部及其直属机构数据进行采集,若出现多渠道采集、重复采集的问题,则会出现“一数多源”的局面,首先以生态环境部优先于直属单位,如果各直属单位(指生态环境局的下属单位或者部门,这些单位和部门也是参与数据共享交换的)报送不一致则以首次生成数据的单位上报数据为最优,对于无法明确的数据,则以问题形式发送给相关数据源单位。
S4,数据共享子系统接受生态环境各委办局数据请求,通过审核后执行数据共享请求。
步骤S4中,采用的数据共享交换方式包括在线访问、打包下载、订阅服务、接口服务,管理员对可共享的资源目录进行开放;数据请求方向开放的资源目录中的数据目录或数据项发起申请,如果通过审批,则以申请的请求方式提供给请求方;如果未通过审批,则说明原因后发送未通过原因给数据请求方。
如图2所示,是生态环境数据采集流程,包括以下步骤:
a1,由数据提供方发起数据报送请求。
a2,由系统管理员对请求进行审核,若审核未通过,则填写原因并返回提供方;若审核通过,则提供权限让提供方报送数据。
a3,数据提供方选择合适的报送方式,若为数据类型为非结构化文件,则选择文件上传的方式;若数据类型为结构化数据且数据量较大,可下载提供的模板,系统批量读取写入数据库;对于部门没有建立信息化系统的生态环境委办局,提供专门的采集页面进行手工填报;具备服务接口调用能力的可将信息通过Web Service平台提交传送;另外,平台可以通过库表交换方式直接采集目标库中的生态数据。
a4,最终系统接受生态环境数据并加载进入原始数据库。
如图3所示,是生态环境数据治理方法的示意图,数据治理为数据采集、数据目录、数据加工提供管理和支撑,包括以下内容:
b1,管理员通过标准管理制定标准体系分类,分类制定后,在每个分类下制定标准,除了要制定标准基本信息,还要进行标准指标的管理以及数据字典管理,标准制定完成后,需要下发标准,到各个委办局节点,各个节点通过标准认领,领取本节点所需的标准。
b2,元数据通过获取管理获取各数据库的元数据,并进行统一存储管理,并与现有元数据进行比对,若有变更,则由管理员发布更新。
b3,管理员通过目录管理制定目录分类,分类创建后进行目录编目,之后由生态环境部门审核人员对已编目的内容进行审核。审核通过后进行目录版本管理,挂接资源,完成后进行目录发布,原则上为统一标准规范,资源主目录不做变更,主要包含环境监测、污染源监控、环境监察执法、企业基础信息、环境政策法规、环境应急管理、和地理信息,但可对主目录下进行修改或新增子目录。
b4,数据质量管理中首先由管理员进行数据质量规则配置,任务配置后交由系统进行执行,最后会针对资源目录中的某一个目录或数据表进行质量审查,若有问题则生成数据质量问题并发送给提供数据的委办局进行处理,并同时发送给管理员进行处理或。
上述数据质量问题主要包含以下内容:
(1)数据标准不统一。由于生态领域部门数据会来自不同部门,数据在定义和格式上没有统一标准,如“污染源企业名称”,有的委办局用全称,有的委办局用简称;“污染源企业地址”,有的委办局含有“XX市”,有的委办局不含。此外,还存在英文字母大小写及数字字符全角半角混用、日期格式不统一等现象。
(2)数据项缺失。有些部门报送的信息中缺失重要的数据项内容或“空值”较多,如:“环境审批”信息缺失“审批日期”或“有效期限”等数据项。
(3)数据不一致。一是不同委办局提供的相同企业信息数据记录不一致,二是同一部门提供的数据记录不一致。
(4)数据记录之间无法或难以关联。有些委办局提供的监测数据缺少主体标识或主体标识有误,或以文档方式提供数据,导致各委办局数据记录之间无法或难以进行关联比对,从而不能形成完整的监测关联数据。
(5)错误或无效数据。由于数据在录入或修改过程中的操作错误,导致错误数据或无效数据的产生。
(6)数据重复。一些委办局在数据抽取时未按增量要求进行抽取或重复报送数据文件,导致数据记录的重复归集。
针对上述数据质量问题,为使生态数据上升至高质量可用的状态,提供以下解决方法:
(1)数据标准:就是定义标准元数据,消除数据的歧义性。
(2)数据匹配:就是将归集的数据或经过转换以后与正确的数据进行比对,匹配或识别其含义,使之成为含义明确的数据。
(3)数据协同:就是依据业务规则或已知的正确数据,修复或关联不同信息项的相关数据,使得数据在整体上符合业务逻辑并协同一致。
(4)数据强化:就是在已有数据集之上,通过补充、分析和整合等“强化”措施,提升基本数据集的使用价值,使之能够在更广的范围、更深的层面和更长的期间内发挥作用。
如图4所示,是生态环境数据加工流程图,包括以下步骤:
c1,首先由系统管理员制定加工任务,包含选择加工规则、执行时间、需要加工的原始数据目录或数据表。
c2,数据加工子系统执行加工任务,首先进行元数据加载,对空缺值不一致数据、重复数据、错误数据进行清洗,清洗策略如下表3所示。从源端抽取到数据要经过清洗转换过程才会加载到目的端。数据清洗主要是是过滤那些不符合要求的数据,不符合要求的数据主要是由不完整的数据、错误的数据和重复等。不完整的数据是有一些应该有的信息缺失,需要将这一类数据过滤出来,按照缺失的内容写入不同的表格提交给审核人员,审核人员补全信息才能写入数据仓库;错误的数据产生的原因是生态业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库中造成的,比如数值数据输入成全角数字字符、字符串数据后有回车、日期格式不正确、日期越界等。这一类数据都要经过修正后才能存入数据仓库中;重复的数据是数据库表中存在多余的记录,需要根据生态业务规则进行删除或者其它操作。
表3
Figure BDA0002767230640000121
所述空缺值可采用人工填充空缺值,使用一个全局变量进行填充,并可使用属性的平均值、中间值、最大值、最小值统计值进行填充。
所述重复数据的基本思想是“排序和合并”,先将数据库中的记录排序,然后通过比较邻近记录是否相似来检测记录是否重复。主要使用近邻排序算法:
两点间的距离d在n维向量可表示为:
Figure BDA0002767230640000131
其中Xi1、Xi2指两个向量点。
主要步骤为:计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个点;确定前k个点所在类别的出现频率;返回前k个点所出现频率最高的类别作为当前点的预测。
所述错误数据或异常数据,以异常数据为例,在生态环境监测设备动态监测数据中,较为常见的数据异常错误,传统的处理方式是由专业人员手工进行仪器标定、校准或去除异常值,而本系统可用以下方法:
第一步:将每一个监测值看做是随机变量,拟合建立数据模型,用关联性分析比较两个变量之间的相关程度,比较理论数据和实际的拟合程度,具体公式为:
Figure BDA0002767230640000132
理论数据T的获取方式由当地环境监测标准值为准,例如在南京:水源地高锰酸盐监测二级标准值为6mg/L,则T为6。A则为实际监测值。当X2小于临界值3.84时(由卡方分布表得出),则说明此监测数值无问题,若大于3.84则进入第二步。
第二步:完成异常数据识别之后,把异常数值剔除并修正。
Step1:将剔除的值设置为标准值并将此序列记为参考序列,记为:
Y0={Y(1),Y(2)Y,(3)…Y(k)}
其中m为参考序列中监测值个数,m同时表示缺失值个数,k=1,2,3…m,Y0表示序列监测值中将异常值设置为标准值后生成的新的序列;Y(k)表示Y0中第k个值;
Step2,对样本缺失部分数据进行插补,随机选择k个监测值作为中心,将剩余监测值,根据其与初始序列中心的距离,归到距离最近的序列中(采用上述近邻排序算法),并将每个族平均向量作为新的聚类中心,以此可得到n个新的补差序列,记为
Yn={Y(1)(B),Y(2)(B),Y(3)(B)…Y(k)(B)}
其中,Yn表示得到的新的补差序列;Y(k)(B)表示补差序列中第k个值。
Step3,对补差序列进行误差分析,采用公式为:
Figure BDA0002767230640000141
其中,Y(i)(B)为补差序列中第i个值,Y(i)为参考序列中第i个值,X表示平均绝对百分比误差,X越小误差越小;
Step4,根据不同的X值计算相应的权重值,公式为
Figure BDA0002767230640000142
其中Wj表示补差权重,Xj表示平均绝对百分比误差,n为补差方法的个数;
Step5,使用补差权重,对相似的数据进行补差,得到的序列记为:
Y’={Y′(1),Y′(2)Y,Y′(3)…Y′(k)}
其中Y’表示使用补差权重生成的新的补差序列;Y′(k)为Y’中第k个值;
Step6,计算得到第i个监测数值为:
Figure BDA0002767230640000143
其中Y′(k)表示使用补差权重之后生成新的补差序列中第k个值。
c3,最终系统将数据加载进入资源库。
如图5所示,是生态环境数据共享流程图,包括以下步骤:
d1,首先由系统管理员开放可对各委办局提供的资源目录。
d2,数据请求方根据共享目录,申请所需的资源目录。
d3,系统管理员进行申请审批,若不通过,则返回不通过原因;若通过,则已请求方申请的数据接收方式返回数据。
d3,请求方接收数据,共享过程完成。
所述数据存储包括以下内容:
数据存储子系统融合了传统的关系型数据存储、分布式存储技术等多种存储机制,为多源、异构、海量的业务应用数据提供了存储支撑。包括分布式文件系统、分布式列式数据库、分布式数据仓库、关系型数据库。由管理员根据存储的数据类型、数据量以及数据库的特点选择不同的存储机制。
上述存储机制包含以下内容:
(1)关系型数据库主要存储业务运行数据,包括基础站点信息表,例如大气、水、土壤监测站点信息表,数据量较大实时监测的增量数据,数据量较小的监控数据表,文件信息表,用于存储文件名称、路径、更新时间等信息。
(2)分布式列式数据库主要存储海量历史数据并且查询效率高,包括数据量较大实时监测的全量历史数据,实时位置类数据。
(3)分布式数据仓库用于非实时的全量数据和分析型数据存储,包含环境质量、污染物扩散、预测预报等分析数据。
(4)分布式文件系统解决海量文件的存储管理问题。包括文件、GIS数据、遥感数据以及视频。
本发明提供了一种生态环境数据共享交换方法和系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种生态环境数据共享交换方法,其特征在于,包括如下步骤:
步骤S1,根据生态环境局各部门、各业务、各数据类型的数据格式及其特征,采取不同的采集方式采集数据;
步骤S2,根据数据类型、数据量的不同,采取不同的存储方式,并根据采集目录进行临时数据的存储;
步骤S3,按照数据治理要求,对数据进行加工,将临时数据转换成标准数据,按照资源目录存储于资源库;
步骤S4,接受用户数据请求,通过审核后执行数据共享请求。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述不同的采集方式包括在线填报、文件批量导入、库表交换、接口服务。
3.根据权利要求2所述的方法,其特征在于,步骤S1包括:
判断数据提供方是否具有数据录入权限,如果有权限,由数据提供方选择不同的接入方式,然后创建录入申请信息,系统管理员审批通过后进行数据接入执行;如果无权限,则反馈数据提供方无数据提供权限。
4.根据权利要求3所述的方法,其特征在于,步骤S2中所述采集目录包括:生态环境局信息资源目录与外部单位系统采集目录。
5.根据权利要求4所述的方法,其特征在于,步骤S2包括:所述不同的存储方式包括分布式文件系统、分布式列式数据库、分布式数据仓库、关系型数据库;
由管理员根据存储的数据类型、数据量以及数据库的特点选择不同的存储机制;
其中,分布式文件系统用于存储非结构化数据,包括文件、GIS数据、遥感数据以及视频;
分布式列式数据库用于存储海量历史数据和需要查询效率高的数据,包括数据量较大实时监测的全量历史数据、实时位置类数据;
分布式数据仓库用于存储非实时的全量数据和分析型数据,包含环境质量、污染物扩散、预测预报;
关系型数据库用于存储业务运行数据,包括基础站点信息表、数据量较大实时监测的增量数据、数据量较小的监控数据表和文件信息表。
6.根据权利要求5所述的方法,其特征在于,步骤S3中,所述数据治理要求包括标准管理、元数据管理、目录管理、数据质量管理;标准管理用于实现标准的规范化、流程化管理以及目录、数据字典的标准化管理,同时提供标准的分类管理、标准的制定、指标管理、下发、认领、标准的查询、统计以及标准符合度校验;元数据管理是对数据结构模型的描述,对核心数据的属性及特征进行管理;目录管理对资源目录与采集目录、服务目录的管理功能的规划和设计,实现目录分编目、审核、发布、同步及查询功能;数据质量管理包含检查规则管理、任务执行、最终质量评估报告生成功能。
7.根据权利要求6所述的方法,其特征在于,所述目录管理包括对采集目录与资源目录的管理,采集目录有两种方式,第一种按照生态环境信息分类进行采集,第二种以生态环境部门、直属单位、外部单位建立节点进行采集;按照生态环境信息分类建立资源目录,包含环境监测、污染源监控、环境监察执法、企业基础信息、环境政策法规、环境应急管理和地理信息,资源目录下根据实际业务建设需求建立子目录;最终由管理员进行目录审核后进行发布。
8.根据权利要求7所述的方法,其特征在于,步骤S3中,所述对数据进行加工,包括清洗对比、关联映射、多源比对,首先对采集目录中的原始数据进行清洗比对,包括空缺值清洗、不一致数据清洗、重复数据、错误数据清洗、异常数据清洗;将源数据结构与目标结构进行比对,针对字段名、字段中文注释进行分析比对,分析数据项映射关系,实现源字段和目标字段映射的自动匹配,包含有三种情况:完全符合清单的、字段名相同但中文注释不同、中文注释相同但字段名不同,这三种情况下将源数据存入目标数据库,依据准则是:生态环境部优先于直属单位,如果各直属单位报送不一致则以首次生成数据的单位上报数据为最优,对于无法明确的数据,则以问题形式发送给相关数据源单位;
其中,所述异常数据清洗包括如下步骤:
步骤A1,将每一个监测值看做是随机变量,拟合建立数据模型,公式为:
Figure FDA0002767230630000021
其中,X2表示关联性,T表示理论数据,A为监测值,如果X2大于临界值,判定A为异常数据并剔除,执行如下步骤:
步骤A2,将剔除的异常数据设置为标准值,并将它们记为参考序列:
Y0={Y(1),Y(2)Y,(3)…Y(k)}
其中m为参考序列中监测值个数,m同时表示缺失值个数,k=1,2,3…m,Y0表示序列监测值中将异常值设置为标准值后生成的新的序列;Y(k)表示Y0中第k个值;
步骤A3,对样本缺失部分数据进行插补,随机选择k个监测值作为中心,将剩余监测值,根据其与初始序列中心的距离,归到距离最近的序列中,并将每个族平均向量作为新的聚类中心,得到n个新的补差序列,记为:
Yn={Y(1)(B),Y(2)(B),Y(3)(B)…Y(k)(B)}
其中,Yn表示得到的新的补差序列;Y(k)(B)表示补差序列中第k个值;
步骤A4,对补差序列进行误差分析,采用公式为:
Figure FDA0002767230630000031
其中,Y(i)(B)为补差序列中第i个值,Y(i)为参考序列中第i个值,X表示平均绝对百分比误差,X越小误差越小;
步骤A5,根据不同的X值计算相应的权重值,公式为:
Figure FDA0002767230630000032
其中Wj表示补差权重,Xj表示平均绝对百分比误差,n为补差方法的个数;
步骤A6,对使用补差权重,对相似的数据进行补差,得到的序列记为:
Y’={Y′(1),Y′(2)Y,Y′(3)…Y′(k)}
其中r’表示使用补差权重生成的新的补差序列;Y′(k)为Y’中第k个值;
步骤A7,计算得到第i个监测数值Y′(i)为:
Figure FDA0002767230630000033
其中Y′(k)表示使用补差权重之后生成新的补差序列中第k个值。
9.根据权利要求8所述的方法,其特征在于,步骤S4中,管理员对可共享的资源目录进行开放;数据请求方向开放的资源目录中的数据目录或数据项发起申请,如果通过审批,则以申请的请求方式提供给请求方;如果未通过审批,则说明原因后发送未通过原因给数据请求方。
10.一种生态环境数据共享交换系统,其特征在于,包括数据采集子系统、数据存储子系统、数据加工子系统和数据共享子系统;
所述数据采集子系统用于,根据生态环境局各部门、各业务、各数据类型的数据格式及其特征,采取不同的采集方式采集数据;
所述数据存储子系统用于,根据数据类型、数据量的不同,采取不同的存储方式,并根据采集目录进行临时数据的存储;
所述数据加工子系统用于,按照数据治理要求,对数据进行加工,将临时数据转换成标准数据,按照资源目录存储于资源库;
所述数据共享子系统用于,接受用户数据请求,通过审核后执行数据共享请求。
CN202011237509.XA 2020-11-09 2020-11-09 一种生态环境数据共享交换方法和系统 Pending CN112231333A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011237509.XA CN112231333A (zh) 2020-11-09 2020-11-09 一种生态环境数据共享交换方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011237509.XA CN112231333A (zh) 2020-11-09 2020-11-09 一种生态环境数据共享交换方法和系统

Publications (1)

Publication Number Publication Date
CN112231333A true CN112231333A (zh) 2021-01-15

Family

ID=74122187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011237509.XA Pending CN112231333A (zh) 2020-11-09 2020-11-09 一种生态环境数据共享交换方法和系统

Country Status (1)

Country Link
CN (1) CN112231333A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926852A (zh) * 2021-02-19 2021-06-08 南京莱斯网信技术研究院有限公司 一种基于数据融合的大气生态环境分析方法
CN113010506A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种多源异构水环境大数据管理系统
CN113094393A (zh) * 2021-03-16 2021-07-09 杭州数梦工场科技有限公司 数据汇聚方法及装置、电子设备
CN113111104A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种基于一体化的Web-ETL大数据融合方法
CN113836199A (zh) * 2021-09-22 2021-12-24 芜湖雄狮汽车科技有限公司 车辆的传感数据处理方法、装置、电子设备及存储介质
CN113868318A (zh) * 2021-09-28 2021-12-31 中国环境科学研究院 一种大气环境综合数据采集及共享系统
CN113901042A (zh) * 2021-12-10 2022-01-07 西安中电环通数字科技有限公司 生态环境数据动态活动水平库及终端
CN115374130A (zh) * 2022-10-26 2022-11-22 中科三清科技有限公司 一种大气污染历史数据存储方法及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103281368A (zh) * 2013-05-22 2013-09-04 河海大学 一种基于云计算的数据共享交换模型及方法
CN104750861A (zh) * 2015-04-16 2015-07-01 中国电力科学研究院 一种储能电站海量数据清洗方法及系统
CN108647217A (zh) * 2017-12-27 2018-10-12 广东智政信息科技有限公司 基于安监应用的大数据平台集成管理系统
CN110362558A (zh) * 2019-06-12 2019-10-22 广东工业大学 一种基于邻域传播聚类的能耗数据清洗方法
CN111062002A (zh) * 2019-12-14 2020-04-24 广西电网有限责任公司电力科学研究院 一种基于误差反馈的电力负荷数据插补方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103281368A (zh) * 2013-05-22 2013-09-04 河海大学 一种基于云计算的数据共享交换模型及方法
CN104750861A (zh) * 2015-04-16 2015-07-01 中国电力科学研究院 一种储能电站海量数据清洗方法及系统
CN108647217A (zh) * 2017-12-27 2018-10-12 广东智政信息科技有限公司 基于安监应用的大数据平台集成管理系统
CN110362558A (zh) * 2019-06-12 2019-10-22 广东工业大学 一种基于邻域传播聚类的能耗数据清洗方法
CN111062002A (zh) * 2019-12-14 2020-04-24 广西电网有限责任公司电力科学研究院 一种基于误差反馈的电力负荷数据插补方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余万民;范蓓蕾;钱建平: "基于云计算的农业大数据共享服务平台研发", 中国农业信息, vol. 32, no. 1, pages 21 - 29 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926852A (zh) * 2021-02-19 2021-06-08 南京莱斯网信技术研究院有限公司 一种基于数据融合的大气生态环境分析方法
CN113010506A (zh) * 2021-03-11 2021-06-22 江苏省生态环境监控中心(江苏省环境信息中心) 一种多源异构水环境大数据管理系统
CN113010506B (zh) * 2021-03-11 2023-08-29 江苏省生态环境监控中心(江苏省环境信息中心) 一种多源异构水环境大数据管理系统
CN113094393A (zh) * 2021-03-16 2021-07-09 杭州数梦工场科技有限公司 数据汇聚方法及装置、电子设备
CN113111104A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种基于一体化的Web-ETL大数据融合方法
CN113836199A (zh) * 2021-09-22 2021-12-24 芜湖雄狮汽车科技有限公司 车辆的传感数据处理方法、装置、电子设备及存储介质
CN113836199B (zh) * 2021-09-22 2024-04-09 芜湖雄狮汽车科技有限公司 车辆的传感数据处理方法、装置、电子设备及存储介质
CN113868318A (zh) * 2021-09-28 2021-12-31 中国环境科学研究院 一种大气环境综合数据采集及共享系统
CN113901042A (zh) * 2021-12-10 2022-01-07 西安中电环通数字科技有限公司 生态环境数据动态活动水平库及终端
CN115374130A (zh) * 2022-10-26 2022-11-22 中科三清科技有限公司 一种大气污染历史数据存储方法及介质
CN115374130B (zh) * 2022-10-26 2022-12-20 中科三清科技有限公司 一种大气污染历史数据存储方法及介质

Similar Documents

Publication Publication Date Title
CN112231333A (zh) 一种生态环境数据共享交换方法和系统
CN112163724A (zh) 环境信息数据资源整合集成系统
CN111190881A (zh) 一种数据治理方法和系统
CN110119395B (zh) 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
CN104299105A (zh) 一种支持复杂企业环境的信用数据管理系统及方法
CN110597870A (zh) 一种企业关系挖掘方法
CN109815254B (zh) 基于大数据的跨地域任务调度方法及系统
CN112328706A (zh) 数仓体系下的维度建模计算方法、计算机设备和存储介质
Xu et al. Developing an IFC-based database for construction quality evaluation
CN102929664A (zh) 一种基于xsd结构的通用数据交换方法
CN111612294A (zh) 一种基于时空大数据的城市体检系统
CN114357088A (zh) 核电工业数据仓库系统
CN115617776A (zh) 一种数据管理系统及方法
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN117611397A (zh) 基于多维数据分析的文旅综合管理平台
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
CN112801768A (zh) 基于互联网+政务的自然资金及绩效数据共享系统
CN107895235A (zh) 基于决策树分析法的财务建模系统
CN117455379A (zh) 一种基层智慧治理管理系统及方法
CN115934969A (zh) 一种不可移动文物风险评估知识图谱构建方法
CN115952216A (zh) 一种养老保险数据挖掘方法、装置、存储介质及电子设备
CN115618825A (zh) 财务报表合并方法、装置、计算机可读介质及终端设备
CN114417859A (zh) 一种基于云化区块链技术的数据标准化方法及系统
Simpson et al. Public access to conversion of data between geographies, with multiple look up tables derived from a postal directory
CN113672609A (zh) 基于多源数据融合生成居民孕产模型标签方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination