CN113010506A - 一种多源异构水环境大数据管理系统 - Google Patents

一种多源异构水环境大数据管理系统 Download PDF

Info

Publication number
CN113010506A
CN113010506A CN202110265123.8A CN202110265123A CN113010506A CN 113010506 A CN113010506 A CN 113010506A CN 202110265123 A CN202110265123 A CN 202110265123A CN 113010506 A CN113010506 A CN 113010506A
Authority
CN
China
Prior art keywords
data
water environment
metadata
cleaning
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110265123.8A
Other languages
English (en)
Other versions
CN113010506B (zh
Inventor
周瑞生
徐益强
郇洪江
陈媛
伍耀东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Ecological Environment Monitoring Center Jiangsu Environmental Information Center
Original Assignee
Jiangsu Ecological Environment Monitoring Center Jiangsu Environmental Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Ecological Environment Monitoring Center Jiangsu Environmental Information Center filed Critical Jiangsu Ecological Environment Monitoring Center Jiangsu Environmental Information Center
Priority to CN202110265123.8A priority Critical patent/CN113010506B/zh
Publication of CN113010506A publication Critical patent/CN113010506A/zh
Application granted granted Critical
Publication of CN113010506B publication Critical patent/CN113010506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的多源异构水环境大数据管理系统,涉及计算机技术领域,包括用于对水环境的数据进行清洗的水环境大数据清洗单元、用于对清洗后的水环境数据进行交换的水环境大数据交换单元,以及用于对水环境大数据进行跟踪分析的元数据管理单元;本发明一方面通过建立水环境数据清洗模型、提出清洗流程及清洗规则,解决水环境数据应用时具有冲突的问题;另一方面在数据交换平台中心端采用分布式技术、支持NoSQL数据库及关系型数据库,有效扩展存储的数据类型,提升数据读取与写入的效率;另外,本发明通过定义水环境大数据的元数据,实现多源异构水环境管理系统中元数据的统一编码、管理和检索,为管理系统提供元数据支撑。

Description

一种多源异构水环境大数据管理系统
技术领域
本发明涉及计算机技术领域,具体涉及一种多源异构水环境大数据管理系统。
背景技术
在我国水专项的大力推动下,各流域在各项水环境管理技术方面进行了重点研究攻坚,包括水环境大数据的清洗、交换和大数据的管理。
当前水环境监测数据呈现以下几个特点:一是数据量大,环保数据大文本、图片、视频信息的急骤增加;二是环境监测数据范围广,包括污染源排污监测数据、污染源普查数据、环境统计数据、地表水水质监测数据、生态数据等,这些数据中许多是每天更新,有的甚至是每小时更新;三是数据来源广,除监测中心、省生态环境厅、地市生态环境局,还包括区县、环保企业、环评机构及其他政府部门机构,后续还将采集公众开放数据,数据来源各行各业、各类人员;数据标准不一,未能实现省、市、县数据共享。由于这些数据分布在不同的系统或平台,数据体量大,数据质量参差不齐,数据格式不统一,已经形成了难以维护管理的“蜘蛛网”,无法为太湖治理与决策提供有力的信息支撑。如何从海量的数据快速提取出高价值的信息成为需要太湖污染环境治理单位当下面对首要的问题,研究多源异构数据清洗、处理、融合技术以及构建太湖流域环境数据资源中心成为当前迫切需求。
在数据使用方面,尽管多数流域已建设了大量的水质监测站、水文监测站、排放口在线监测系统等,但数据的使用较为单一、缺乏对数据的分析与应用功能,难以形成大数据分析的合力,缺乏有效的信息多元融合和系统对比分析,从而难以有效挖掘数据的价值,不能为科学决策提供支撑,随着环境数据“复合型”的趋势不断增长,迫切需要对现有数据进行规划和管理,以实际管理的业务需求为基础强化数据的多维分析技术的研究,发挥数据的决策支撑能力。
发明内容
本发明目的在于提供一种多源异构水环境大数据管理系统,对现有技术中多源异构水环境大数据进行规划和管理,该系统一方面通过数据清洗实现对具有脏数据的多来源水环境数据的规则处理,另一方面基于流式计算对数据交换的海量任务进行及时处理和分配,并在数据清洗和交换中采用元数据进行管理,为多源异构水环境大数据管理系统提供元数据支撑。
为达成上述目的,本发明提出如下技术方案:一种多源异构水环境大数据管理系统,包括水环境大数据清洗单元、水环境大数据交换单元和元数据管理单元,所述水环境大数据清洗单元用于对其获取的多源异构水环境的数据进行清洗,所述水环境大数据交换单元用于对水环境大数据清洗单元清洗后的水环境数据进行数据交换,所述元数据管理单元用于建立多源异构水环境资源目录、形成多源异构水环境智慧监管平台,对多源异构水环境的数据进行跟踪分析;
所述水环境大数据清洗单元包括如下模块:
获取模块,用于获取水环境数据的数据集,对数据集进行数据分析,检测并归纳数据集中存在的脏数据分类及特点;
制定模块,用于根据数据分析获得的脏数据分类及特点初步制定脏数据的清洗转换规则;
第一建立模块,用于根据数据集、数据分析结果和清洗转换规则建立数据清洗模型;
样本验证模块,用于选取数据集中的脏数据样本按照对应的清洗转换规则执行数据清洗,验证数据清洗质量;
改进模块,用于当脏数据样本数据清洗质量不满足预设数据质量要求,调整数据清洗模型参数,并改进对应的清洗转换规则,获得满足预设数据质量要求的清洗转换规则和数据清洗模型参数;
清洗模块,用于对数据集中的所有脏数据在数据清洗模型中按照获得的数据清洗模型参数和清洗转换规则执行数据清洗;
替换模块,用于数据清洗完成后,将清洗干净的数据替换掉数据集中的脏数据;
所述水环境大数据交换单元包括如下模块:
第二建立模块,用于建立水环境监测数据收集交换的目录体系,包括预设水环境监测要素、预设各监测要素的动态管理目标,并确定各监测要素监测数据的交换顺序;
第一构建模块,用于构建水环境监测数据采集交换系统,所述水环境监测数据采集交换系统包括数据交换平台中心端、若干数据提供方和若干数据使用方,所述数据交换平台中心端、任一数据提供方和任一数据使用方均配置有一数据共享与交换服务器;所述水环境监测数据采集交换系统用于收集各数据提供方提供的水环境数据在数据交换平台中心端共享,并根据数据使用方或数据提供方的需求分发其目标水环境数据至其对应服务器,实现多数据提供方水环境数据在多数据使用方的交换与共享;
第三建立模块,用于建立水环境数据传输与评价电子系统,包括预设水环境数据采集规范、水环境数据传输流程、水环境数据交换流程、水环境数据审核标准和水环境数据评价标准,水环境数据传输与评价电子系统用于确保水环境数据的及时性、完整性和准确性传递;
第四建立模块,用于根据各数据使用方现有的网络基础,建立统一的水环境数据采集传输网络与安全保障体系;所述水环境数据采集传输网络与安全保障体系为预设水环境监测数据采集交换系统的安全权限,包括基于数字证书的安全连接认证、允许DES、3DES、RC4加密算法、预设应用程序认证机制,用于确保水环境数据的安全传输;
所述元数据管理单元包括如下模块:
元数据管理模块,用于根据多源异构水环境预设的元数据管理规范对元数据进行定义,对定义的元数据进行分类管理,包括授权用户对元模型包、元模型类、元模型属性、数据类型、数据关系的的浏览、新增、修改、删除;
元数据维护模块,用于提供获取层元数据维护、存储层元数据维护、访问层元数据维护、交换层元数据维护以及元数据的检索、浏览和打印功能;
元数据批量加载模块,用于提供元数据批量加载功能,加载得到按照统一格式XLS文件的元数据和XML格式存储的元数据;
元数据自动获取模块,用于提供元数据自动加载的功能,自动加载符合XML标准的元数据,包括Power Designer、数据仓库、OLAP等接口元数据,以及从数据库自动加载元数据;
元数据分析及应用模块,用于采用元数据进行分析、对外部系统提供元数据应用服务;所述元数据分析的内容包括血统分析、影响分析、映射分析、拓扑图分析、表外键关系分析、ER图形展现、表重要程度分析、表无关程度分析和元数据差异分析;
元数据版本管理模块,用于记录元数据的变更历史,提供元数据版本查询、版本恢复功能;
元数据同步检查模块,用于指定期从元数据分析及应用模块中抽取元数据,并与元数据库的对应信息进行比较,查找元数据分析及应用模块的应用变更,进行元数据的同步更新。
进一步的,所述获取模块中脏数据分类包括缺失值数据、格式错误数据、逻辑错误数据、空值数据和非需求数据;
所述制定模块对缺失值数据清洗转换规则为:
对缺失值数据的每个字段计算其缺失值比例,以及根据业务逻辑和分析需求计量字段的重要性;其中,字段缺失值比例小于2%记为字段缺失率低,字段含有水环境大数据任一关注因素记为字段重要性高;
当字段缺失率高、重要性高,缺失值数据清洗策略为:通过查找真实数据补全缺失值、重新检测补全缺失值,以及通过字段间逻辑关机计算获得缺失值内容补全缺失值;
当字段缺失率低、重要性高,缺失值数据清洗策略为:通过同一指标的计算结果填充缺失值,以及通过行业经验值或估计值填充缺失值;所述同一指标的计算结果包括均值、中位数、众数;
当字段缺失率高、重要性低,缺失值数据清洗策略为:去除该字段;
当字段缺失率低、重要性低,缺失值数据清洗策略为:直接保留或简单填充缺失值;所述简单填充包括以不同指标的计算结果填充缺失值。
进一步的,所述格式错误数据包括显示格式错误数据、字符错误数据和内容错误数据;
所述显示格式错误数据的清洗转换规则为:统一处理数据显示格式;
所述字符错误数据的清洗转换规则为:以半自动校验半人工校验的方式找出字符错误位置,去除多余字符;
所述内容错误数据的清洗转换规则为:定位内容错误位置,识别问题类型,采用人工校验更正方式清洗数据。
进一步的,所述逻辑错误数据包括重复数据、不合理值数据和前后矛盾数据;
所述重复数据的清洗转换规则为:去除数据的重复内容;
所述不合理值数据的清洗转换规则为:去除不合理值数据或记为缺失值数据处理;
所述前后矛盾数据的清洗转换规则为:通过字段内容相互验证的数据的可靠性,去除或重构不可靠字段的内容。
进一步的,所述非需求数据的清洗转换规则为保留非需求数据并备份,所述空值数据的清洗转换规则为记为缺失值数据处理。
进一步的,所述第一构建模块构建的水环境监测数据采集交换系统的数据交换平台中心端由数据交换平台中心端和连接于数据交换平台中心端的第一桥接接口构建;所述数据交换平台中心端包括基于RDBMS的基础信息库和基于HDFS的交换数据库,所述第一桥接接口包括基于Flume和Kafka系统的采集服务程序、分发服务程序;Flume用于收集各种来源、形式的数据,并把数据传给Kafka集群,由Kafka集群统一分发给大数据集群进行处理;所述采集服务程序和分发服务程序均包括数据加密、数据压缩和数据分段传输;
所述数据提供方的构建过程包括建立第一业务系统、连接于第一业务系统的第一业务库和第一前置机;所述第一前置机包括第一缓存数据库和连接于所述采集服务程序的第二桥接接口,第二桥接接口连接于第一缓存数据库;所述数据提供方还包括第一桥接程序,第一业务系统和第一业务库分别经第一桥接程序连接于第二桥接接口。
所述数据使用方的构建过程包括建立第二业务系统、连接于第二业务系统的第二业务库和第二前置机;所述第二前置机包括第二缓存数据库和连接于所述分发服务程序的第三桥接接口,第三桥接接口连接于第二缓存数据库;所述数据使用方还包括第二桥接程序,第二业务系统和第二业务库分别经第二桥接程序连接于第三桥接接口。
进一步的,所述基础信息库为基于MySQL或/和Oracle的关系型数据库,所述交换数据库为基于HBase或/和Mango DB的非关系型数据库。
进一步的,所述第一桥接接口、第二桥接接口和第三桥接接口均包括Datebase、Web Service和XML File。
进一步的,所述水环境监测数据采集交换系统采集并交换的水环境数据包括水位、水流量、水质、工情、气象和预警信息。
进一步的,所述元数据同步检查模块包括自动同步检查和人工同步检查,所述元数据同步检查模块的检查内容包括及时率检查、完整率检查和正确率检查;所述及时率检查为指定类型的元数据在一抽取检查周期内按设定时间要求抽取的元数据项和应抽取项的比率;所述完整率检查为指定类型的元数据在一抽取检查周期内抽取的元数据项和应抽取项的比率;所述正确率检查为指定类型的元数据在一抽取检查周期内抽取比对无误的元数据项和应抽取项的比率。
由以上技术方案可知,本发明的技术方案提供的多源异构水环境大数据管理系统,获得了如下有益效果:
本发明提供的多源异构水环境大数据管理系统,包括用于对水环境的数据进行清洗的水环境大数据清洗单元、用于对清洗后的水环境数据进行交换的水环境大数据交换单元,以及用于建立多源异构水环境资源目录、形成多源异构水环境智慧监管平台、并对多源异构水环境的数据进行跟踪分析的元数据管理单元;本发明一方面通过建立水环境数据清洗模型、提出清洗流程及清洗规则,解决水环境数据收集应用时容易发生错误及冲突的问题,有助于完整获取水环境数据、提高水环境的监管效率;另一方面,本发明在数据交换平台中心端上采用分布式技术,支持NoSQL数据库及关系型的数据库,可有效扩展可存储的数据类型,同时分布式的技术可大大提升数据读取与写入的效率,提高数据交换的效率;并且,本发明通过定义水环境大数据的元数据,实现多源异构水环境管理系统中元数据统一编码、管理和检索,为管理系统提供元数据支撑。
此外,本发明的水环境大数据交换单元在数据提供方及数据使用方,通过接口程序可直接与数据交换平台中心端进行对接,数据交换平台中心端提供Flume及Kafka的方式进行数据的交换对接,整个数据交换的过程只有1次读取和1次写入的操作,可有效提高整体的数据交换效率,使平台得到较高的吞吐量和可靠性,从而可处理海量的数据及数据交换任务,整体交换效率是传统基于ETL交换平台的2倍以上,同时本技术还具有以下的优势:
1)高性能:分布式技术、Flume、Kafka等大数据的应用技术可为水环境监测数据采集交换系统提供高吞吐量和高可靠性,有效支撑海量数据的处理;
2)易扩展:可预估并且弹性扩展计算、存储容量和性能;
3)低成本:分布式存储只需要IP网络,几台X86服务器加内置硬盘就可以组建起来,初期成本比较低。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1为本发明水环境大数据清洗单元清洗流程图;
图2为本发明水环境大数据清洗单元清洗模型;
图3为本发明水环境大数据交换单元示意图;
图4为本发明水环境大数据交换单元数据交换流程图;
图5为本发明元数据管理模块管理流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,除非上下文清楚地指明其它情况,否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件,并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
“上”“下”“左”“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
基于现有技术中水环境监测数据量大、范围广、来源广等多个特点,使得水环境监测数据在使用时,存在使用方式单一、缺乏对数据的分析与应用功能,难以形成大数据分析的合力,也缺乏有效的信息多元融合和系统对比分析,数据的价值低,不能为科学决策提供支撑;本发明旨在提出一种多源异构水环境大数据管理系统,具有数据清洗、数据交换和元数据管理功能,随着“复合型”环境数据的不断增长,实现对现有数据的规划和管理,以实际管理的业务需求为基础强化数据的多维分析,发挥数据的决策支撑能力。
下面结合附图所示的实施例,对本发明的多源异构水环境大数据管理系统作进一步具体介绍。
本发明公开的多源异构水环境大数据管理系统包括水环境大数据清洗单元、水环境大数据交换单元和元数据管理单元,其中,水环境大数据清洗单元用于获取多源异构水环境各类型监测数据,并对其获取的多源异构水环境的数据进行清洗,水环境大数据交换单元用于数据提供方和数据请求方之间进行清洗后的水环境数据的交换;元数据管理单元分别连接于水环境大数据清洗单元和水环境大数据交换单元,对数据清洗和数据交换过程的数据进行管理,对整体多源异构水环境多源异构水环境资源目录、形成多源异构水环境智慧监管平台,对多源异构水环境的数据进行跟踪分析。
结合图1所示的数据清洗流程,水环境大数据清洗单元包括如下模块:获取模块,用于获取水环境数据的数据集,对数据集进行数据分析,检测并归纳数据集中存在的脏数据分类及特点;制定模块,用于根据数据分析获得的脏数据分类及特点初步制定脏数据的清洗转换规则;第一建立模块,用于根据数据集、数据分析结果和清洗转换规则建立数据清洗模型;样本验证模块,用于选取数据集中的脏数据样本按照对应的清洗转换规则执行数据清洗,验证数据清洗质量;改进模块,用于当脏数据样本数据清洗质量不满足预设数据质量要求,调整数据清洗模型参数,并改进对应的清洗转换规则,获得满足预设数据质量要求的清洗转换规则和数据清洗模型参数;清洗模块,用于对数据集中的所有脏数据在数据清洗模型中按照获得的数据清洗模型参数和清洗转换规则执行数据清洗;替换模块,用于数据清洗完成后,将清洗干净的数据替换掉数据集中的脏数据;替换模块实现的技术效果是干净数据回流。
其中,预设数据质量要求可以为缺失值填充完整、字段空值占比低于3%、格式错误值占比低于1%、逻辑错误值占比低于1%,预设数据质量是基于清洗规则提出的质量要求,也可以是基于清洗后数据进行决策的目的来确定,例如,决策要求数值精准,则预设数据质量要求高。样本验证模块对任一数据清洗转换规则先对小部分数据进行清洗,通过数据清洗质量验证该规则的有效性,调整清洗转换规则,达到预设数据清洗质量要求时再进行全量数据处理,数据量小处理快速,验证过程快。
结合图3所示,水环境大数据交换单元包括如下模块:第二建立模块,用于建立水环境监测数据收集交换的目录体系,包括预设水环境监测要素、预设各监测要素的动态管理目标,并确定各监测要素监测数据的交换顺序;第一构建模块,用于构建水环境监测数据采集交换系统,所述水环境监测数据采集交换系统包括数据交换平台中心端、若干数据提供方和若干数据使用方,所述数据交换平台中心端、任一数据提供方和任一数据使用方均配置有一数据共享与交换服务器;所述水环境监测数据采集交换系统用于收集各数据提供方提供的水环境数据在数据交换平台中心端共享,并根据数据使用方或数据提供方的需求分发其目标水环境数据至其对应服务器,实现多数据提供方水环境数据在多数据使用方的交换与共享;第三建立模块,用于建立水环境数据传输与评价电子系统,包括预设水环境数据采集规范、水环境数据传输流程、水环境数据交换流程、水环境数据审核标准和水环境数据评价标准,水环境数据传输与评价电子系统用于确保水环境数据的及时性、完整性和准确性传递;第四建立模块,用于根据各数据使用方现有的网络基础,建立统一的水环境数据采集传输网络与安全保障体系;所述水环境数据采集传输网络与安全保障体系为预设水环境监测数据采集交换系统的安全权限,包括基于数字证书的安全连接认证、允许DES、3DES、RC4加密算法、预设应用程序认证机制,用于确保水环境数据的安全传输。上述功能模块提出并实现了一种多源异构水环境大数据进行数据交换的方法。
元数据管理单元包括如下模块:元数据管理模块,用于根据多源异构水环境预设的元数据管理规范对元数据进行定义,对定义的元数据进行分类管理,包括授权用户对元模型包、元模型类、元模型属性、数据类型、数据关系的的浏览、新增、修改、删除;元数据维护模块,用于提供获取层元数据维护、存储层元数据维护、访问层元数据维护、交换层元数据维护以及元数据的检索、浏览和打印功能;元数据批量加载模块,用于提供元数据批量加载功能,加载得到按照统一格式XLS文件的元数据和XML格式存储的元数据;元数据自动获取模块,用于提供元数据自动加载的功能,自动加载符合XML标准的元数据,包括PowerDesigner、数据仓库、OLAP等接口元数据,以及从数据库自动加载元数据;元数据分析及应用模块,用于采用元数据进行分析、对外部系统提供元数据应用服务;所述元数据分析的内容包括血统分析、影响分析、映射分析、拓扑图分析、表外键关系分析、ER图形展现、表重要程度分析、表无关程度分析和元数据差异分析;元数据版本管理模块,用于记录元数据的变更历史,提供元数据版本查询、版本恢复功能;元数据同步检查模块,用于指定期从元数据分析及应用模块中抽取元数据,并与元数据库的对应信息进行比较,查找元数据分析及应用模块的应用变更,进行元数据的同步更新。
数据清洗的模型如图2所示,获取模块中脏数据分类包括缺失值数据、格式错误数据、逻辑错误数据、空值数据和非需求数据,制定模块制定数据清洗转换规则采用的方法包括数据统计、数据挖掘、异常检验和空缺值填补等对脏数据进行有效的清洗,使数据清洗后达到满足预设数据质量要求的数据,为后续水环境大数据进行决策性分析提供干净的数据。
制定模块对各类脏数据均指定有对应的清洗转换规则,其中,缺失值数据清洗转换规则为:对缺失值数据的每个字段计算其缺失值比例,以及根据业务逻辑和分析需求计量字段的重要性;其中,字段缺失值比例小于2%记为字段缺失率低,字段含有水环境大数据任一关注因素记为字段重要性高;例如水环境大数据任一关注因素为“地域”,则含有行政区的任一字段就记为重要性高,不能为空值。
当字段缺失率高、重要性高,缺失值数据清洗策略为:通过查找真实数据补全缺失值、重新检测补全缺失值,以及通过字段间逻辑关机计算获得缺失值内容补全缺失值;当字段缺失率低、重要性高,缺失值数据清洗策略为:通过同一指标的计算结果填充缺失值,以及通过行业经验值或估计值填充缺失值;所述同一指标的计算结果包括均值、中位数、众数;当字段缺失率高、重要性低,缺失值数据清洗策略为:去除该字段;当字段缺失率低、重要性低,缺失值数据清洗策略为:直接保留或简单填充缺失值;所述简单填充包括以不同指标的计算结果填充缺失值。
格式错误数据包括显示格式错误数据、字符错误数据和内容错误数据;其中,显示格式错误数据的清洗转换规则为:统一处理数据显示格式;例如,常见的是时间、日期、数值、全半角等显示格式不一致,此类问题一般与输入端有关,在整合多来源数据时常常会遇到,将其处理成一致的格式即可。
字符错误数据的清洗转换规则为:以半自动校验半人工校验的方式找出字符错误位置,去除多余字符;例如字段内容中有不该存在的字符,某些内容可能只包括一部分字符,比如身份证号是数字+字母,中国人姓名是汉字,最典型的情况就是头、尾、中间的空格,有时也会出现姓名中存在数字符号、身份证号码中出现汉字等等问题。以上这类情况,需要以半自动校验半人工校验的方式找出问题,去除不需要的字符。
内容错误数据的清洗转换规则为:定位内容错误位置,识别问题类型,采用人工校验更正方式清洗数据。例如,内容与该字段类型不符,监测日期写了水质因子监测值,断面名称写成了上报单位名称等,都属于这种问题。此类问题的特殊在于:不能以简单的删除来解决,因为造成该类问题的原因可能是人工填写有误,也可能是前端缺乏校验,还可能是导入数据时部分或全部列没有对齐,因此需要人工针对性地详细识别问题类型。通常内容问题是比较考察细节性的问题,比如跨表关联或VLOOKUP失败(多个空格导致系统认为“陈丹奕”和“陈丹奕”不是一个人)、统计值不全(数字里掺杂字母导致求和时得不到结果或结果偏差)、模型输出失败或效果不好(数据错列,日期和年龄混合)。因此,这类问题的清洗工作务必要注意,尤其是处理的数据来源于人工收集,或者产品前端校验设计差的情况。例如,数据表达不统一的内容错误数据北京、BJ、beijing,系统无法识别数据的不统一,只能人工干预,做一张清洗规则表,给出匹配关系,第一列是原始值,第二列是清洗值,用规则表去关联原始表,用清洗值做分析,以及通过近似值算法自动发现可能不统一的数据。
逻辑错误数据包括重复数据、不合理值数据和前后矛盾数据;对于重复数据的清洗转换规则为:去除数据的重复内容;相同的记录出现多条,这种情况处理简单,直接去掉重复记录即可。对于不合理值数据的清洗转换规则为:去除不合理值数据或记为缺失值数据处理;例如,河流断面位于浙江省内,上报方却为江苏某市,这种明显不符合正常情况的数据可直接删去。对于前后矛盾数据的清洗转换规则为:通过字段内容相互验证的数据的可靠性,去除或重构不可靠字段的内容;例如,目标河流是III类水质,监测结果达标标准却是IV类水质标准,因此要根据字段的数据来源判定哪一字段提供的信息更为可靠,去除或重构不可靠的字段。此外,逻辑错误数据还包括异常值,异常值数据可以通过区间限定来发现并排除。
实施例中对于非需求数据的清洗转换规则为保留非需求数据并备份,空值数据的清洗转换规则为记为缺失值数据处理,即按照缺失值数据的清洗转换规则进行数据填补。例如,地址写成“北京海淀中关村”,想分析“区”级别的区域时还要把“海淀”拆出来才能用,因此对于此类数据可直接通过关键词匹配获得全部,直接保留。
另外,本发明的管理系统在具体实施数据清洗时发现,任一数据集的脏数据进行处理时,需要将逻辑错误数据中重复数据的清洗置于格式错误数据清洗之后。原因在于,如果格式错误数据不加以清洗,多个空格可能会导致系统工具认为如数据“陈丹奕”和“陈丹奕”不是一个人,导致去重失败。并且为了确保数据清洗过程不发生严重偏离真实数据或无法获得有效数据的现象,在进行数据清洗的过程中,对任一清洗转换规则下进行的清洗步骤都需要对数据进行备份,例如缺失值数据进行数据清洗时,缺失值数据清洗转换规则的任一清洗步骤进行数据备份,便于数据恢复和再利用。
结合图3所示的实施例,第一构建模块构建的水环境监测数据采集交换系统的数据交换平台中心端由数据交换平台中心端和连接于数据交换平台中心端的第一桥接接口构建;数据交换平台中心端包括基于RDBMS的基础信息库和基于HDFS的交换数据库,第一桥接接口包括基于Flume和Kafka系统的采集服务程序、分发服务程序,采集服务程序和分发服务程序均包括数据加密、数据压缩和数据分段传输,还可以包括其他的数据处理方法。此外,基础信息库为基于MySQL或/和Oracle的关系型数据库,交换数据库为基于HBase或/和Mango DB的非关系型数据库;在数据库技术上,第一构建模块采用关系型数据库及NoSQL数据库相结合的方式,可有效扩展可存储的数据类型,NoSQL数据库主要采用HDSF+HBase+Mango DB的方式,可有效解决大数据存储及快速读取的需求。
数据提供方的构建过程包括建立第一业务系统、连接于第一业务系统的第一业务库和第一前置机;第一前置机包括第一缓存数据库和连接于所述采集服务程序的第二桥接接口,第二桥接接口连接于第一缓存数据库;数据提供方还包括第一桥接程序,第一业务系统和第一业务库分别经第一桥接程序连接于第二桥接接口。数据使用方的构建过程包括建立第二业务系统、连接于第二业务系统的第二业务库和第二前置机;第二前置机包括第二缓存数据库和连接于所述分发服务程序的第三桥接接口,第三桥接接口连接于第二缓存数据库;数据使用方还包括第二桥接程序,第二业务系统和第二业务库分别经第二桥接程序连接于第三桥接接口。第一桥接接口、第二桥接接口和第三桥接接口均包括Datebase、WebService和XML File。
结合图4所示,本发明水环境大数据交换单元实施数据交换的具体流程为,各数据提供方将其应用系统的水环境数据包括水位、水流量、水质、工情、气象和预警信息等上传至水环境监测数据采集交换系统,水环境监测数据采集交换系统对数据提供方提供的数据进行加密,并依次按照队列管理器预设传输顺序进行传输,该过程主要是集中在数据交换平台中心端,实现数据提供方数据在数据交换平台中心端的共享,任一数据使用方或数据提供方可按其适用目标进行数据获取;当数据使用方或数据提供方向数据交换平台中心端要求获取数据时,数据交换平台中心端根据要求发出时间的先后等信息形成本地接收队列,依次解密后向各数据使用方或数据提供方反馈其要求获取的数据,完成数据交换。
在数据处理上,水环境监测数据采集交换系统采用Flume结合Kafka的方式,Flume用于收集各种来源、形式的数据,并把数据传给Kafka集群,由Kafka集群统一分发给大数据集群进行处理;在水环境监测数据采集交换系统中,采用Flume结合Kafka的组合方式一是因为Flume可支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力;二是Kafka实际上作为消息发布订阅系统,发布者发布关于某话题的消息,而订阅者订阅某话题的消息,一旦有新的关于某个话题的消息,管理器会传递给订阅它的所有订阅者。在实际使用中采用Flume作为数据的生产者,这样可以不用编程就实现数据源的引入,并采用Kafka作为数据的消费者,这样可以得到较高的吞吐量和可靠性。
水环境大数据交换单元基于大数据技术支持NoSQL数据库及关系型的数据库,不仅能有效扩展可存储的数据类型;同时其在数据交换平台中心端上采用分布式的技术大大提升数据读取与写入的效率;通过接口程序将数据提供方及使用方与数据交换平台中心端进行对接,数据交换平台中心端提供Flume及Kafka的方式进行数据的交换对接,数据交换的过程只有1次读取和1次写入的操作,可有效提高整体的数据交换效率,使平台得到较高的吞吐量和可靠性,从而可处理海量的数据及数据交换任务,整体交换效率是传统基于ETL交换平台的2倍以上;因此,将上述技术的综合应用在多源异构水环境大数据管理系统中,通过提高数据交换效率,推进提升多源异构水环境大数据的管理效率。
元数据管理单元是形成多源异构水环境大数据管理系统数据资源目录的重要组件,管理人员通过该单元来规范管理任一多源异构水环境数据资源的规范定义、命名、分类等,同时元数据管理单元贯穿数据清洗和数据交换,从技术角度梳理所有的数据信息,追踪数据资源的产生、存储、清洗、转换和同步等所有相关活动,从而建立数据元的血统关系,实现数据的追根溯源。结合图5所示,多源异构水环境大数据管理系统所提供的各业务系统供数据提供方和数据使用方操作使用;例如,数据提供方可提出提交元数据申请,经过元数据管理员审查合格后,实现在元数据管理平台的元数据注册和发布;数据使用方可经过业务系统获取元数据,经过元数据管理员审查合格后,获得元数据管理平台返回的元数据信息资源。
元数据管理单元中元数据同步检查模块在实现元数据库与提供的元数据应用服务进行同步更新的过程包括自动同步检查和人工同步检查,检查内容包括及时率检查、完整率检查和正确率检查;其中,及时率检查为指定类型的元数据在一抽取检查周期内按设定时间要求抽取的元数据项和应抽取项的比率,完整率检查为指定类型的元数据在一抽取检查周期内抽取的元数据项和应抽取项的比率,正确率检查为指定类型的元数据在一抽取检查周期内抽取比对无误的元数据项和应抽取项的比率。本发明的元数据管理单元在实施元数据管理的过程中,可以参照元数据管理成熟度模型确定元数据管理目标层次,并根据业务需要制定路线图实现元数据管理水平的提升,该模型在现有技术中应用较为常见,说明书中不再一一赘述。
本发明公开的多源异构水环境大数据管理系统通过元数据管理,形成整个多源异构水环境数据资产的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成多源异构水环境智慧监管平台范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (10)

1.一种多源异构水环境大数据管理系统,其特征在于,包括水环境大数据清洗单元、水环境大数据交换单元和元数据管理单元,所述水环境大数据清洗单元用于对其获取的多源异构水环境的数据进行清洗,所述水环境大数据交换单元用于对水环境大数据清洗单元清洗后的水环境数据进行数据交换,所述元数据管理单元用于建立多源异构水环境资源目录、形成多源异构水环境智慧监管平台,对多源异构水环境的数据进行跟踪分析;
所述水环境大数据清洗单元包括如下模块:
获取模块,用于获取水环境数据的数据集,对数据集进行数据分析,检测并归纳数据集中存在的脏数据分类及特点;
制定模块,用于根据数据分析获得的脏数据分类及特点初步制定脏数据的清洗转换规则;
第一建立模块,用于根据数据集、数据分析结果和清洗转换规则建立数据清洗模型;
样本验证模块,用于选取数据集中的脏数据样本按照对应的清洗转换规则执行数据清洗,验证数据清洗质量;
改进模块,用于当脏数据样本数据清洗质量不满足预设数据质量要求,调整数据清洗模型参数,并改进对应的清洗转换规则,获得满足预设数据质量要求的清洗转换规则和数据清洗模型参数;
清洗模块,用于对数据集中的所有脏数据在数据清洗模型中按照获得的数据清洗模型参数和清洗转换规则执行数据清洗;
替换模块,用于数据清洗完成后,将清洗干净的数据替换掉数据集中的脏数据;
所述水环境大数据交换单元包括如下模块:
第二建立模块,用于建立水环境监测数据收集交换的目录体系,包括预设水环境监测要素、预设各监测要素的动态管理目标,并确定各监测要素监测数据的交换顺序;
第一构建模块,用于构建水环境监测数据采集交换系统,所述水环境监测数据采集交换系统包括数据交换平台中心端、若干数据提供方和若干数据使用方,所述数据交换平台中心端、任一数据提供方和任一数据使用方均配置有一数据共享与交换服务器;所述水环境监测数据采集交换系统用于收集各数据提供方提供的水环境数据在数据交换平台中心端共享,并根据数据使用方或数据提供方的需求分发其目标水环境数据至其对应服务器,实现多数据提供方水环境数据在多数据使用方的交换与共享;
第三建立模块,用于建立水环境数据传输与评价电子系统,包括预设水环境数据采集规范、水环境数据传输流程、水环境数据交换流程、水环境数据审核标准和水环境数据评价标准,水环境数据传输与评价电子系统用于确保水环境数据的及时性、完整性和准确性传递;
第四建立模块,用于根据各数据使用方现有的网络基础,建立统一的水环境数据采集传输网络与安全保障体系;所述水环境数据采集传输网络与安全保障体系为预设水环境监测数据采集交换系统的安全权限,包括基于数字证书的安全连接认证、允许DES、3DES、RC4加密算法、预设应用程序认证机制,用于确保水环境数据的安全传输;
所述元数据管理单元包括如下模块:
元数据管理模块,用于根据多源异构水环境预设的元数据管理规范对元数据进行定义,对定义的元数据进行分类管理,包括授权用户对元模型包、元模型类、元模型属性、数据类型、数据关系的的浏览、新增、修改、删除;
元数据维护模块,用于提供获取层元数据维护、存储层元数据维护、访问层元数据维护、交换层元数据维护以及元数据的检索、浏览和打印功能;
元数据批量加载模块,用于提供元数据批量加载功能,加载得到按照统一格式XLS文件的元数据和XML格式存储的元数据;
元数据自动获取模块,用于提供元数据自动加载的功能,自动加载符合XML标准的元数据,包括Power Designer、数据仓库、OLAP等接口元数据,以及从数据库自动加载元数据;
元数据分析及应用模块,用于采用元数据进行分析、对外部系统提供元数据应用服务;所述元数据分析的内容包括血统分析、影响分析、映射分析、拓扑图分析、表外键关系分析、ER图形展现、表重要程度分析、表无关程度分析和元数据差异分析;
元数据版本管理模块,用于记录元数据的变更历史,提供元数据版本查询、版本恢复功能;
元数据同步检查模块,用于指定期从元数据分析及应用模块中抽取元数据,并与元数据库的对应信息进行比较,查找元数据分析及应用模块的应用变更,进行元数据的同步更新。
2.根据权利要求1所述的多源异构水环境大数据管理系统,其特征在于,所述获取模块中脏数据分类包括缺失值数据、格式错误数据、逻辑错误数据、空值数据和非需求数据;
所述制定模块对缺失值数据清洗转换规则为:
对缺失值数据的每个字段计算其缺失值比例,以及根据业务逻辑和分析需求计量字段的重要性;其中,字段缺失值比例小于2%记为字段缺失率低,字段含有水环境大数据任一关注因素记为字段重要性高;
当字段缺失率高、重要性高,缺失值数据清洗策略为:通过查找真实数据补全缺失值、重新检测补全缺失值,以及通过字段间逻辑关机计算获得缺失值内容补全缺失值;
当字段缺失率低、重要性高,缺失值数据清洗策略为:通过同一指标的计算结果填充缺失值,以及通过行业经验值或估计值填充缺失值;所述同一指标的计算结果包括均值、中位数、众数;
当字段缺失率高、重要性低,缺失值数据清洗策略为:去除该字段;
当字段缺失率低、重要性低,缺失值数据清洗策略为:直接保留或简单填充缺失值;所述简单填充包括以不同指标的计算结果填充缺失值。
3.根据权利要求2所述的多源异构水环境大数据管理系统,其特征在于,所述格式错误数据包括显示格式错误数据、字符错误数据和内容错误数据;
所述显示格式错误数据的清洗转换规则为:统一处理数据显示格式;
所述字符错误数据的清洗转换规则为:以半自动校验半人工校验的方式找出字符错误位置,去除多余字符;
所述内容错误数据的清洗转换规则为:定位内容错误位置,识别问题类型,采用人工校验更正方式清洗数据。
4.根据权利要求2所述的多源异构水环境大数据管理系统,其特征在于,所述逻辑错误数据包括重复数据、不合理值数据和前后矛盾数据;
所述重复数据的清洗转换规则为:去除数据的重复内容;
所述不合理值数据的清洗转换规则为:去除不合理值数据或记为缺失值数据处理;
所述前后矛盾数据的清洗转换规则为:通过字段内容相互验证的数据的可靠性,去除或重构不可靠字段的内容。
5.根据权利要求2所述的多源异构水环境大数据管理系统,其特征在于,所述非需求数据的清洗转换规则为保留非需求数据并备份,所述空值数据的清洗转换规则为记为缺失值数据处理。
6.根据权利要求1所述的多源异构水环境大数据管理系统,其特征在于,所述第一构建模块构建的水环境监测数据采集交换系统的数据交换平台中心端由数据交换平台中心端和连接于数据交换平台中心端的第一桥接接口构建;所述数据交换平台中心端包括基于RDBMS的基础信息库和基于HDFS的交换数据库,所述第一桥接接口包括基于Flume和Kafka系统的采集服务程序、分发服务程序;Flume用于收集各种来源、形式的数据,并把数据传给Kafka集群,由Kafka集群统一分发给大数据集群进行处理;所述采集服务程序和分发服务程序均包括数据加密、数据压缩和数据分段传输;
所述数据提供方的构建过程包括建立第一业务系统、连接于第一业务系统的第一业务库和第一前置机;所述第一前置机包括第一缓存数据库和连接于所述采集服务程序的第二桥接接口,第二桥接接口连接于第一缓存数据库;所述数据提供方还包括第一桥接程序,第一业务系统和第一业务库分别经第一桥接程序连接于第二桥接接口。
所述数据使用方的构建过程包括建立第二业务系统、连接于第二业务系统的第二业务库和第二前置机;所述第二前置机包括第二缓存数据库和连接于所述分发服务程序的第三桥接接口,第三桥接接口连接于第二缓存数据库;所述数据使用方还包括第二桥接程序,第二业务系统和第二业务库分别经第二桥接程序连接于第三桥接接口。
7.根据权利要求6所述的多源异构水环境大数据管理系统,其特征在于,所述基础信息库为基于MySQL或/和Oracle的关系型数据库,所述交换数据库为基于HBase或/和Mango DB的非关系型数据库。
8.根据权利要求6所述的多源异构水环境大数据管理系统,其特征在于,所述第一桥接接口、第二桥接接口和第三桥接接口均包括Datebase、Web Service和XML File。
9.根据权利要求6所述的多源异构水环境大数据管理系统,其特征在于,所述水环境监测数据采集交换系统采集并交换的水环境数据包括水位、水流量、水质、工情、气象和预警信息。
10.根据权利要求1所述的多源异构水环境大数据管理系统,其特征在于,所述元数据同步检查模块包括自动同步检查和人工同步检查,所述元数据同步检查模块的检查内容包括及时率检查、完整率检查和正确率检查;所述及时率检查为指定类型的元数据在一抽取检查周期内按设定时间要求抽取的元数据项和应抽取项的比率;所述完整率检查为指定类型的元数据在一抽取检查周期内抽取的元数据项和应抽取项的比率;所述正确率检查为指定类型的元数据在一抽取检查周期内抽取比对无误的元数据项和应抽取项的比率。
CN202110265123.8A 2021-03-11 2021-03-11 一种多源异构水环境大数据管理系统 Active CN113010506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110265123.8A CN113010506B (zh) 2021-03-11 2021-03-11 一种多源异构水环境大数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110265123.8A CN113010506B (zh) 2021-03-11 2021-03-11 一种多源异构水环境大数据管理系统

Publications (2)

Publication Number Publication Date
CN113010506A true CN113010506A (zh) 2021-06-22
CN113010506B CN113010506B (zh) 2023-08-29

Family

ID=76405120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110265123.8A Active CN113010506B (zh) 2021-03-11 2021-03-11 一种多源异构水环境大数据管理系统

Country Status (1)

Country Link
CN (1) CN113010506B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327071A (zh) * 2021-08-04 2021-08-31 深圳市深水水务咨询有限公司 基于5g的环境管理方法、装置、计算机设备及存储介质
CN113535518A (zh) * 2021-07-23 2021-10-22 北京八分量信息科技有限公司 一种用户行为的分布式实时动态监控方法及系统
CN113918555A (zh) * 2021-10-29 2022-01-11 桂林航天工业学院 一种用于提升数据质量的数据治理方法
CN114500324A (zh) * 2022-01-24 2022-05-13 国家工业信息安全发展研究中心 一种面向工业互联网仿真测试床的集成接入系统
CN114866608A (zh) * 2022-07-07 2022-08-05 广东青藤环境科技有限公司 智慧水务数据处理平台
CN115203192A (zh) * 2022-09-15 2022-10-18 北京清众神州大数据有限公司 一种基于可视化数据的清洗方法、装置及相关组件
CN115219683A (zh) * 2022-07-29 2022-10-21 中国地质科学院岩溶地质研究所 一种水环境质量预警系统及其构建方法
CN115878599A (zh) * 2022-10-26 2023-03-31 河北雄安睿天科技有限公司 污水行业数据清洗方法
CN116455678A (zh) * 2023-06-16 2023-07-18 中国电子科技集团公司第十五研究所 网络安全日志汇接方法及系统
CN116506230A (zh) * 2023-06-28 2023-07-28 广东长盈科技股份有限公司 基于rsa非对称加密的数据采集方法、系统
CN116894032A (zh) * 2023-09-05 2023-10-17 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法
CN116932523A (zh) * 2023-08-14 2023-10-24 北京三维天地科技股份有限公司 一种整合和监管第三方环境检测机构的平台
CN117171176A (zh) * 2023-11-03 2023-12-05 北京格蒂智能科技有限公司 一种基于人工智能的用电大数据自升级监管平台

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060101038A1 (en) * 2004-10-25 2006-05-11 James Gabriel Extensible object-modelling mechanism
CN105447014A (zh) * 2014-08-15 2016-03-30 阿里巴巴集团控股有限公司 基于binlog的元数据管理方法和用于提供元数据的方法及装置
CN111400382A (zh) * 2020-03-03 2020-07-10 湖南长信畅中科技股份有限公司 一种模型驱动的数据集成中间件及实现方法
CN111800375A (zh) * 2015-01-26 2020-10-20 卢森堡商创研腾智权信托有限公司 借由云端安全动态传输包括数据资料封包的方法
CN112163724A (zh) * 2020-08-05 2021-01-01 宁夏无线互通信息技术有限公司 环境信息数据资源整合集成系统
CN112231333A (zh) * 2020-11-09 2021-01-15 南京莱斯网信技术研究院有限公司 一种生态环境数据共享交换方法和系统
CN112256782A (zh) * 2020-10-30 2021-01-22 内蒙古电力(集团)有限责任公司乌海超高压供电局 基于Hadoop的电力大数据处理系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060101038A1 (en) * 2004-10-25 2006-05-11 James Gabriel Extensible object-modelling mechanism
CN105447014A (zh) * 2014-08-15 2016-03-30 阿里巴巴集团控股有限公司 基于binlog的元数据管理方法和用于提供元数据的方法及装置
CN111800375A (zh) * 2015-01-26 2020-10-20 卢森堡商创研腾智权信托有限公司 借由云端安全动态传输包括数据资料封包的方法
CN111400382A (zh) * 2020-03-03 2020-07-10 湖南长信畅中科技股份有限公司 一种模型驱动的数据集成中间件及实现方法
CN112163724A (zh) * 2020-08-05 2021-01-01 宁夏无线互通信息技术有限公司 环境信息数据资源整合集成系统
CN112256782A (zh) * 2020-10-30 2021-01-22 内蒙古电力(集团)有限责任公司乌海超高压供电局 基于Hadoop的电力大数据处理系统
CN112231333A (zh) * 2020-11-09 2021-01-15 南京莱斯网信技术研究院有限公司 一种生态环境数据共享交换方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEOYOON JANG 等: "Efficient Data Transmission Method Considering Hierarchical Data Structure", 《CCCIS 2020: PROCEEDINGS OF THE 2020 INTERNATIONAL CONFERENCE ON COMPUTER COMMUNICATION AND INFORMATION SYSTEMS》, pages 1 - 5 *
吴勇强: "浅谈县级环境监测质量保证与质控管理", 《化学工程与装备 》, pages 354 - 355 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535518A (zh) * 2021-07-23 2021-10-22 北京八分量信息科技有限公司 一种用户行为的分布式实时动态监控方法及系统
CN113535518B (zh) * 2021-07-23 2023-12-05 北京八分量信息科技有限公司 一种用户行为的分布式实时动态监控方法及系统
CN113327071A (zh) * 2021-08-04 2021-08-31 深圳市深水水务咨询有限公司 基于5g的环境管理方法、装置、计算机设备及存储介质
CN113327071B (zh) * 2021-08-04 2021-11-30 深圳市深水水务咨询有限公司 基于5g的环境管理方法、装置、计算机设备及存储介质
CN113918555A (zh) * 2021-10-29 2022-01-11 桂林航天工业学院 一种用于提升数据质量的数据治理方法
CN113918555B (zh) * 2021-10-29 2024-05-10 桂林航天工业学院 一种用于提升数据质量的数据治理方法
CN114500324A (zh) * 2022-01-24 2022-05-13 国家工业信息安全发展研究中心 一种面向工业互联网仿真测试床的集成接入系统
CN114500324B (zh) * 2022-01-24 2023-08-18 国家工业信息安全发展研究中心 一种面向工业互联网仿真测试床的集成接入系统
CN114866608B (zh) * 2022-07-07 2022-09-30 广东青藤环境科技有限公司 智慧水务数据处理平台
CN114866608A (zh) * 2022-07-07 2022-08-05 广东青藤环境科技有限公司 智慧水务数据处理平台
CN115219683A (zh) * 2022-07-29 2022-10-21 中国地质科学院岩溶地质研究所 一种水环境质量预警系统及其构建方法
CN115203192A (zh) * 2022-09-15 2022-10-18 北京清众神州大数据有限公司 一种基于可视化数据的清洗方法、装置及相关组件
CN115203192B (zh) * 2022-09-15 2023-03-03 北京清众神州大数据有限公司 一种基于可视化数据的清洗方法、装置及相关组件
CN115878599A (zh) * 2022-10-26 2023-03-31 河北雄安睿天科技有限公司 污水行业数据清洗方法
CN116455678A (zh) * 2023-06-16 2023-07-18 中国电子科技集团公司第十五研究所 网络安全日志汇接方法及系统
CN116455678B (zh) * 2023-06-16 2023-09-05 中国电子科技集团公司第十五研究所 网络安全日志汇接方法及系统
CN116506230A (zh) * 2023-06-28 2023-07-28 广东长盈科技股份有限公司 基于rsa非对称加密的数据采集方法、系统
CN116506230B (zh) * 2023-06-28 2023-10-03 广东长盈科技股份有限公司 基于rsa非对称加密的数据采集方法、系统
CN116932523A (zh) * 2023-08-14 2023-10-24 北京三维天地科技股份有限公司 一种整合和监管第三方环境检测机构的平台
CN116932523B (zh) * 2023-08-14 2024-03-15 北京三维天地科技股份有限公司 一种整合和监管第三方环境检测机构的平台
CN116894032B (zh) * 2023-09-05 2023-11-21 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法
CN116894032A (zh) * 2023-09-05 2023-10-17 江苏数兑科技有限公司 一种基于数据探查分析结果自动生成数据清洗规则的方法
CN117171176A (zh) * 2023-11-03 2023-12-05 北京格蒂智能科技有限公司 一种基于人工智能的用电大数据自升级监管平台
CN117171176B (zh) * 2023-11-03 2024-02-02 北京格蒂智能科技有限公司 一种基于人工智能的用电大数据自升级监管平台

Also Published As

Publication number Publication date
CN113010506B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN113010506B (zh) 一种多源异构水环境大数据管理系统
CN110765337B (zh) 一种基于互联网大数据的服务提供方法
CN111324602A (zh) 一种实现面向金融大数据分析可视化方法
CN112199433A (zh) 一种用于城市级数据中台的数据治理系统
CN104933112A (zh) 分布式互联网交易信息存储处理方法
CN113010505A (zh) 一种水环境大数据清洗方法
US20150317573A1 (en) User-relevant statistical analytics using business intelligence semantic modeling
CN102722584B (zh) 数据存储系统及方法
CN111160867A (zh) 大范围地域停车场大数据分析系统
CN112527886A (zh) 一种基于城市大脑的数据仓库系统
CN105405069A (zh) 一种购电经营决策分析与数据处理方法
CN104424231A (zh) 多维数据的处理方法及装置
CN106447550A (zh) 一种基于MySQL的房地产销售管理系统
CN111080261A (zh) 一种基于大数据的可视化数据资产管理系统
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN117472874A (zh) 基于大数据分析的政务数据资源集成管理系统及方法
CN116719799A (zh) 环保数据治理方法、装置、计算机设备和存储介质
CN116483822B (zh) 业务数据预警方法、装置、计算机设备、存储介质
CN116680445B (zh) 基于知识图谱的电力光通信系统多源异构数据融合方法及系统
CN112613711A (zh) 一种基于六何分析法的水务大数据指标管理方法及系统
Dong et al. Scene-based big data quality management framework
CN109033116B (zh) 一种基于数据血统的信息数据回流系统及方法
Rodero et al. The Audit of the Data Warehouse Framework.
CN112817938A (zh) 一种基于数据产品化的通用数据服务构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant