CN106354772A - 具有数据清洗的海量数据系统 - Google Patents
具有数据清洗的海量数据系统 Download PDFInfo
- Publication number
- CN106354772A CN106354772A CN201610700697.2A CN201610700697A CN106354772A CN 106354772 A CN106354772 A CN 106354772A CN 201610700697 A CN201610700697 A CN 201610700697A CN 106354772 A CN106354772 A CN 106354772A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- service
- mass
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了具有数据清洗的海量数据系统,包括:数据采集模块:从各类数据源收集数据到数据处理中心,数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据服务模块:实现客户对数据的访问需求,数据监控模块:对所述数据采集模块、数据处理模块、数据服务模块中的数据进行监控记录和处理。本发明能发现结构级错误和记录级错误并修正,解决值缺失、值错误、重复记录以及数据源内部与数据源之间不一致性的错误。
Description
技术领域
本发明涉及一种数据系统,具体涉及具有数据清洗的海量数据系统。
背景技术
近年来,随着信息化技术的迅猛发展,收集、存储、处理和分析的数据量越来越大。面向海量数据的处理越来越火,区别于传统的数据结构化特点,大数据有三个特点,包括海量性、分布性、和异构性。其海量性主要是指数据规模的巨大并且增长速度持续增加;其分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析;其异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决大数据带来的问题,针对这三个特性,面向大数据的集成和清洗变得尤为重要。大数据同时还包含不确定性数据,现阶段不确定数据产生的原因比较多样化,主要体现在原始数据不准确、使用粗粒度数据集合、数据字段缺失以及数据集成。
发明内容
本发明所要解决的技术问题是发现结构级错误和记录级错误并修正,目的在于提供具有数据清洗的海量数据系统,解决值缺失、值错误、重复记录以及数据源内部与数据源之间不一致性的错误。
本发明通过下述技术方案实现:
具有数据清洗的海量数据系统,包括:
数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;
数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;
数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;
数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;
数据服务模块:将所述数据存储管理模块存储的数据以各种方式与客户之间进行交互,实现客户对数据的访问需求,所述数据服务模块包括数据共享分发、元数据交换、Web检索服务、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理;
数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。
进一步地,错误类型包括结构级错误和记录级错误。
进一步地,识别错误的方法是基于数据按照预定义的清理规则,查找不匹配的记录。
进一步地,修正错误是指按照编制程序或借助于外部标准源文件或数据字典修正错误,又或者根据数理统计知识自动修正。
本发明与现有技术相比,具有如下的优点和有益效果:发现结构级错误和记录级错误并修正,解决值缺失、值错误、重复记录以及数据源内部与数据源之间不一致性的错误。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1所示,具有数据清洗的海量数据系统,包括:
数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;
数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;
数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;错误类型包括结构级错误和记录级错误;识别错误的方法是基于数据按照预定义的清理规则,查找不匹配的记录;修正错误是指按照编制程序或借助于外部标准源文件或数据字典修正错误,又或者根据数理统计知识自动修正。
数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;数据存储管理模块具有集中化备份管理、集中化复制管理、连续数据保护、分析和报告和简化管理的优点,提高了数据库可用性、增加了应用程序正常运行时间、减少了业务风险。
数据服务模块:将所述数据存储管理模块存储的数据以各种方式与客户之间进行交互,实现客户对数据的访问需求,所述数据服务模块包括数据共享分发、元数据交换、Web检索服务、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理;
数据监控模块:对所述数据采集模块中的数据收集过程、数据处理模块的数据处理、数据服务模块中的数据访问过程进行监控记录和处理。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.具有数据清洗的海量数据系统,其特征在于,包括:
数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;
数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;
数据清洗模块:首先完成数据分析、定义错误类型,其次完成搜索、识别错误记录,最后修正错误;
数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;
数据服务模块:将所述数据存储管理模块存储的数据以各种方式与客户之间进行交互,实现客户对数据的访问需求,所述数据服务模块包括数据共享分发、元数据交换、Web检索服务、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理;
数据监控模块:对所述数据采集模块中的数据收集过程、数据处理模块的数据处理、数据服务模块中的数据访问过程进行监控记录和处理。
2.根据权利要求1所述的具有数据清洗的海量数据系统,其特征在于,所述错误类型包括结构级错误和记录级错误。
3.根据权利要求1所述的具有数据清洗的海量数据系统,其特征在于,所述识别错误的方法是基于数据按照预定义的清理规则,查找不匹配的记录。
4.根据权利要求1所述的具有数据清洗的海量数据系统,其特征在于,所述修正错误是指按照编制程序或借助于外部标准源文件或数据字典修正错误,又或者根据数理统计知识自动修正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610700697.2A CN106354772A (zh) | 2016-08-23 | 2016-08-23 | 具有数据清洗的海量数据系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610700697.2A CN106354772A (zh) | 2016-08-23 | 2016-08-23 | 具有数据清洗的海量数据系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106354772A true CN106354772A (zh) | 2017-01-25 |
Family
ID=57844398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610700697.2A Pending CN106354772A (zh) | 2016-08-23 | 2016-08-23 | 具有数据清洗的海量数据系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106354772A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908744A (zh) * | 2017-11-16 | 2018-04-13 | 河南中医药大学 | 一种用于大数据清洗的异常检测和消除的方法 |
CN107908720A (zh) * | 2017-11-14 | 2018-04-13 | 河北工程大学 | 一种基于AdaBoost算法的专利数据清洗方法及系统 |
CN109241432A (zh) * | 2018-09-07 | 2019-01-18 | 云南东巴文信息技术有限公司 | 离散数据采集分析系统及方法 |
CN110019153A (zh) * | 2017-09-13 | 2019-07-16 | 北京宸信征信有限公司 | 一种多类型批量数据处理系统及其处理方法 |
CN111221809A (zh) * | 2020-01-08 | 2020-06-02 | 国电联合动力技术有限公司 | 基于实时数据库存储的数据清洗方法和系统及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135995A (zh) * | 2011-03-17 | 2011-07-27 | 新太科技股份有限公司 | 一种etl数据清洗设计方法 |
CN103365971A (zh) * | 2013-06-27 | 2013-10-23 | 北京中科金财科技股份有限公司 | 基于云计算的海量数据访问处理系统 |
CN104731852A (zh) * | 2014-12-16 | 2015-06-24 | 芜湖乐锐思信息咨询有限公司 | 一种大数据系统 |
CN104750813A (zh) * | 2015-03-30 | 2015-07-01 | 浪潮集团有限公司 | 一种基于数据归约模型的数据清洗方法 |
CN105512201A (zh) * | 2015-11-26 | 2016-04-20 | 晶赞广告(上海)有限公司 | 数据收集和加工方法及装置 |
CN105677842A (zh) * | 2016-01-05 | 2016-06-15 | 北京汇商融通信息技术有限公司 | 基于Hadoop大数据处理技术的日志分析系统 |
US20160179852A1 (en) * | 2014-12-18 | 2016-06-23 | Alexis Naibo | Visualizing Large Data Volumes Utilizing Initial Sampling and Multi-Stage Calculations |
-
2016
- 2016-08-23 CN CN201610700697.2A patent/CN106354772A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102135995A (zh) * | 2011-03-17 | 2011-07-27 | 新太科技股份有限公司 | 一种etl数据清洗设计方法 |
CN103365971A (zh) * | 2013-06-27 | 2013-10-23 | 北京中科金财科技股份有限公司 | 基于云计算的海量数据访问处理系统 |
CN104731852A (zh) * | 2014-12-16 | 2015-06-24 | 芜湖乐锐思信息咨询有限公司 | 一种大数据系统 |
US20160179852A1 (en) * | 2014-12-18 | 2016-06-23 | Alexis Naibo | Visualizing Large Data Volumes Utilizing Initial Sampling and Multi-Stage Calculations |
CN104750813A (zh) * | 2015-03-30 | 2015-07-01 | 浪潮集团有限公司 | 一种基于数据归约模型的数据清洗方法 |
CN105512201A (zh) * | 2015-11-26 | 2016-04-20 | 晶赞广告(上海)有限公司 | 数据收集和加工方法及装置 |
CN105677842A (zh) * | 2016-01-05 | 2016-06-15 | 北京汇商融通信息技术有限公司 | 基于Hadoop大数据处理技术的日志分析系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019153A (zh) * | 2017-09-13 | 2019-07-16 | 北京宸信征信有限公司 | 一种多类型批量数据处理系统及其处理方法 |
CN110019153B (zh) * | 2017-09-13 | 2022-03-04 | 北京宸信征信有限公司 | 一种多类型批量数据处理系统及其处理方法 |
CN107908720A (zh) * | 2017-11-14 | 2018-04-13 | 河北工程大学 | 一种基于AdaBoost算法的专利数据清洗方法及系统 |
CN107908744A (zh) * | 2017-11-16 | 2018-04-13 | 河南中医药大学 | 一种用于大数据清洗的异常检测和消除的方法 |
CN107908744B (zh) * | 2017-11-16 | 2021-05-18 | 河南中医药大学 | 一种用于大数据清洗的异常检测和消除的方法 |
CN109241432A (zh) * | 2018-09-07 | 2019-01-18 | 云南东巴文信息技术有限公司 | 离散数据采集分析系统及方法 |
CN111221809A (zh) * | 2020-01-08 | 2020-06-02 | 国电联合动力技术有限公司 | 基于实时数据库存储的数据清洗方法和系统及存储介质 |
CN111221809B (zh) * | 2020-01-08 | 2024-05-24 | 国电联合动力技术有限公司 | 基于实时数据库存储的数据清洗方法和系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106354772A (zh) | 具有数据清洗的海量数据系统 | |
CN109684352B (zh) | 数据分析系统、方法、存储介质及电子设备 | |
CN113010506B (zh) | 一种多源异构水环境大数据管理系统 | |
Jensen et al. | Modelardb: Modular model-based time series management with spark and cassandra | |
CN103823823B (zh) | 基于频繁项集挖掘算法的反规范化策略选择方法 | |
CN111027615A (zh) | 基于机器学习的中间件故障预警方法和系统 | |
Ekanayake et al. | Slice, mine and dice: Complexity-aware automated discovery of business process models | |
CN117056867B (zh) | 一种可用于数字孪生的多源异构数据融合方法及系统 | |
CN112181955B (zh) | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 | |
CN103177120B (zh) | 一种基于索引的XPath查询模式树匹配方法 | |
Barberis et al. | The ATLAS EventIndex: architecture, design choices, deployment and first operation experience | |
CN112306787B (zh) | 报错日志处理方法、装置、电子设备和智能音箱 | |
CN110389950B (zh) | 一种快速运行的大数据清洗方法 | |
CN114153980A (zh) | 知识图谱构建方法和装置、检查方法、存储介质 | |
CN117828539B (zh) | 数据智能融合分析系统及方法 | |
CN112596997A (zh) | 一种基于Flink实时计算的自动化流控制方法 | |
WO2020118928A1 (zh) | 一种面向海量设备运行数据的分布式时间序列模式检索方法 | |
CN107818106B (zh) | 一种大数据离线计算数据质量校验方法和装置 | |
CN107133335A (zh) | 一种基于分词与索引技术的重复记录检测方法 | |
CN107092530B (zh) | 一种基于分布式内存的信令数据处理方法及系统 | |
CN114528284A (zh) | 一种底层数据清洗方法、装置、移动终端和存储介质 | |
CN116680445B (zh) | 基于知识图谱的电力光通信系统多源异构数据融合方法及系统 | |
CN113254517A (zh) | 一种基于互联网大数据的服务提供方法 | |
CN115982177B (zh) | 一种基于树形维度的数据归集的方法、装置、设备及介质 | |
CN111221967A (zh) | 一种基于区块链架构的语言数据分类存储系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170125 |