CN107656995A - 面向大数据的数据管理系统 - Google Patents

面向大数据的数据管理系统 Download PDF

Info

Publication number
CN107656995A
CN107656995A CN201710851225.1A CN201710851225A CN107656995A CN 107656995 A CN107656995 A CN 107656995A CN 201710851225 A CN201710851225 A CN 201710851225A CN 107656995 A CN107656995 A CN 107656995A
Authority
CN
China
Prior art keywords
data
subsystem
center
collection
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710851225.1A
Other languages
English (en)
Inventor
王振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou Lucheng District New Research Institute Of Advanced Technology
Original Assignee
Wenzhou Lucheng District New Research Institute Of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou Lucheng District New Research Institute Of Advanced Technology filed Critical Wenzhou Lucheng District New Research Institute Of Advanced Technology
Priority to CN201710851225.1A priority Critical patent/CN107656995A/zh
Publication of CN107656995A publication Critical patent/CN107656995A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种高效数据管理系统,包括采集中心、数据中心、面向用户的用户中心;所述数据中心的HADOOP集群子系统包括对采集中心经SQL服务器转送的大数据多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块。本发明可以快速、高效、可靠地进行数据采集、数据处理,能给多行业用户子系统提供应用数据。由于本发明的数据中心完成大数据清洗,使得处理和分析海量数据成为可能,并对海量数据进行了初步分析,用户后续进一步的应用和分析提供了数据准备。

Description

面向大数据的数据管理系统
技术领域
本发明涉及一种数据管理系统,尤其是面向大数据的数据管理系统。
背景技术
随着国民经济的快速发展,各行各业所产生和存储的数据量在急速攀升,“大数据”已经渗透到每一个行业和领域,成为重要的生产要素。面向大数据的处理越来越火,区别于传统的数据结构化特点,大数据有三个特点,包括海量性、分布性、和异构性。其海量性主要是指数据规模的巨大并且增长速度持续增加;其分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析;其异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式,很难解决大数据带来的问题,针对这三个特性,面向大数据的集成和清洗变得尤为重要。大数据同时还包含不确定性数据,现阶段不确定数据产生的原因比较多样化,主要体现在原始数据不准确、使用粗粒度数据集合、数据字段缺失以及数据集成。因此,当前很多行业用户,如电力公司、金融企业等,都面临将关系型数据库中的大量数据抽取到大数据平台的需求。但现有的大数据平台兼容性低,一般为针对性平台,综合能力差,即用户的面向范围小。
Hadoop是Apache开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成的集群上运行应用程序,构建一个高可靠性和良好扩展性的并行分布式系统。HDFS、MapReduce编程模型和Hbase分布式数据库是其三大核心技术。其中,HBase–HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
发明内容
本发明的目的在于针对已有技术存在的缺陷,提供一种综合性强、兼容性高、可提供多元化干净数据的高效数据管理系统。
为达到上述目的,本发明采用下述技术方案:包括采集中心、数据中心、面向用户的用户中心;
所述的采集中心:包括各分别采集其对应的数据的采集集群、采集子系统、数据质量管理子系统以及采集备份子系统,由采集子系统对各采集集群分别进行常规采集,再由数据质量管理子系统对数据进行初步质量管理后,输出给数据中心,同时经数据质量管理子系统初步质量管理后的采集数据至采集备份子系统备份;
数据中心:包括SQL服务器、由SQL服务器接收大数据并对其进行处理的HADOOP集群子系统;SQL服务器接收采集中心发送的采集数据后对其进行识别分类,若为小数据,则由SQL服务器自行完成数据分类、数据加工整合以及数据存储,若为大数据,则传输至HADOOP集群子系统进行数据处理并存储,所述由SQL服务器或/和HADOOP集群子系统处理后的数据待用户中心调用,
用户中心,面向用户,由各行业的本地用户子系统组成,所述的数据中心将被调用数据经ETL数据处理后传输至用户中心该本地用户子系统进行应用;
所述数据中心的HADOOP集群子系统包括对采集中心经SQL服务器转送的大数据多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块,
所述的数据清洗模块:首先对数据进行去重处理,再对去重处理后的数据进行去异常数据分析、最后进行数据加工处理;所述的去重处理是对结构化数据记录进行相同去除,即抽取结构化数据记录中的字段名作为去重判断关键字;所述的去异常数据分析是对结构化数据记录中超过设定阀值的记录进行去除处理,即不同数据类型设定有效范围,有效范围的边缘为设定阀值,去除掉范围外的值,得到干净数据;所述的数据加工处理从结构化数据记录中获得增量变化数据,并将所述增量变化数据根据其数据操作类型实时更新数据库,所述的数据操作类型包括插入数据、更新数据、删除数据;
数据存储模块:利用HADOOP提供的分布式存储工具HBASE对清洗后的数据记录进行存储。
作为一种改进:所述的采集中心还包括第三方API子系统,所述的第三方API子系统将采集的数据直接传输至数据中心处理。
作为一种改进:所述的SQL服务器与HADOOP集群子系统之间通过SQOOP工具传递数据。
本发明的数据管理系统,本发明可以快速、高效、可靠地进行数据采集、数据处理,能给多行业用户子系统提供应用数据。由于本发明的数据中心完成大数据清洗,使得处理和分析海量数据成为可能,并对海量数据进行了初步分析,用户后续进一步的应用和分析提供了数据准备。再者HADOOP集群使得本发明系统具有良好的扩展性和高速性,对数据源系统的影响非常小,各子系统有机紧密结合,整体结构合理、数据交互稳定可靠快捷。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述。
附图说明
图1为本发明面向大数据的数据管理系统的整体架构图。
具体实施方式
包括采集中心A、数据中心B、面向用户的用户中心C;
所述的采集中心A:包括各分别采集其对应的数据的采集集群、采集子系统、数据质量管理子系统以及采集备份子系统,由采集子系统对各采集集群分别进行常规采集,再由数据质量管理子系统对数据进行初步质量管理后,输出给数据中心,同时经数据质量管理子系统初步质量管理后的采集数据至采集备份子系统备份;
数据中心B:包括SQL服务器、由SQL服务器接收大数据并对其进行处理的HADOOP集群子系统;SQL服务器接收采集中心A发送的采集数据后对其进行识别分类,若为小数据,则由SQL服务器自行完成数据分类、数据加工整合以及数据存储,若为大数据,则传输至HADOOP集群子系统进行数据处理并存储,所述由SQL服务器或/和HADOOP集群子系统处理后的数据待用户中心调用,
用户中心C,面向用户,由各行业的本地用户子系统组成,所述的数据中心B将被调用数据经ETL数据处理后传输至用户中心该本地用户子系统进行应用;
所述数据中心B的HADOOP集群子系统包括对采集中心A经SQL服务器转送的大数据多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块,所述的数据清洗模块:首先对数据进行去重处理,再对去重处理后的数据进行去异常数据分析、最后进行数据加工处理;所述的去重处理是对结构化数据记录进行相同去除,即抽取结构化数据记录中的字段名作为去重判断关键字;所述的去异常数据分析是对结构化数据记录中超过设定阀值的记录进行去除处理,即不同数据类型设定有效范围,有效范围的边缘为设定阀值,去除掉范围外的值,得到干净数据;所述的数据加工处理从结构化数据记录中获得增量变化数据,并将所述增量变化数据根据其数据操作类型实时更新数据库,所述的数据操作类型包括插入数据、更新数据、删除数据,以提高数据的实时性;
数据存储模块:利用HADOOP提供的分布式存储工具HBASE对清洗后的数据记录进行存储。
本发明的采集中心A还包括第三方API子系统,以扩展采集范围,所述的第三方API子系统将采集的数据直接传输至数据中心处理。
为使数据能安全稳定的交互转移,所述的SQL服务器与HADOOP集群子系统之间通过SQOOP工具传递数据。
虽然本发明已以具体实施例公开如上,然而其并非用以限定本发明,任何本领域的技术人员,在不脱离本发明的精神和范围的情况下,仍可作些许的更动与润饰,因此本发明的保护范围应当视所附的权利要求书的范围所界定者为准。

Claims (3)

1.一种面向大数据的数据管理系统,其特征在于:包括采集中心(A)、数据中心(B)、面向用户的用户中心(C);
所述的采集中心(A):包括各分别采集其对应的数据的采集集群、采集子系统、数据质量管理子系统以及采集备份子系统,由采集子系统对各采集集群分别进行常规采集,再由数据质量管理子系统对数据进行初步质量管理后,输出给数据中心,同时经数据质量管理子系统初步质量管理后的采集数据至采集备份子系统备份;
数据中心(B):包括SQL服务器、由SQL服务器接收大数据并对其进行处理的HADOOP集群子系统;SQL服务器接收采集中心(A)发送的采集数据后对其进行识别分类,若为小数据,则由SQL服务器自行完成数据分类、数据加工整合以及数据存储,若为大数据,则传输至HADOOP集群子系统进行数据处理并存储,所述由SQL服务器或/和HADOOP集群子系统处理后的数据待用户中心调用,
用户中心(C),面向用户,由各行业的本地用户子系统组成,所述的数据中心(B)将被调用数据经ETL数据处理后传输至用户中心该本地用户子系统进行应用;
所述数据中心(B)的HADOOP集群子系统包括对采集中心(A)经SQL服务器转送的大数据多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块,
所述的数据清洗模块:首先对数据进行去重处理,再对去重处理后的数据进行去异常数据分析、最后进行数据加工处理;所述的去重处理是对结构化数据记录进行相同去除,即抽取结构化数据记录中的字段名作为去重判断关键字;所述的去异常数据分析是对结构化数据记录中超过设定阀值的记录进行去除处理,即不同数据类型设定有效范围,有效范围的边缘为设定阀值,去除掉范围外的值,得到干净数据;所述的数据加工处理从结构化数据记录中获得增量变化数据,并将所述增量变化数据根据其数据操作类型实时更新数据库,所述的数据操作类型包括插入数据、更新数据、删除数据;
数据存储模块:利用HADOOP提供的分布式存储工具HBASE对清洗后的数据记录进行存储。
2.根据权利要求1所述的面向大数据的数据管理系统,其特征在于:所述的采集中心(A)还包括第三方API子系统,所述的第三方API子系统将采集的数据直接传输至数据中心处理。
3.根据权利要求1或2所述的面向大数据的数据管理系统,其特征在于:所述的SQL服务器与HADOOP集群子系统之间通过SQOOP工具传递数据。
CN201710851225.1A 2017-09-20 2017-09-20 面向大数据的数据管理系统 Pending CN107656995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710851225.1A CN107656995A (zh) 2017-09-20 2017-09-20 面向大数据的数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710851225.1A CN107656995A (zh) 2017-09-20 2017-09-20 面向大数据的数据管理系统

Publications (1)

Publication Number Publication Date
CN107656995A true CN107656995A (zh) 2018-02-02

Family

ID=61130357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710851225.1A Pending CN107656995A (zh) 2017-09-20 2017-09-20 面向大数据的数据管理系统

Country Status (1)

Country Link
CN (1) CN107656995A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508354A (zh) * 2018-09-25 2019-03-22 许继集团有限公司 一种并行处理系统
CN109670695A (zh) * 2018-12-12 2019-04-23 太原科技大学 基于离群数据挖掘的机械产品加工工序异常并行检测方法
CN111581480A (zh) * 2020-05-12 2020-08-25 杭州风远科技有限公司 新闻资讯聚合分析方法及系统、终端、存储介质
CN112434923A (zh) * 2020-11-16 2021-03-02 太原科技大学 一种基于子空间聚类的机械产品质量分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102594534A (zh) * 2012-02-14 2012-07-18 深圳市捷视飞通科技有限公司 一种数据传输方法、装置及系统
US20130174048A1 (en) * 2011-12-29 2013-07-04 Yu Xu Techniques for guided access to an external distributed file system from a database management system
CN104462314A (zh) * 2014-11-28 2015-03-25 国家电网公司 电网数据处理方法及装置
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130174048A1 (en) * 2011-12-29 2013-07-04 Yu Xu Techniques for guided access to an external distributed file system from a database management system
CN102594534A (zh) * 2012-02-14 2012-07-18 深圳市捷视飞通科技有限公司 一种数据传输方法、装置及系统
CN104462314A (zh) * 2014-11-28 2015-03-25 国家电网公司 电网数据处理方法及装置
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN105956015A (zh) * 2016-04-22 2016-09-21 四川中软科技有限公司 一种基于大数据的服务平台整合方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508354A (zh) * 2018-09-25 2019-03-22 许继集团有限公司 一种并行处理系统
CN109670695A (zh) * 2018-12-12 2019-04-23 太原科技大学 基于离群数据挖掘的机械产品加工工序异常并行检测方法
CN111581480A (zh) * 2020-05-12 2020-08-25 杭州风远科技有限公司 新闻资讯聚合分析方法及系统、终端、存储介质
CN111581480B (zh) * 2020-05-12 2023-09-08 杭州风远科技有限公司 新闻资讯聚合分析方法及系统、终端、存储介质
CN112434923A (zh) * 2020-11-16 2021-03-02 太原科技大学 一种基于子空间聚类的机械产品质量分析方法
CN112434923B (zh) * 2020-11-16 2024-02-06 太原科技大学 一种基于子空间聚类的机械产品质量分析方法

Similar Documents

Publication Publication Date Title
CN107656995A (zh) 面向大数据的数据管理系统
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
CN103678665B (zh) 一种基于数据仓库的异构大数据整合方法和系统
CN104317789B (zh) 构建乘客社交网络的方法
WO2016165378A1 (zh) 一种储能电站海量数据清洗方法及系统
CN104572895B (zh) MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN104111996A (zh) 基于hadoop平台的医保门诊大数据抽取系统及方法
CN106951552A (zh) 一种基于Hadoop的用户行为数据处理方法
CN104317970B (zh) 一种基于数据加工中心的数据流式处理方法
CN105956015A (zh) 一种基于大数据的服务平台整合方法
CN107395669A (zh) 一种基于流式实时分布式大数据的数据采集方法及系统
CN105512167A (zh) 一种基于混合数据库的多业务用户数据管理系统及其方法
CN107247799A (zh) 兼容多种大数据存储的数据处理方法、系统及其建模方法
CN104699757B (zh) 云环境下分布式网络信息采集方法
CN107733696A (zh) 一种机器学习和人工智能应用一体机部署方法
CN106599190A (zh) 基于云计算的动态Skyline查询方法
CN106599052A (zh) 一种基于ApacheKylin的数据查询系统及其方法
CN106909942A (zh) 一种面向高维度大数据的子空间聚类方法及装置
CN107193898A (zh) 基于分级复用的日志数据流的查询共享方法和系统
CN111078781A (zh) 一种多源流式大数据融合汇聚处理框架模型实现方法
CN106599189A (zh) 基于云计算的动态Skyline查询装置
CN102663083A (zh) 基于分布式计算的大规模社交网络信息抽取方法
CN114860780A (zh) 一种数据仓库、数据处理系统及计算机装置
CN108932258A (zh) 数据索引处理方法及装置
CN106776810A (zh) 一种大数据的数据处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180202

RJ01 Rejection of invention patent application after publication