CN107656995A

CN107656995A - 面向大数据的数据管理系统

Info

Publication number: CN107656995A
Application number: CN201710851225.1A
Authority: CN
Inventors: 王振宇
Original assignee: Wenzhou Lucheng District New Research Institute Of Advanced Technology
Current assignee: Wenzhou Lucheng District New Research Institute Of Advanced Technology
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2018-02-02

Abstract

一种高效数据管理系统,包括采集中心、数据中心、面向用户的用户中心；所述数据中心的HADOOP集群子系统包括对采集中心经SQL服务器转送的大数据多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块。本发明可以快速、高效、可靠地进行数据采集、数据处理，能给多行业用户子系统提供应用数据。由于本发明的数据中心完成大数据清洗，使得处理和分析海量数据成为可能，并对海量数据进行了初步分析，用户后续进一步的应用和分析提供了数据准备。

Description

面向大数据的数据管理系统

技术领域

本发明涉及一种数据管理系统，尤其是面向大数据的数据管理系统。

背景技术

随着国民经济的快速发展，各行各业所产生和存储的数据量在急速攀升，“大数据”已经渗透到每一个行业和领域，成为重要的生产要素。面向大数据的处理越来越火，区别于传统的数据结构化特点，大数据有三个特点，包括海量性、分布性、和异构性。其海量性主要是指数据规模的巨大并且增长速度持续增加；其分布性主要体现在巨大的数据量不能在一台机器上存储计算和分析；其异构性主要体现在数据类型和数据来源的多样化。利用传统的面向结构化数据的集中式处理方式，很难解决大数据带来的问题，针对这三个特性，面向大数据的集成和清洗变得尤为重要。大数据同时还包含不确定性数据，现阶段不确定数据产生的原因比较多样化，主要体现在原始数据不准确、使用粗粒度数据集合、数据字段缺失以及数据集成。因此，当前很多行业用户，如电力公司、金融企业等，都面临将关系型数据库中的大量数据抽取到大数据平台的需求。但现有的大数据平台兼容性低，一般为针对性平台，综合能力差，即用户的面向范围小。

Hadoop是Apache开源组织的一个分布式计算框架，可以在大量廉价的硬件设备组成的集群上运行应用程序，构建一个高可靠性和良好扩展性的并行分布式系统。HDFS、MapReduce编程模型和Hbase分布式数据库是其三大核心技术。其中，HBase–HadoopDatabase，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

发明内容

本发明的目的在于针对已有技术存在的缺陷，提供一种综合性强、兼容性高、可提供多元化干净数据的高效数据管理系统。

为达到上述目的，本发明采用下述技术方案：包括采集中心、数据中心、面向用户的用户中心；

所述的采集中心：包括各分别采集其对应的数据的采集集群、采集子系统、数据质量管理子系统以及采集备份子系统，由采集子系统对各采集集群分别进行常规采集，再由数据质量管理子系统对数据进行初步质量管理后，输出给数据中心，同时经数据质量管理子系统初步质量管理后的采集数据至采集备份子系统备份；

数据中心:包括SQL服务器、由SQL服务器接收大数据并对其进行处理的HADOOP集群子系统；SQL服务器接收采集中心发送的采集数据后对其进行识别分类，若为小数据，则由SQL服务器自行完成数据分类、数据加工整合以及数据存储，若为大数据，则传输至HADOOP集群子系统进行数据处理并存储，所述由SQL服务器或/和HADOOP集群子系统处理后的数据待用户中心调用，

用户中心，面向用户，由各行业的本地用户子系统组成，所述的数据中心将被调用数据经ETL数据处理后传输至用户中心该本地用户子系统进行应用；

所述数据中心的HADOOP集群子系统包括对采集中心经SQL服务器转送的大数据多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块，

所述的数据清洗模块：首先对数据进行去重处理，再对去重处理后的数据进行去异常数据分析、最后进行数据加工处理；所述的去重处理是对结构化数据记录进行相同去除，即抽取结构化数据记录中的字段名作为去重判断关键字；所述的去异常数据分析是对结构化数据记录中超过设定阀值的记录进行去除处理，即不同数据类型设定有效范围，有效范围的边缘为设定阀值，去除掉范围外的值，得到干净数据；所述的数据加工处理从结构化数据记录中获得增量变化数据，并将所述增量变化数据根据其数据操作类型实时更新数据库，所述的数据操作类型包括插入数据、更新数据、删除数据；

数据存储模块：利用HADOOP提供的分布式存储工具HBASE对清洗后的数据记录进行存储。

作为一种改进：所述的采集中心还包括第三方API子系统，所述的第三方API子系统将采集的数据直接传输至数据中心处理。

作为一种改进：所述的SQL服务器与HADOOP集群子系统之间通过SQOOP工具传递数据。

本发明的数据管理系统，本发明可以快速、高效、可靠地进行数据采集、数据处理，能给多行业用户子系统提供应用数据。由于本发明的数据中心完成大数据清洗，使得处理和分析海量数据成为可能，并对海量数据进行了初步分析，用户后续进一步的应用和分析提供了数据准备。再者HADOOP集群使得本发明系统具有良好的扩展性和高速性，对数据源系统的影响非常小，各子系统有机紧密结合，整体结构合理、数据交互稳定可靠快捷。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述。

附图说明

图1为本发明面向大数据的数据管理系统的整体架构图。

具体实施方式

包括采集中心A、数据中心B、面向用户的用户中心C；

所述的采集中心A：包括各分别采集其对应的数据的采集集群、采集子系统、数据质量管理子系统以及采集备份子系统，由采集子系统对各采集集群分别进行常规采集，再由数据质量管理子系统对数据进行初步质量管理后，输出给数据中心，同时经数据质量管理子系统初步质量管理后的采集数据至采集备份子系统备份；

数据中心B:包括SQL服务器、由SQL服务器接收大数据并对其进行处理的HADOOP集群子系统；SQL服务器接收采集中心A发送的采集数据后对其进行识别分类，若为小数据，则由SQL服务器自行完成数据分类、数据加工整合以及数据存储，若为大数据，则传输至HADOOP集群子系统进行数据处理并存储，所述由SQL服务器或/和HADOOP集群子系统处理后的数据待用户中心调用，

用户中心C，面向用户，由各行业的本地用户子系统组成，所述的数据中心B将被调用数据经ETL数据处理后传输至用户中心该本地用户子系统进行应用；

所述数据中心B的HADOOP集群子系统包括对采集中心A经SQL服务器转送的大数据多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块，所述的数据清洗模块：首先对数据进行去重处理，再对去重处理后的数据进行去异常数据分析、最后进行数据加工处理；所述的去重处理是对结构化数据记录进行相同去除，即抽取结构化数据记录中的字段名作为去重判断关键字；所述的去异常数据分析是对结构化数据记录中超过设定阀值的记录进行去除处理，即不同数据类型设定有效范围，有效范围的边缘为设定阀值，去除掉范围外的值，得到干净数据；所述的数据加工处理从结构化数据记录中获得增量变化数据，并将所述增量变化数据根据其数据操作类型实时更新数据库，所述的数据操作类型包括插入数据、更新数据、删除数据，以提高数据的实时性；

本发明的采集中心A还包括第三方API子系统，以扩展采集范围，所述的第三方API子系统将采集的数据直接传输至数据中心处理。

为使数据能安全稳定的交互转移，所述的SQL服务器与HADOOP集群子系统之间通过SQOOP工具传递数据。

虽然本发明已以具体实施例公开如上，然而其并非用以限定本发明，任何本领域的技术人员，在不脱离本发明的精神和范围的情况下，仍可作些许的更动与润饰，因此本发明的保护范围应当视所附的权利要求书的范围所界定者为准。

Claims

1.一种面向大数据的数据管理系统，其特征在于：包括采集中心(A)、数据中心(B)、面向用户的用户中心(C)；

所述的采集中心(A)：包括各分别采集其对应的数据的采集集群、采集子系统、数据质量管理子系统以及采集备份子系统，由采集子系统对各采集集群分别进行常规采集，再由数据质量管理子系统对数据进行初步质量管理后，输出给数据中心，同时经数据质量管理子系统初步质量管理后的采集数据至采集备份子系统备份；

数据中心(B):包括SQL服务器、由SQL服务器接收大数据并对其进行处理的HADOOP集群子系统；SQL服务器接收采集中心(A)发送的采集数据后对其进行识别分类，若为小数据，则由SQL服务器自行完成数据分类、数据加工整合以及数据存储，若为大数据，则传输至HADOOP集群子系统进行数据处理并存储，所述由SQL服务器或/和HADOOP集群子系统处理后的数据待用户中心调用，

用户中心(C)，面向用户，由各行业的本地用户子系统组成，所述的数据中心(B)将被调用数据经ETL数据处理后传输至用户中心该本地用户子系统进行应用；

所述数据中心(B)的HADOOP集群子系统包括对采集中心(A)经SQL服务器转送的大数据多源异构数据进行整合形成结构化数据记录的数据整合模块、数据清洗模块、将清洗后的数据进行分类的分类模块、数据存储模块，

2.根据权利要求1所述的面向大数据的数据管理系统，其特征在于：所述的采集中心(A)还包括第三方API子系统，所述的第三方API子系统将采集的数据直接传输至数据中心处理。

3.根据权利要求1或2所述的面向大数据的数据管理系统，其特征在于：所述的SQL服务器与HADOOP集群子系统之间通过SQOOP工具传递数据。