CN113032495B - 基于数据仓库的多层数据存储系统、处理方法、及服务器 - Google Patents

基于数据仓库的多层数据存储系统、处理方法、及服务器 Download PDF

Info

Publication number
CN113032495B
CN113032495B CN202110308750.5A CN202110308750A CN113032495B CN 113032495 B CN113032495 B CN 113032495B CN 202110308750 A CN202110308750 A CN 202110308750A CN 113032495 B CN113032495 B CN 113032495B
Authority
CN
China
Prior art keywords
data
layer
storage
cleaning
increment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110308750.5A
Other languages
English (en)
Other versions
CN113032495A (zh
Inventor
余辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coocaa Network Technology Co Ltd
Original Assignee
Shenzhen Coocaa Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coocaa Network Technology Co Ltd filed Critical Shenzhen Coocaa Network Technology Co Ltd
Priority to CN202110308750.5A priority Critical patent/CN113032495B/zh
Publication of CN113032495A publication Critical patent/CN113032495A/zh
Application granted granted Critical
Publication of CN113032495B publication Critical patent/CN113032495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/282Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了基于数据仓库的多层数据存储系统、处理方法、及服务器,所述基于数据仓库的多层数据存储系统,包括依次设置的:原始数据层、数据抽取层、元数据存储层、数据转换层、数据存储层、应用层。本发明将数据仓库功能分类进行更细粒度的拆分,每一层分工明确,同时做到数据可以回溯以及便于管理。主要由六个层面组成:原始数据层、数据抽取层、元数据存储层、数据转换层、数据存储层、应用层。本发明实现了一种基于大数据平台数据仓库的多层体系架构,实现高效抽取数据、转换数据、清洗及加密数据、多维度的存储数据。

Description

基于数据仓库的多层数据存储系统、处理方法、及服务器
技术领域
本发明涉及数据库技术领域,尤其涉及一种基于数据仓库的多层数据存储系统、数据处理方法、服务器。
背景技术
随着大数据的时代的兴起,数据仓库从传统数据库设计转为了基于大数据平台设计。通常数据仓库的数据来自各个业务应用系统。业务系统中的数据形式多种多样,可能是各种关系数据库中的结构化数据,也可能是平面文件的非结构化数据。这些业务数据经过一系列的数据抽取、转换、清洗,最终以一种统一的格式装载进数据仓库。现有技术的大数据平台数据仓库结构复杂,抽取数据工作程序多,导致抽取数据效果需要花不少时间、抽取数据效果有待提高,有时不方便使用。
因此,现有技术还有待改进和提高。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种一种基于数据仓库的多层数据存储系统及数据处理方法,本发明本文提出并实现了一种基于大数据平台数据仓库的多层体系架构,实现高效抽取数据、转换数据、清洗及加密数据、多维度的存储数据。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种基于数据仓库的多层数据存储系统,其中,包括依次设置的:原始数据层、数据抽取层、元数据存储层、数据转换层、数据存储层、应用层;
所述原始数据层用于将数据根据需要分别存储到mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中;
所述数据抽取层用于通过sqoop工具将存储在mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中的数据按照增量或者全量方式进行抽取,同时使用shell脚本通过SFTP协议增量或者全量方式抽取CSV文件;
所述元数据存储层设置有增量表和全量表,所述元数据存储层用于按照业务系统、业务表进行分区存储;如果是增量则按天抽取,将抽取的数据存储在hive的分区,分区字段为date格式为YYYYMMDD;如果是全量则不要hive的分区;
所述数据转换层用于将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理;
所述数据存储层设置有增量表、全量表、快照表和拉链表:所述数据存储层主要功能是数据存储的规范化;
所述应用层包括用户可视化界面和管理员管理界面:所述应用层用于根据应用需求和业务要求开发相应的应用功能,包括数据查询、统计、分析。
所述的基于数据仓库的多层数据存储系统,其中,所述原始数据层包括依次设置的:mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件,用于存储不同的数据文件。
所述的基于数据仓库的多层数据存储系统,其中,所述数据抽取层包括依次设置的:mysql抽取引擎模块、SQLServer抽取引擎模块、Hbase抽取引擎模块、CSV文件。
所述的基于数据仓库的多层数据存储系统,其中,所述数据转换层分别设置有增量策略模块、全量策略模块、快照策略模块、拉链策略模块、清洗脱敏模块,以及加密模块,
其中,所述增量策略模块用于将数据按照增量进行清洗、脱敏、加密转换;
所述全量策略模块用于将数据按照全量进行清洗、脱敏、加密转换;
所述快照策略模块用于将数据按照快照进行清洗、脱敏、加密转换;
所述拉链策略模块用于将数据按照拉链进行清洗、脱敏、加密转换;
所述清洗脱敏模块用于将数据进行清洗、脱敏;
所述加密模块用于将数据进行加密转换。
所述的基于数据仓库的多层数据存储系统,其中,所述增量表用于将元数据的按照天存储,一天一个分区;所述全量表用于将元数据中所有的数据每天覆盖存储,只有一个分区;所述快照表用于每天将所有的元数据按天进行存储,一天一个分区;所述拉链表用于展示元属于历史记录,只有一个分区。
一种如上任一项所述基于数据仓库的多层数据存储系统的数据处理方法,其中,包括步骤:
根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式;
所述数据抽取层根据需要抽取的数据来源方式,将需要抽取的目标数据从所述原始数据层的mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中按照增量或者全量方式进行抽取,同时使用shell脚本通过SFTP协议增量或者全量方式抽取CSV文件;
将抽取的数据,通过所述元数据存储层按照业务系统、业务表进行分区存储;如果是增量则按天抽取,将抽取的数据存储在hive的分区,分区字段为date格式为YYYYMMDD;如果是全量则直接存储;
通过所述数据转换层是将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理;其中,所述转换策略包括:将数据按照增量进行清洗、脱敏、加密转换的增量策略,将数据按照全量进行清洗、脱敏、加密转换的全量策略,将数据按照快照进行清洗、脱敏、加密转换的快照策略,以及将数据按照拉链进行清洗、脱敏、加密转换的拉链策略;
将通过清洗、脱敏、加密方式转化后的数据,存储到所述数据存储层,最终存储形态为增量表、全量表、快照表、拉链表;其中,其中增量表是将元数据的按照天存储,一天一个分区;全量表是将元数据中所有的数据每天覆盖存储,只有一个分区;快照表是每天将所有的元数据按天进行存储,一天一个分区;拉链表是展示元属于历史记录,只有一个分区;
将存储在数据存储层的数据,根据应用需求和业务要求,在所述应用层进行数据查询、统计、分析,并通过相关界面显示。
所述的基于数据仓库的多层数据存储系统的数据处理方法,其中,所述根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式的步骤之前包括:
预先通过管理员管理界面:配置数据来源,抽取方式,存储形态,转换策略以及最终存储形态。
所述的基于数据仓库的多层数据存储系统的数据处理方法,其中,所述根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式的步骤之前还包括:
所述原始数据层预先将数据根据需要分别存储到mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中;
所述的基于数据仓库的多层数据存储系统的数据处理方法,其中,所述通过所述数据转换层是将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理的步骤包括:
数据清洗、脱敏、加密规则采用Hive技术进行封装形成自定义函数。
一种服务器,其中,所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于数据仓库的多层数据存储系统的数据处理引导程序,所述处理器执行所述基于数据仓库的多层数据存储系统的数据处理引导程序时,实现任一项所述的基于数据仓库的多层数据存储系统的数据处理方法的步骤。
有益效果:本发明提供的一种基于数据仓库的多层数据存储系统及数据处理方法,相较于现有传统数据仓库的系统,将数据仓库功能分类进行更细粒度的拆分,每一层分工明确,同时做到数据可以回溯以及便于管理。主要由六个层面组成:原始数据层、数据抽取层、元数据存储层、数据转换层、数据存储层、应用层。
附图说明
图1为本发明实施例提供的一种基于数据仓库的多层数据存储系统架构原理图。
图2为本发明实施例提供的一种基于数据仓库的多层数据存储系统运行原理图。
图3为本发明实施例提供的基于数据仓库的多层数据存储系统执行流程图。
图4为本发明实施例提供的基于数据仓库的多层数据存储系统执行行进各层关联示意图。
图5为本发明实施例提供的一种基于数据仓库的多层数据存储系统的数据处理方法流程图。
图6是本发明实施例提供的服务器的内部结构原理框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
随着大数据的时代的兴起,数据仓库从传统数据库设计转为了基于大数据平台设计。通常数据仓库的数据来自各个业务应用系统。业务系统中的数据形式多种多样,可能是各种关系数据库中的结构化数据,也可能是平面文件的非结构化数据。这些业务数据经过一系列的数据抽取、转换、清洗,最终以一种统一的格式装载进数据仓库。现有技术的大数据平台数据仓库结构复杂,抽取数据工作程序多,导致抽取数据效果需要花不少时间、抽取数据效果有待提高,有时不方便使用。
为了解决现有技术中的问题,本实施例提供一种基于数据仓库的多层数据存储系统,采用将数据仓库功能分类进行更细粒度的拆分,每一层分工明确,同时做到数据可以回溯以及便于管理。主要由六个层面组成:原始数据层、数据抽取层、元数据存储层、数据转换层、数据存储层、应用层。本发明实现了高效抽取数据、转换数据、清洗及加密数据、多维度的存储数据。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Distributed File System)。
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
本发明实施例提供的一种基于数据仓库的多层数据存储系统,提供了一种基于大数据平台数据仓库的多层体系架构系统,根据HADOOP以及HIVE的特点,本发明叫也一种基于多层结构的数据抽取和数据管理架构系统。本发明“基于HADOOP的数据仓库平台”,如图1所示,本发明实施例提供的一种基于数据仓库的多层数据存储系统,包括依次设置的:原始数据层、数据抽取层、元数据存储层、数据转换层、数据存储层、应用层;
其中,所述原始数据层用于将数据根据需要分别存储到mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中;如图1所示,本发明实施例所述原始数据层包括:mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件等,所述原始数据层对业务系统的数据存储到不同的介质之中包括:mysql、SQLServer、Hbase、CSV文件等存储介质。
所述数据抽取层包括:mysql抽取引擎模块、SQLServer抽取引擎模块、Hbase抽取引擎模块、CSV文件等;所述数据抽取层用于通过sqoop工具将存储在mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中的数据按照增量或者全量方式进行抽取,同时使用shell脚本通过SFTP协议增量或者全量方式抽取CSV文件。
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Shell脚本与Windows/Dos下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。
所述元数据存储层设置有增量表和全量表,所述元数据存储层用于按照业务系统(DBName)、业务表(TableName)进行分区存储。如果是增量则按天抽取,将抽取的数据存储在hive的分区,分区字段为date格式为YYYYMMDD。如果是全量则不要hive的分区。
所述数据转换层用于将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理。其中,所述数据转换层分别设置有增量策略模块、全量策略模块、快照策略模块、拉链策略模块、清洗脱敏模块,以及加密模块,本实施例所述数据转换层用于将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理。其中:增量策略模块用于将数据按照增量进行清洗、脱敏、加密转换;全量策略模块是将数据按照全量进行清洗、脱敏、加密转换;快照策略模块用于将数据按照快照进行清洗、脱敏、加密转换;拉链策略模块用于将数据按照拉链进行清洗、脱敏、加密转换。所述清洗脱敏模块用于将数据进行清洗、脱敏;所述加密模块用于将数据进行加密转换。
所述数据存储层设置有增量表、全量表、快照表和拉链表:所述数据存储层主要功能是数据存储的规范化。其中增量表是将元数据的按照天存储,一天一个分区;全量表是将元数据中所有的数据每天覆盖存储,只有一个分区;快照表是每天将所有的元数据按天进行存储,一天一个分区;拉链表是展示元属于历史记录,只有一个分区。
所述应用层包括用户可视化界面和管理员管理界面:所述应用层用于根据应用需求和业务要求开发相应的应用功能,包括数据查询、统计、分析等。
如图2所示,本发明实施例的一种基于数据仓库的多层数据存储系统,运行进参考如图2所示:
其中,通过应用层的用户可视化界面:便于用户查询数据仓库中数据的收取,数据存储,数据转换过程;
通过应用层的管理员管理界面:实现配置数据来源,抽取方式,存储形态,转换策略以及最终存储形态;
数据抽取引擎层实现:目标数据从Mysql、SqlServer、Hbase、Csv抽取到数据仓库中,抽取方式为全量抽取或者增量抽取,存储形式为全量表(无分区)或者增量表(按天分区);
本发明数据转换策略层原理:数据按照全量或者增量存储原始数据,通过清洗、脱敏、加密方式进行转换,最终存储形态为增量表、全量表、快照表、拉链表;
本发明实施例中数据清洗、脱敏、加密规则采用Hive技术进行封装形成自定义函数。
其中,本发明的数据洗规则如表1所示。
表1数据清洗规则表
编号 清洗函数名称 清洗方式描述
01 不清洗
02 q_del_all_blank 空格去掉
03 q_trim 左右两边的空格去掉
04 q_del_specil 去掉特殊字符(-,(,),(,))
05 q_all_upper 所有字母大写
06 q_all_lower 所有字母小写
07 q_empty 置空
另外本发明实施例的数据脱敏规则表如表2所示:
表2数据脱敏规则表
其中,本发明实施例的数据加密规则表如表3所示;
表3数据加密规则表
编号 加密函数名称 字段名称变更 算法解释
01 j_sha256 filed_sha256 SHA256是SHA-2下细分出的一种算法,加密之后名字变更
02 j_aes filed_aes Aes是密码学中又称Rijndael加密法,加密之后名字变更
如图3所示,本发明实施例的一种基于数据仓库的多层数据存储系统工作时,工作原理如下:
步骤1、当任务启动时候,根据确定好的数据来源(mysql、SQLService、HBase、CSV)和抽取方式(增量、全量);
2)通过增量抽取或全量抽取,将不做任务处理的数据抽取到数据仓库中;
3)启动数据转化策略,确定好数据存储方式(增量、全量、快照、拉链)和数据处理方式(清洗、脱敏、加密);
4)通过HiveSQ的执行过程和执行自定义函数,转化数据,最后将数据存储到数据存储层。
由上可见,本发明提出了一种基于数据仓库的多层数据存储系统,本系统有效管理数据的输入和输出,同时对数据转换进行可以配置操作。最终通过用户可视化页面查询从数据来源、数据抽取、数据转换、数据存储的整个过程,达到数据有效管理和存储空间的合理分配。
例如,如图4所示,在应用层的管理员管理界面,可以配置数据抽取来源,抽取方式,数据存储方式,数据转换方式,数据最终存储形态;在应用层的用户可视化界面,可以查询元数据存储层中增量表和快照表的详细信息以及来源,同时在数据存储层查询增量表、全量表、快照表、拉链表的详细信息以及来源。
由上可见,本发明实施例所述的基于数据仓库的多层数据存储系统,提供的存储系统有着极好的管理措施,能将数据的输入达到多元化抽取,能将数据转换达到自定义清洗、加密、脱敏,能将数据到达多元化存储及输出,进而达到数据有序管理,数据有效存储,数据合理加工。
现有技术的大多数数据仓库的存储系统,因管理不完善导致数据没有有序存储,数据程序错综负责,维护成本极高。有了本发明的系统,能达到数据有序管理,数据有效存储,数据合理加工,为公司的数据提供合理及高效存储,为公司决策提供支撑。
示例性方法
基于上述实施例所述的基于数据仓库的多层数据存储系统,本发明还提供了一种基于数据仓库的多层数据存储系统的数据处理方法,可应用于服务器中,具体如图5中所示,所述基于数据仓库的多层数据存储系统的数据处理方法包括如下步骤:
步骤S100、根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式;
本发明在具体实施前可以预先通过管理员管理界面:配置数据来源,抽取方式,存储形态,转换策略以及最终存储形态。例如1)任务启动时候,根据确定好的数据来源(例如来源mysql、SQLService、HBase、CSV)和抽取方式(增量抽取、全量抽取)。
本发明实施例存原始数据时,通过所述原始数据层预先将数据根据需要分别存储到mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中;
然后,1)任务启动时候,根据确定好的数据来源(mysql、SQLService、HBase、CSV)和抽取方式(增量、全量)。即根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式。
步骤S200、所述数据抽取层根据需要抽取的数据来源方式,将需要抽取的目标数据从所述原始数据层的mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中按照增量或者全量方式进行抽取,同时使用shell脚本通过SFTP协议增量或者全量方式抽取CSV文件;
步骤S300、将抽取的数据,通过所述元数据存储层按照业务系统、业务表进行分区存储;如果是增量则按天抽取,将抽取的数据存储在hive的分区,分区字段为date格式为YYYYMMDD;如果是全量则直接存储;
本发明实施例中,通过增量或全量,将数据不做任务处理的抽取到数据仓库中。然后3)启动数据转化策略,确定好数据存储方式(增量、全量、快照、拉链)和数据处理方式(清洗、脱敏、加密),具体如下面步骤所述。
步骤S400、通过所述数据转换层是将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理;
其中,所述转换策略包括:将数据按照增量进行清洗、脱敏、加密转换的增量策略,将数据按照全量进行清洗、脱敏、加密转换的全量策略,将数据按照快照进行清洗、脱敏、加密转换的快照策略,以及将数据按照拉链进行清洗、脱敏、加密转换的拉链策略;
本发明实施例中,数据清洗、脱敏、加密规则采用Hive技术进行封装形成自定义函数。
步骤S500、将通过清洗、脱敏、加密方式转化后的数据,存储到所述数据存储层,最终存储形态为增量表、全量表、快照表、拉链表;
其中,其中增量表是将元数据的按照天存储,一天一个分区;全量表是将元数据中所有的数据每天覆盖存储,只有一个分区;快照表是每天将所有的元数据按天进行存储,一天一个分区;拉链表是展示元属于历史记录,只有一个分区;
步骤S600、将存储在数据存储层的数据,根据应用需求和业务要求,在所述应用层进行数据查询、统计、分析,并通过相关界面显示。
示例性设备
基于上述实施例,本发明还提供了一种服务器,其原理框图可以如图6所示。该服务器包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中,该服务器的处理器用于提供计算和控制能力。该服务器的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该服务器的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数据仓库的多层数据存储系统。该服务器的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图6中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种服务器,服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的基于数据仓库的多层数据存储系统的数据处理引导程序,处理器执行基于数据仓库的多层数据存储系统的数据处理引导程序时,实现如下操作指令:
根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式;
所述数据抽取层根据需要抽取的数据来源方式,将需要抽取的目标数据从所述原始数据层的mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中按照增量或者全量方式进行抽取,同时使用shell脚本通过SFTP协议增量或者全量方式抽取CSV文件;
将抽取的数据,通过所述元数据存储层按照业务系统、业务表进行分区存储;如果是增量则按天抽取,将抽取的数据存储在hive的分区,分区字段为date格式为YYYYMMDD;如果是全量则直接存储;
通过所述数据转换层是将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理;其中,所述转换策略包括:将数据按照增量进行清洗、脱敏、加密转换的增量策略,将数据按照全量进行清洗、脱敏、加密转换的全量策略,将数据按照快照进行清洗、脱敏、加密转换的快照策略,以及将数据按照拉链进行清洗、脱敏、加密转换的拉链策略;
将通过清洗、脱敏、加密方式转化后的数据,存储到所述数据存储层,最终存储形态为增量表、全量表、快照表、拉链表;其中,其中增量表是将元数据的按照天存储,一天一个分区;全量表是将元数据中所有的数据每天覆盖存储,只有一个分区;快照表是每天将所有的元数据按天进行存储,一天一个分区;拉链表是展示元属于历史记录,只有一个分区;
将存储在数据存储层的数据,根据应用需求和业务要求,在所述应用层进行数据查询、统计、分析,并通过相关界面显示,具体如上所述。
其中,所述根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式的步骤之前包括:
预先通过管理员管理界面:配置数据来源,抽取方式,存储形态,转换策略以及最终存储形态。
其中,所述根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式的步骤之前还包括:
所述原始数据层预先将数据根据需要分别存储到mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中;
其中,所述通过所述数据转换层是将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理的步骤包括:
数据清洗、脱敏、加密规则采用Hive技术进行封装形成自定义函数。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上,本发明公开了一种基于数据仓库的多层数据存储系统、处理方法、及服务器,所述基于数据仓库的多层数据存储系统,包括依次设置的:原始数据层、数据抽取层、元数据存储层、数据转换层、数据存储层、应用层。本发明将数据仓库功能分类进行更细粒度的拆分,每一层分工明确,同时做到数据可以回溯以及便于管理。主要由六个层面组成:原始数据层、数据抽取层、元数据存储层、数据转换层、数据存储层、应用层。本发明实现了一种基于大数据平台数据仓库的多层体系架构,实现高效抽取数据、转换数据、清洗及加密数据、多维度的存储数据。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于数据仓库的多层数据存储系统,其特征在于,包括依次设置的:原始数据层、数据抽取层、元数据存储层、数据转换层、数据存储层、应用层;
所述原始数据层用于将数据根据需要分别存储到mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中;
所述数据抽取层用于通过sqoop工具将存储在mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中的数据按照增量或者全量方式进行抽取,同时使用shell脚本通过SFTP协议增量或者全量方式抽取CSV文件;
所述元数据存储层设置有增量表和全量表,所述元数据存储层用于按照业务系统、业务表进行分区存储;如果是增量则按天抽取,将抽取的数据存储在hive的分区,分区字段为date格式为YYYYMMDD;如果是全量则不要hive的分区;
所述数据转换层用于将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理;
所述数据存储层设置有增量表、全量表、快照表和拉链表:所述数据存储层主要功能是数据存储的规范化;
所述应用层包括用户可视化界面和管理员管理界面:所述应用层用于根据应用需求和业务要求开发相应的应用功能,包括数据查询、统计、分析;
应用层的管理员管理界面,配置数据抽取来源,抽取方式,数据存储方式,数据转换方式,数据最终存储形态;
所述数据转换层分别设置有增量策略模块、全量策略模块、快照策略模块、拉链策略模块、清洗脱敏模块,以及加密模块,
其中,所述增量策略模块用于将数据按照增量进行清洗、脱敏、加密转换;
所述全量策略模块用于将数据按照全量进行清洗、脱敏、加密转换;
所述快照策略模块用于将数据按照快照进行清洗、脱敏、加密转换;
所述拉链策略模块用于将数据按照拉链进行清洗、脱敏、加密转换;
所述清洗脱敏模块用于将数据进行清洗、脱敏;
所述加密模块用于将数据进行加密转换。
2.根据权利要求1所述的基于数据仓库的多层数据存储系统,其特征在于,所述原始数据层包括依次设置的:mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件,用于存储不同的数据文件。
3.根据权利要求1所述的基于数据仓库的多层数据存储系统,其特征在于,所述数据抽取层包括依次设置的:mysql抽取引擎模块、SQLServer抽取引擎模块、Hbase抽取引擎模块、CSV文件。
4.根据权利要求1所述的基于数据仓库的多层数据存储系统,其特征在于,所述增量表用于将元数据的按照天存储,一天一个分区;所述全量表用于将元数据中所有的数据每天覆盖存储,只有一个分区;所述快照表用于每天将所有的元数据按天进行存储,一天一个分区;所述拉链表用于展示元数据历史记录,只有一个分区。
5.一种如权利要求1-4任一项所述基于数据仓库的多层数据存储系统的数据处理方法,其特征在于,包括步骤:
根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式;
所述数据抽取层根据需要抽取的数据来源方式,将需要抽取的目标数据从所述原始数据层的mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中按照增量或者全量方式进行抽取,同时使用shell脚本通过SFTP协议增量或者全量方式抽取CSV文件;
将抽取的数据,通过所述元数据存储层按照业务系统、业务表进行分区存储;如果是增量则按天抽取,将抽取的数据存储在hive的分区,分区字段为date格式为YYYYMMDD;如果是全量则直接存储;
通过所述数据转换层是将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理;其中,所述转换策略包括:将数据按照增量进行清洗、脱敏、加密转换的增量策略,将数据按照全量进行清洗、脱敏、加密转换的全量策略,将数据按照快照进行清洗、脱敏、加密转换的快照策略,以及将数据按照拉链进行清洗、脱敏、加密转换的拉链策略;
将通过清洗、脱敏、加密方式转化后的数据,存储到所述数据存储层,最终存储形态为增量表、全量表、快照表、拉链表;其中,其中增量表是将元数据的按照天存储,一天一个分区;全量表是将元数据中所有的数据每天覆盖存储,只有一个分区;快照表是每天将所有的元数据按天进行存储,一天一个分区;拉链表是展示元数据历史记录,只有一个分区;
将存储在数据存储层的数据,根据应用需求和业务要求,在所述应用层进行数据查询、统计、分析,并通过相关界面显示;
应用层的管理员管理界面,配置数据抽取来源,抽取方式,数据存储方式,数据转换方式,数据最终存储形态。
6.根据权利要求5所述的基于数据仓库的多层数据存储系统的数据处理方法,其特征在于,所述根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式的步骤之前包括:
预先通过管理员管理界面:配置数据来源,抽取方式,存储形态,转换策略以及最终存储形态。
7.根据权利要求5所述的基于数据仓库的多层数据存储系统的数据处理方法,其特征在于,所述根据需要抽取的数据源信息以及配置的数据抽取方式,确定需要抽取的数据来源方式和数据抽取方式的步骤之前还包括:
所述原始数据层预先将数据根据需要分别存储到mysql存储介质、SQLServer存储介质、Hbase存储介质、CSV文件中。
8.根据权利要求5所述的基于数据仓库的多层数据存储系统的数据处理方法,其特征在于,所述通过所述数据转换层是将数据按照业务需求采用不同的转换策略以及清洗、脱敏、加密进行处理的步骤包括:
数据清洗、脱敏、加密规则采用Hive技术进行封装形成自定义函数。
9.一种服务器,其特征在于,所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于数据仓库的多层数据存储系统的数据处理引导程序,所述处理器执行所述基于数据仓库的多层数据存储系统的数据处理引导程序时,实现如权利要求5-8任一项所述的基于数据仓库的多层数据存储系统的数据处理方法的步骤。
CN202110308750.5A 2021-03-23 2021-03-23 基于数据仓库的多层数据存储系统、处理方法、及服务器 Active CN113032495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110308750.5A CN113032495B (zh) 2021-03-23 2021-03-23 基于数据仓库的多层数据存储系统、处理方法、及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110308750.5A CN113032495B (zh) 2021-03-23 2021-03-23 基于数据仓库的多层数据存储系统、处理方法、及服务器

Publications (2)

Publication Number Publication Date
CN113032495A CN113032495A (zh) 2021-06-25
CN113032495B true CN113032495B (zh) 2023-08-01

Family

ID=76472971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110308750.5A Active CN113032495B (zh) 2021-03-23 2021-03-23 基于数据仓库的多层数据存储系统、处理方法、及服务器

Country Status (1)

Country Link
CN (1) CN113032495B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470217B (zh) * 2022-11-14 2023-04-07 云筑信息科技(成都)有限公司 一种实时解决数仓模型变化响应问题的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324602A (zh) * 2020-02-21 2020-06-23 上海软中信息技术有限公司 一种实现面向金融大数据分析可视化方法
CN111597272A (zh) * 2020-05-26 2020-08-28 广州迈安信息科技有限公司 工程造价数据的存储方法、装置、数据服务器和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457935B2 (en) * 2005-09-13 2008-11-25 Yahoo! Inc. Method for a distributed column chunk data store
US7792774B2 (en) * 2007-02-26 2010-09-07 International Business Machines Corporation System and method for deriving a hierarchical event based database optimized for analysis of chaotic events
CN105761141A (zh) * 2016-02-23 2016-07-13 浪潮软件集团有限公司 智能监控分析平台
CN106021422B (zh) * 2016-05-13 2019-04-09 北京思特奇信息技术股份有限公司 一种基于关系型数据库形成Hive数据仓库的方法及系统
CN108280084A (zh) * 2017-01-06 2018-07-13 上海前隆信息科技有限公司 一种数据仓库的构建方法、系统及服务器
US20200334089A1 (en) * 2019-04-18 2020-10-22 Oracle International Corporation System and method for determining an amount of virtual machines for use with extract, transform, load (etl) processes
CN110334088A (zh) * 2019-07-11 2019-10-15 江苏曲速教育科技有限公司 教育数据管理系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324602A (zh) * 2020-02-21 2020-06-23 上海软中信息技术有限公司 一种实现面向金融大数据分析可视化方法
CN111597272A (zh) * 2020-05-26 2020-08-28 广州迈安信息科技有限公司 工程造价数据的存储方法、装置、数据服务器和存储介质

Also Published As

Publication number Publication date
CN113032495A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN104298760B (zh) 一种应用于数据仓库的数据处理方法和数据处理装置
EP3602351B1 (en) Apparatus and method for distributed query processing utilizing dynamically generated in-memory term maps
WO2022126974A1 (zh) 基于Kafka的增量数据同步方法、装置、设备及介质
US10572863B2 (en) Systems and methods for managing allocation of machine data storage
US8234248B2 (en) Tracking changes to a business object
US11487714B2 (en) Data replication in a data analysis system
CN111258966A (zh) 一种数据去重方法、装置、设备及存储介质
EP2912578A1 (en) Systems and methods for intelligent parallel searching
CN107301214A (zh) 在hive中数据迁移方法、装置及终端设备
CN111708895B (zh) 一种知识图谱系统的构建方法及装置
JP2018060570A (ja) 単一テーブルから複数テーブルへの参照データセグメント化
CN113032495B (zh) 基于数据仓库的多层数据存储系统、处理方法、及服务器
US20220253453A1 (en) Method and system for persisting data
CN115544007A (zh) 标签预处理方法、装置、计算机设备和存储介质
Kathare et al. A comprehensive study of Elasticsearch
WO2021014436A1 (en) Data restoration using dynamic data structure altering
US11436359B2 (en) System and method for managing permissions of users for a single data type column-oriented data structure
US20230153455A1 (en) Query-based database redaction
CN111198917A (zh) 数据处理方法、装置、设备及存储介质
CN116303427A (zh) 数据处理方法及装置、电子设备和存储介质
Abdullahi et al. Big data: performance profiling of meteorological and oceanographic data on hive
CN115858471A (zh) 业务数据变更记录方法、装置、计算机设备及介质
WO2019082177A1 (en) SYSTEM AND METHOD FOR DATA EXTRACTION
CN104657392B (zh) 一种实现检索异常还原的方法及装置
CN112732704B (zh) 一种数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant