CN110188149A - 一种数据仓库系统 - Google Patents

一种数据仓库系统 Download PDF

Info

Publication number
CN110188149A
CN110188149A CN201910480817.6A CN201910480817A CN110188149A CN 110188149 A CN110188149 A CN 110188149A CN 201910480817 A CN201910480817 A CN 201910480817A CN 110188149 A CN110188149 A CN 110188149A
Authority
CN
China
Prior art keywords
data
big
configuration information
processing needs
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910480817.6A
Other languages
English (en)
Inventor
沈栋
陈卫华
邵林君
柳强波
刘永峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank Of Ningbo Co Ltd
Original Assignee
Bank Of Ningbo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank Of Ningbo Co Ltd filed Critical Bank Of Ningbo Co Ltd
Priority to CN201910480817.6A priority Critical patent/CN110188149A/zh
Publication of CN110188149A publication Critical patent/CN110188149A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本发明提供了一种数据仓库系统,依托大数据平台的存储及计算能力构建基础架构,开发了调度管理系统、大数据平台批处理框架模块、开发运维管理系统、大数据平台系统、大数据批处理任务开发工具和数据管理系统等系统,扩展了数据仓库的能力,在数据架构、数据建模、数据管理、数据仓库、数据开发运维、任务调度等方面做出了改进。本发明中的数据仓库除能够进行数据存储外,还能基于数据导出的配置信息,对获取的数据进行数据导出,即支持数据导出操作。另外能够通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理,即也具有数据处理功能,扩展了数据库的功能。

Description

一种数据仓库系统
技术领域
本发明涉及数据仓库领域,更具体的说,涉及一种数据仓库系统。
背景技术
数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统,数据库在各个领域得到了广泛的应用。
但是,现有的数据库仅能够提供数据存储功能,功能较单一。
发明内容
有鉴于此,本发明提供一种数据仓库系统,以解决现有的数据库仅能够提供数据存储和数据查询功能,功能较单一的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种数据仓库系统,包括:
开发运维管理系统,用于管理与大数据平台系统、数据仓库相关的辅助开发运维过程,以及与大数据平台批处理框架相关的配置信息;所述配置信息包括数据加载的配置信息及数据导出的配置信息;
调度管理系统,用于对与大数据平台系统的数据仓库相关的批处理任务进行调度;
大数据平台批处理框架模块,用于与所述开发运维管理系统和大数据平台系统进行数据交互以及执行与大数据平台系统相关的批处理任务;
大数据平台系统,用于通过所述大数据平台批处理框架模块获取数据加载的配置信息及数据导出的配置信息,基于所述数据加载的配置信息及数据导出的配置信息,对获取的数据进行数据存储和导出,以及通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理;
大数据批处理任务开发工具,用于开发与大数据平台系统的批处理任务相关的工具;
数据管理系统,用于对大数据平台系统的数据仓库中的数据的整个生命周期进行管理。
优选地,所述大数据平台系统包括数据存储模块,所述数据存储模块包括:
数据贴源层,用于存储在数据获取时间的指定时间之内的数据;
数据历史层,用于存储所述数据贴源层存储过的所有数据;
数据模型层,用于存储预设数据主题模型和数据主题模型;所述数据主题模型基于预设数据主题模型、所述数据贴源层和数据历史层分别存储的数据生成;
数据集市层,用于存储预设数据集市模型和数据集市;所述数据集市基于所述数据贴源层和数据历史层分别存储的数据、所述预设数据主题模型、所述数据主题模型和所述预设数据集市模型生成。
优选地,大数据平台系统包括数据处理模块;所述数据处理模块用于依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,具体用于:
若所述数据处理请求包括数据加载,通过所述大数据平台批处理框架模块获取数据加载的配置信息,并对所述数据处理需求所需的数据进行数据加载操作;
若所述数据处理请求包括数据导出,通过所述大数据平台批处理框架模块获取数据导出的配置信息,并对所述数据处理需求所需的数据进行数据导出操作;
若所述数据处理请求包括数据加工,对所述数据处理需求所需的数据进行数据加工操作。
优选地,若所述数据加工包括生成数据主题模型;所述数据处理模块用于依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,具体用于:
基于数据加载的配置信息,获取与数据处理需求对应的第一待处理数据;所述第一待处理数据包括所述数据贴源层和数据历史层分别存储的数据;
从所述数据模型层中获取与所述数据处理需求对应的预设数据主题模型;
依据所述预设数据主题模型和所述待处理数据,生成所述数据处理需求对应的数据主题模型。
优选地,若所述数据加工包括生成数据集市;所述数据处理模块用于依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,具体用于:
基于数据加载的配置信息,获取与数据处理需求对应的第二待处理数据;所述第二待处理数据包括所述数据贴源层和数据历史层分别存储的数据;
获取与所述数据处理需求对应的预设数据集市模型;
基于所述待处理数据和所述预设数据集市模型,生成所述数据处理需求对应的数据集市。
优选地,还包括:
集群管理模块,用于在基于所述数据加载的配置信息及数据导出的配置信息,对获取的数据进行数据存储和导出,以及通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,提供集群服务。
优选地,还包括:
安全管理模块,用于设置用户访问所述数据仓库系统的权限。
优选地,所述数据包括日志数据、流式数据、数据库数据和互联网数据中的一种或多种。
优选地,所述调度管理系统用于对与大数据平台系统的数据仓库相关的批处理任务进行调度时,具体用于:
基于定时触发或者事件触发的方式,对与大数据平台系统的数据仓库相关的批处理任务进行数据加载调度、数据加工调度和数据导出调度三种操作。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种数据仓库系统,本发明中的数据仓库除能够进行数据存储外,还能基于数据导出的配置信息,对获取的数据进行数据导出,即支持数据导出操作。另外还能够通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理,即也具有数据处理功能,通过本发明扩展了数据库的功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据仓库系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据仓库系统,参照图1,可以包括:
开发运维管理系统,用于管理与大数据平台系统、数据仓库相关的辅助开发运维过程,以及与大数据平台批处理框架相关的配置信息;所述配置信息包括数据加载的配置信息及数据导出的配置信息;
调度管理系统,用于对与大数据平台系统的数据仓库相关的批处理任务进行调度;
大数据平台批处理框架模块,用于与所述开发运维管理系统和大数据平台系统进行数据交互以及执行与大数据平台系统相关的批处理任务;
大数据平台系统,用于通过所述大数据平台批处理框架模块获取数据加载的配置信息及数据导出的配置信息,基于所述数据加载的配置信息及数据导出的配置信息,对获取的数据进行数据存储和导出,以及通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理;
大数据批处理任务开发工具,用于开发与大数据平台系统的批处理任务相关的工具;
数据管理系统,用于对大数据平台系统的数据仓库中的数据的整个生命周期进行管理。
具体的,开发运维管理系统管理与大数据平台系统、数据仓库相关的辅助开发运维过程是指:
开发运维管理系统具有项目管理功能,具体的,项目管理主要是指数据存储。
开发运维管理系统管理与大数据平台批处理框架相关的配置信息;所述配置信息包括数据加载的配置信息及数据导出的配置信息是指:
管理的数据加载的配置信息是指数据存储在什么位置、以什么方式存储,如可以存储在第一个文件夹中,以结构化的形式存储。
管理的数据导出的配置信息是指数据导出方式、数据导出到哪里等。如批量化导出到U盘中。
调度管理系统对与大数据平台系统的数据仓库相关的批处理任务进行调度是指:
对数据进行批量调度,如批量导出或批量加载。
大数据平台批处理框架模块与所述开发运维管理系统和大数据平台系统进行数据交互以及执行与大数据平台系统相关的批处理任务,是指:
大数据平台批处理框架模块具体可以为一数据端口,该数据端口可以与大数据平台进行数据交互,并执行与大数据平台系统相关的批处理任务,如数据的传入和传出。
大数据平台系统通过大数据平台批处理框架模块从开发运维管理系统中获取到数据加载的配置信息及数据导出的配置信息,在将数据加载时,首先获取需要加载或导出的数据,所述数据包括日志数据、流式数据、数据库DB数据和互联网数据中的一种或多种。按照不同的分类标准,数据可以有不同的形式。如数据可以是实时数据和不实时数据,即为T+0数据和T+1数据。T+1数据表示前一天的数据。数据也可以是银行内数据和银行外数据,此外,数据还可以是结构化数据和非结构化数据。
获取数据的方式可以有多种,如可以采用文件数据接入方式、实时数据接入方式和DB数据接入方式等。每种数据可以采用可以获取该数据的获取方式获取。
在获取到数据之后,若为数据加载,则按照数据加载的配置信息加载到指定位置,若为数据导出,则按照数据导出的配置信息导出。
大数据平台系统还能够通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理。具体的,大数据平台批处理框架模块可以从外接设备,如控制终端、上位机等设备获取到数据处理需求,数据处理需求包括数据加载、数据导出和数据加工,具体的,数据加载是指将外接数据加载到大数据平台系统中,数据导出,是指将数据从大数据平台系统中导出,数据加工,是指将大数据平台系统中的数据进行数据处理,可以包括生成数据集市和数据主题模型。
大数据批处理任务开发工具开发与大数据平台系统的批处理任务相关的工具是指开发包括但不限于数据加载工具、数据导出工具等。
数据管理系统对大数据平台系统的数据仓库中的数据的整个生命周期进行管理是指数据从加载、加工、导出的整个生命周期的管理。
可选的,在本实施例的基础上,还包括:
集群管理模块,用于在基于所述数据加载的配置信息及数据导出的配置信息,对获取的数据进行数据存储和导出,以及通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,提供集群服务。
具体的,集群管理模块采用多个计算机提供集群服务,多个计算机共同执行数据操作,如数据的存储和导出,另外,还能够在接收数据处理需求以及依据数据处理需求,对所述数据处理需求所需的数据进行处理时也提供集群服务。
可选的,在本实施例的基础上,还包括:安全管理模块,用于设置用户访问所述数据仓库系统的权限。
具体的,本实施例中构建的数据仓库可以允许用户进行访问,此时需要设置安全认证及权限管理,对用户的权限以及用户的身份进行验证通过后,才允许用户访问数据仓库。
用户在访问数据仓库系统时的权限要求,具体通过安全管理模块进行权限要求,如设置用户A仅能够访问大数据平台系统中的数据贴源层的内容,用户B可以访问大数据平台系统中的数据贴源层和数据历史层中的内容。
本实施例中的数据仓库除能够进行数据存储外,还能基于数据导出的配置信息,对获取的数据进行数据导出,即支持数据导出操作。另外还能够通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理,即也具有数据处理功能,通过本发明扩展了数据库的功能。
另外,本发明能够解决行内外数据融合的问题,可以采用批量处理的方式,解决大数据处理的性能问题,以及解决监管要求历史数据保存问题。
本发明实施例中的数据仓库系统基于大数据平台,大数据平台经过模型化处理的统一、全面、稳定的数据视图,为下游应用提供了准确的数据支持。大数据平台的海量存储特性可保留模型需要的历史数据,方便直接进行访问和模型验证;高性能批处理能力,在TB甚至PB级别数据量上的高吞吐操作支持,可以为新巴相关应用的模型探索和数据验证大大提高效率。
以业务的视角出发,从数据仓库的基础数据中归纳和提炼出具有共性的数据,为各类应用提供一个公共的数据服务平台,以满足不同应用场景对数据的需求、满足不同用户群体对信息的需求。通过历史数据层和模型数据层的结合,弱化范式结构,简化了数据处理逻辑、提高了性能、降低了开发难度;整合了各个应用同一需求的接口定义,降低开发成本;统一标准化,提高了数据质量。
大数据平台开放式的基础架构,可实现具有高可靠性和良好扩展性的分布式系统,并可运行于大量低成本硬件设备组成的集群系统上。弹性开放式计算:采用标准X86架构服务器大规模集群实现,每个模块都是一个离散的处理单元,使用并行计算技术,集群内各计算节点负荷均衡,当某节点负荷过高时,可智能的将负荷转移到其他节点,并支持节点线性平滑扩展。分布式存储:出于成本及开放性的要求,采用X86服务器的本地硬盘实现,使用分布式文件系统,保证存储设计的性能和可靠性目标。
可选的,在上述任一实施例的基础上,所述大数据平台系统包括数据存储模块,所述数据存储模块包括:
数据贴源层,用于存储在数据获取时间的指定时间之内的数据;
数据历史层,用于存储所述数据贴源层存储过的所有数据;
数据模型层,用于存储预设数据主题模型和数据主题模型;所述数据主题模型基于预设数据主题模型、所述数据贴源层和数据历史层分别存储的数据生成;
数据集市层,用于存储预设数据集市模型和数据集市;所述数据集市基于所述数据贴源层和数据历史层分别存储的数据、所述预设数据主题模型、所述数据主题模型和所述预设数据集市模型生成。
具体的,在进行数据存储时,首先将数据存储至SDATA数据贴源层,在存储时直接存储即可,不需要对数据进行处理,如进行格式转换等。
数据贴源层用于临时存储,如仅存储5天内的数据,在存储时,可以设置数据的数据标签,进而可以存储到大数据平台系统中与该数据相同的数据标签对应的数据下。
可选的,在获取到待存储的数据之后,采用预设数据校验机制,对数据进行校验,存储检验通过的数据。
具体的,数据校验机制是对数据的正确性与否的一个校验方法,通过数据校验机制可以确定获取的数据的正确与否,若正确,则保存,若不正确,则删除,或与该数据的数据源沟通以更改数据,以此来提高数据仓库的数据质量。
数据在SDATA数据贴源层中存储一段时间,如5天之后,将会转存到SHDATA数据历史层,SHDATA数据历史层存储历史数据集合。历史数据集合中的数据采用拉链数据的方式进行存储。
SHDATA数据历史层类似与ODS(Operational Data Store),主要用于支撑对实时性要求较高的应用以及贴源的应用需求。
在将数据存储到SHDATA数据历史层时,可以对该数据进行数据清洗,得到该数据对应的清洗后的数据,进行数据清洗能够保证存储到大数据平台系统中的数据的正确性。
数据清洗的过程可以是将每种待处理数据的格式转换为预设格式,以及数据的字段标准化和码值标准化等。
字段标准化可以是不同的数据的字段不统一,如字段名称不统一,字段种类不统一等,此时需要将字段的数量和名称进行统一。
码值标准化是指每种字段的字段数据要求不同,如有的数据位数是12位,有的是14位,则需要进行统一。
需要说明的是,当数据为实时数据时,数据清洗可以采用流式处理方法,流式处理方法包括时间流处理和事件流处理。时间流处理是指按照固定时间进行更新,事件流处理是指事件发生时,触发进行数据清洗。对于不是实时数据,可以采用批量处理方式,如日终批处理,即每天处理前一天获取的数据。批处理时,可以采用高速计算和大规模并行处理的方式处理。
当采用流式处理方法时,数据可以通过埋码、日志解析、变更数据捕获CDC等技术实时采集并传输到消息队列进行数据清洗。
PDATA数据模型层是整个数据仓库的核心,依据银行业务、数据类型驱动划分10大预设数据主题模型。PDATA数据模型层存储预设数据主题模型可以包括但不限于供应商主题模型、商品主题模型、客户主题模型和仓库主题模型等。可以基于数据贴源层和数据历史层中的数据,生成所需的预设数据主题模型对应的数据主题模型。
PDATA数据模型层可以服务多个不同应用,实现数据和指标的共享,减少数据重复计算与存储,只需要存放较为常用的业务数据,减少数据存储和分析工作量,能够实现宽带拉链,降低开发成本、运行效率、繁琐数据的获取。
MDATA数据集市层是领域集市,数据集市(Data Mart),也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。具体的,预设数据集市可以是信贷集市、审计集市等。
基于PDATA数据模型层中的数据、数据贴源层和数据历史层中的数据,生成数据集市。举例来说,当预设数据集市模型为信贷集市模型,则需要从SDATA数据贴源层、SHDATA数据历史层和PDATA数据模型层中获取到与信贷相关的是数据,并生成信贷集市模型对应的信贷集市。
本实施例中的数据集市适用于银行总行,针对银行总行下的分行,可以通过设置相应的分行SDATA数据贴源层,分行SHDATA数据历史层、分行PDATA数据模型层和MDATA数据集市层来实现分行的数据仓库。
本实施例的数据集市可以适用于不同的应用场景,具体如下:
1、基于搜索引擎的应用场景,基础数据基于大数据平台各层次数据加工处理后,整合成大宽表,并按照需要检索的字段项构建索引项,最后基于上述大宽表基础数据完成索引数据创建后,即可通过RESTful的接口对外提供各个索引项的搜索服务。
2、基于高速查询引擎的应用场景,针对需要直连大数据平台进行自主探索型的查询场景,提供高速查询引擎,可以实现秒级的结果返回。
3、其他基于大数据平台的应用场景,例如历史数据查询、基于历史全量数据的挖掘、机器学习等。
可选的,在上述任一实施例的基础上,大数据平台系统包括数据处理模块;所述数据处理模块用于依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,具体用于:
1)若所述数据处理请求包括数据加载,通过所述大数据平台批处理框架模块获取数据加载的配置信息,并对所述数据处理需求所需的数据进行数据加载操作。
具体的,当数据处理请求为数据加载时,基于大数据平台批处理框架模块从开发运维管理系统中获取到数据加载的配置信息,由于数据加载的配置信息规定了数据的存储策略,即描述数据是如何存储的,进而可以根据数据加载的配置信息进行数据存储。
2)若所述数据处理请求包括数据导出,通过所述大数据平台批处理框架模块获取数据导出的配置信息,并对所述数据处理需求所需的数据进行数据导出操作;
当数据处理请求包括数据导出时,基于大数据平台批处理框架模块从开发运维管理系统中获取到数据导出的配置信息,由于数据导出的配置信息规定了数据的导出策略,即描述数据是如何导出以及导出到什么位置的,进而可以根据数据导出的配置信息进行数据导出。
3)若所述数据处理请求包括数据加工,对所述数据处理需求所需的数据进行数据加工操作。
其中,数据加工可以包括生成数据主题模型和生成数据集市等。
可选的,在本实施例的基础上,所述调度管理系统用于对与大数据平台系统的数据仓库相关的批处理任务进行调度时,具体用于:
基于定时触发或者事件触发的方式,对与大数据平台系统的数据仓库相关的批处理任务进行数据加载调度、数据加工调度和数据导出调度三种操作。
具体的,定时触发是指当达到设定的时间时进行数据调度操作,事件触发是指当事件发生时,触发进行操作。如接收到用户调度指令时,进行数据调度操作。
可选的,在本实施例的基础上,若所述数据加工包括生成数据主题模型;所述数据处理模块用于依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,具体用于:
基于数据加载的配置信息,获取与数据处理需求对应的第一待处理数据;所述第一待处理数据包括所述数据贴源层和数据历史层分别存储的数据;
从所述数据模型层中获取与所述数据处理需求对应的预设数据主题模型;
依据所述预设数据主题模型和所述待处理数据,生成所述数据处理需求对应的数据主题模型。
具体的,若用户想要生成某一数据主题模型,首先需要确定用户想要生成什么数据主题模型,如商品主题模型,然后查找到该商品主题模型对应的预设商品主题模型,以及该商品主题模型所需的数据,其中,数据贴源层和数据历史层在存储数据时,为了能够方便存储,为数据设置上数据标签,以方便查找和存储数据。数据标签可以是身份标签、交易标签等,预设数据主题模型与各数据标签的对应关系已经预先生成,即每种预设数据主题模型需要哪些数据标签对应的数据是预先设定好的。
当确定了预设数据主题模型,基于每种所述预设数据主题模型与各数据标签的对应关系,查找预设商品主题模型对应的数据标签所对应的数据,并基于预设商品主题模型生成商品主题模型。
可选的,在本实施例的基础上,若所述数据加工包括生成数据集市;所述数据处理模块用于依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,具体用于:
基于数据加载的配置信息,获取与数据处理需求对应的第二待处理数据;所述第二待处理数据包括所述数据贴源层和数据历史层分别存储的数据;
获取与所述数据处理需求对应的预设数据集市模型;
基于所述待处理数据和所述预设数据集市模型,生成所述数据处理需求对应的数据集市。
具体的,生成数据集市的过程与生成数据主题模型的过程类似,参照生成数据主题模型的过程即可。
生成数据集市后,可以为相应的下游应用提供数据,如信贷集市可以为信贷系统提供数据。
生成数据集市后,可以采用导出文件、实时接口、直连工具、信息推送的方式来提供数据服务。
本实施例中,数据仓库除能够进行数据存储外,还能够依据每种预设数据主题模型对应的数据,生成每种预设数据主题模型对应的数据主题模型,方便用户观看不同领域的数据,扩展了数据库的功能。
另外,还可以生成多种数据集市,进而就可以通过数据集市提供数据服务。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种数据仓库系统,其特征在于,包括:
开发运维管理系统,用于管理与大数据平台系统、数据仓库相关的辅助开发运维过程,以及与大数据平台批处理框架相关的配置信息;所述配置信息包括数据加载的配置信息及数据导出的配置信息;
调度管理系统,用于对与大数据平台系统的数据仓库相关的批处理任务进行调度;
大数据平台批处理框架模块,用于与所述开发运维管理系统和大数据平台系统进行数据交互以及执行与大数据平台系统相关的批处理任务;
大数据平台系统,用于通过所述大数据平台批处理框架模块获取数据加载的配置信息及数据导出的配置信息,基于所述数据加载的配置信息及数据导出的配置信息,对获取的数据进行数据存储和导出,以及通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理;
大数据批处理任务开发工具,用于开发与大数据平台系统的批处理任务相关的工具;
数据管理系统,用于对大数据平台系统的数据仓库中的数据的整个生命周期进行管理。
2.根据权利要求1所述的数据仓库系统,其特征在于,所述大数据平台系统包括数据存储模块,所述数据存储模块包括:
数据贴源层,用于存储在数据获取时间的指定时间之内的数据;
数据历史层,用于存储所述数据贴源层存储过的所有数据;
数据模型层,用于存储预设数据主题模型和数据主题模型;所述数据主题模型基于预设数据主题模型、所述数据贴源层和数据历史层分别存储的数据生成;
数据集市层,用于存储预设数据集市模型和数据集市;所述数据集市基于所述数据贴源层和数据历史层分别存储的数据、所述预设数据主题模型、所述数据主题模型和所述预设数据集市模型生成。
3.根据权利要求2所述的数据仓库系统,其特征在于,大数据平台系统包括数据处理模块;所述数据处理模块用于依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,具体用于:
若所述数据处理请求包括数据加载,通过所述大数据平台批处理框架模块获取数据加载的配置信息,并对所述数据处理需求所需的数据进行数据加载操作;
若所述数据处理请求包括数据导出,通过所述大数据平台批处理框架模块获取数据导出的配置信息,并对所述数据处理需求所需的数据进行数据导出操作;
若所述数据处理请求包括数据加工,对所述数据处理需求所需的数据进行数据加工操作。
4.根据权利要求3所述的数据仓库系统,其特征在于,若所述数据加工包括生成数据主题模型;所述数据处理模块用于依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,具体用于:
基于数据加载的配置信息,获取与数据处理需求对应的第一待处理数据;所述第一待处理数据包括所述数据贴源层和数据历史层分别存储的数据;
从所述数据模型层中获取与所述数据处理需求对应的预设数据主题模型;
依据所述预设数据主题模型和所述待处理数据,生成所述数据处理需求对应的数据主题模型。
5.根据权利要求4所述的数据仓库系统,其特征在于,若所述数据加工包括生成数据集市;所述数据处理模块用于依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,具体用于:
基于数据加载的配置信息,获取与数据处理需求对应的第二待处理数据;所述第二待处理数据包括所述数据贴源层和数据历史层分别存储的数据;
获取与所述数据处理需求对应的预设数据集市模型;
基于所述待处理数据和所述预设数据集市模型,生成所述数据处理需求对应的数据集市。
6.根据权利要求1所述的数据仓库系统,其特征在于,还包括:
集群管理模块,用于在基于所述数据加载的配置信息及数据导出的配置信息,对获取的数据进行数据存储和导出,以及通过大数据平台批处理框架模块接收数据处理需求,依据所述数据处理需求,对所述数据处理需求所需的数据进行处理时,提供集群服务。
7.根据权利要求1所述的数据仓库系统,其特征在于,还包括:
安全管理模块,用于设置用户访问所述数据仓库系统的权限。
8.根据权利要求1所述的数据仓库系统,其特征在于,所述数据包括日志数据、流式数据、数据库数据和互联网数据中的一种或多种。
9.根据权利要求1所述的数据仓库系统,其特征在于,所述调度管理系统用于对与大数据平台系统的数据仓库相关的批处理任务进行调度时,具体用于:
基于定时触发或者事件触发的方式,对与大数据平台系统的数据仓库相关的批处理任务进行数据加载调度、数据加工调度和数据导出调度三种操作。
CN201910480817.6A 2019-06-04 2019-06-04 一种数据仓库系统 Pending CN110188149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910480817.6A CN110188149A (zh) 2019-06-04 2019-06-04 一种数据仓库系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910480817.6A CN110188149A (zh) 2019-06-04 2019-06-04 一种数据仓库系统

Publications (1)

Publication Number Publication Date
CN110188149A true CN110188149A (zh) 2019-08-30

Family

ID=67720183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910480817.6A Pending CN110188149A (zh) 2019-06-04 2019-06-04 一种数据仓库系统

Country Status (1)

Country Link
CN (1) CN110188149A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026432A (zh) * 2019-12-06 2020-04-17 中国建设银行股份有限公司 一种大数据处理平台、平台构建方法和存储介质
CN111427878A (zh) * 2020-03-20 2020-07-17 深圳乐信软件技术有限公司 数据监控告警方法、装置、服务器和存储介质
CN112307510A (zh) * 2020-11-02 2021-02-02 国网江苏省电力有限公司信息通信分公司 数据中台数据资产权限管理方法和管理系统
CN112507029A (zh) * 2020-12-18 2021-03-16 上海哔哩哔哩科技有限公司 数据处理系统及数据实时处理方法
CN112579585A (zh) * 2020-12-22 2021-03-30 京东数字科技控股股份有限公司 一种数据处理系统、方法及装置
CN114611044A (zh) * 2022-03-18 2022-06-10 江苏红网技术股份有限公司 一种基于数据仓库的数据开发系统及方法
CN116823464A (zh) * 2023-06-06 2023-09-29 海通期货股份有限公司 数据资产管理平台、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616213A (zh) * 2015-02-11 2015-05-13 浪潮电子信息产业股份有限公司 水电行业两级数据中心通用架构
CN106294521A (zh) * 2015-06-12 2017-01-04 交通银行股份有限公司 数据存储方法及数据仓库系统
CN107908672A (zh) * 2017-10-24 2018-04-13 深圳前海微众银行股份有限公司 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN108595644A (zh) * 2018-04-26 2018-09-28 宁波银行股份有限公司 一种大数据平台运维管理系统
US20190065533A1 (en) * 2017-08-29 2019-02-28 Bank Of America Corporation System for determining the impact to databases, tables and views by batch processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616213A (zh) * 2015-02-11 2015-05-13 浪潮电子信息产业股份有限公司 水电行业两级数据中心通用架构
CN106294521A (zh) * 2015-06-12 2017-01-04 交通银行股份有限公司 数据存储方法及数据仓库系统
US20190065533A1 (en) * 2017-08-29 2019-02-28 Bank Of America Corporation System for determining the impact to databases, tables and views by batch processing
CN107908672A (zh) * 2017-10-24 2018-04-13 深圳前海微众银行股份有限公司 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN108595644A (zh) * 2018-04-26 2018-09-28 宁波银行股份有限公司 一种大数据平台运维管理系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026432A (zh) * 2019-12-06 2020-04-17 中国建设银行股份有限公司 一种大数据处理平台、平台构建方法和存储介质
CN111427878A (zh) * 2020-03-20 2020-07-17 深圳乐信软件技术有限公司 数据监控告警方法、装置、服务器和存储介质
CN111427878B (zh) * 2020-03-20 2024-02-27 深圳乐信软件技术有限公司 数据监控告警方法、装置、服务器和存储介质
CN112307510A (zh) * 2020-11-02 2021-02-02 国网江苏省电力有限公司信息通信分公司 数据中台数据资产权限管理方法和管理系统
CN112507029A (zh) * 2020-12-18 2021-03-16 上海哔哩哔哩科技有限公司 数据处理系统及数据实时处理方法
CN112579585A (zh) * 2020-12-22 2021-03-30 京东数字科技控股股份有限公司 一种数据处理系统、方法及装置
CN114611044A (zh) * 2022-03-18 2022-06-10 江苏红网技术股份有限公司 一种基于数据仓库的数据开发系统及方法
CN116823464A (zh) * 2023-06-06 2023-09-29 海通期货股份有限公司 数据资产管理平台、电子设备及计算机可读存储介质
CN116823464B (zh) * 2023-06-06 2024-03-26 海通期货股份有限公司 数据资产管理平台、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110188149A (zh) 一种数据仓库系统
CN107766402A (zh) 一种楼盘字典云房源大数据平台
Fortier et al. Computer systems performance evaluation and prediction
CN110199273B (zh) 用于在多维数据库环境中的一次扫描中进行加载、聚合和批量计算的系统和方法
US11520760B2 (en) System and method for providing bottom-up aggregation in a multidimensional database environment
CA2953969C (en) Interactive interfaces for machine learning model evaluations
US20190102447A1 (en) System and method for metadata sandboxing and what-if analysis in a multidimensional database environment
CN100550010C (zh) 用于将应用程序与基于项的存储平台接口的系统和方法
US7313575B2 (en) Data services handler
US8340995B2 (en) Method and system of using artifacts to identify elements of a component business model
CN110347719A (zh) 一种基于大数据的企业外贸风险预警方法及系统
CN103930875A (zh) 用于加速业务数据处理的软件虚拟机
CN101587491A (zh) 使用运行时可重配置硬件的混合数据库系统
US20200026592A1 (en) System and method for automatic root cause analysis and automatic generation of key metrics in a multidimensional database environment
CN105930417A (zh) 一种基于云计算的大数据etl交互式处理平台
CN101789944B (zh) 多功能电能表通信协议栈的开发系统
CN111639121A (zh) 一种构建客户画像的大数据平台及构建方法
Grandi et al. The CMS computing model
US9373093B2 (en) Gateway service manager for business object applications
Nobrega et al. LHCb computing technical design report
CN110019440A (zh) 数据的处理方法及装置
CN1588892A (zh) 存储服务器性能综合测试系统
CN110781430B (zh) 互联网新型虚拟数据中心系统及其构造方法
US20140149186A1 (en) Method and system of using artifacts to identify elements of a component business model
Luo et al. Design of data classification and classification management system for big data of hydropower enterprises based on data standards

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190830

RJ01 Rejection of invention patent application after publication