CN114896321A - 数据湖平台系统 - Google Patents

数据湖平台系统 Download PDF

Info

Publication number
CN114896321A
CN114896321A CN202210545005.7A CN202210545005A CN114896321A CN 114896321 A CN114896321 A CN 114896321A CN 202210545005 A CN202210545005 A CN 202210545005A CN 114896321 A CN114896321 A CN 114896321A
Authority
CN
China
Prior art keywords
data
module
data processing
platform system
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210545005.7A
Other languages
English (en)
Inventor
郭赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202210545005.7A priority Critical patent/CN114896321A/zh
Publication of CN114896321A publication Critical patent/CN114896321A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据湖平台系统,可用于金融领域,包括:基础模块,所述基础模块与大数据处理功能模块和列式数据库数据加工模块连接,所述基础模块用于接收用户发送的配置数据并进行数据预处理,将数据预处理结果推送至所述大数据处理功能模块和所述列式数据库数据加工模块;大数据处理功能模块,所述大数据处理功能模块用于对所述原始数据包进行数据标准化处理,并对经过数据标准化处理后的数据进行数据下沉转换;列式数据库数据加工模块,所述列式数据库数据加工模块用于接收队列中的ETL指令进行数据的抽取清洗和加载操作,并为所述数据的加载提供对外暴露的功能;本申请能够有效提升系统扩展性。

Description

数据湖平台系统
技术领域
本申请涉及数据处理领域,也可用于金融领域,具体涉及一种数据湖平台系统。
背景技术
现有技术中缺乏统一高效的数据湖平台,相关高复用开发态工具尚未形成,无数据文件ETL统一处理机制,整体架构缺乏分层设计,包括架构设计、功能组件规划等关键问题亟待实现。
发明内容
针对现有技术中的问题,本申请提供一种数据湖平台系统,能够有效提升系统扩展性。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种数据湖平台系统,包括:
基础模块,所述基础模块与大数据处理功能模块和列式数据库数据加工模块连接,所述基础模块用于接收用户发送的配置数据并进行数据预处理,将数据预处理结果推送至所述大数据处理功能模块和所述列式数据库数据加工模块;
大数据处理功能模块,所述大数据处理功能模块用于对外部系统发送的原始数据包进行数据标准化处理,并对经过数据标准化处理后的数据进行数据下沉转换;
列式数据库数据加工模块,所述列式数据库数据加工模块用于接收队列中的ETL指令以进行数据的抽取清洗和加载操作,并为所述数据的加载提供对外暴露的功能。
进一步地,所述基础模块包括开发工具单元,所述开发工具单元用于接收用户发送的配置数据,生成对应的配置文件并推送至所述大数据处理功能模块和所述列式数据库数据加工模块。
进一步地,所述基础模块还包括数据统一处理单元,所述数据统一处理单元用于接收外部系统发送的原始数据包并进行数据预处理,根据预设订阅发布机制向各所述外部系统同步数据。
进一步地,所述大数据处理功能模块包括贴源数据加工单元,所述贴源数据加工单元用于对所述原始数据包进行数据标准化处理。
进一步地,所述大数据处理功能模块还包括大数据应用加工单元,所述大数据应用加工单元与所述贴源数据加工单元连接,大数据应用加工单元用于对经过数据标准化处理后的数据进行数据下沉转换。
进一步地,所述大数据处理功能模块还包括批量调度单元,所述批量调度单元用于与所述贴源数据加工单元和所述大数据应用加工单元连接,所述批量调度单元用于为所述贴源数据加工单元和所述大数据应用加工单元提供流程调度支持。
进一步地,所述列式数据库数据加工模块包括ETL功能单元,所述ETL功能单元用于接收队列中的ETL指令并进行数据的抽取清洗和加载操作。
进一步地,所述列式数据库数据加工模块还包括数据对外暴露单元,所述数据对外暴露单元用于为所述数据加载提供对外暴露的功能。
第二方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的数据湖平台系统。
第三方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的数据湖平台系统。
第四方面,本申请提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现所述的数据湖平台系统。
由上述技术方案可知,本申请提供一种数据湖平台系统,通过设置大数据处理功能模块和列式数据库数据加工模块提升系统扩展性,实现快速横向扩展,有效应对数据量不断增加趋势。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的数据湖平台系统的结构示意图;
图2为本申请实施例中的基础模块的结构示意图;
图3为本申请实施例中的大数据处理功能模块的结构示意图;
图4为本申请实施例中的列式数据库数据加工模块的结构示意图;
图5为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
考虑到现有技术中缺乏统一高效的数据湖平台,相关高复用开发态工具尚未形成,无数据文件ETL统一处理机制,整体架构缺乏分层设计,包括架构设计、功能组件规划等关键问题亟待实现的问题,本申请提供一种数据湖平台系统,通过设置大数据处理功能模块和列式数据库数据加工模块提升系统扩展性,实现快速横向扩展,有效应对数据量不断增加趋势。
为了能够有效提升系统扩展性,本申请提供一种数据湖平台系统的实施例,参见图1,所述数据湖平台系统具体包含有如下内容:
基础模块10,所述基础模块10与大数据处理功能模块20和列式数据库数据加工模块30连接,所述基础模块10用于接收用户发送的配置数据并进行数据预处理,将数据预处理结果推送至所述大数据处理功能模块20和所述列式数据库数据加工模块30。
大数据处理功能模块20,所述大数据处理功能模块20用于对外部系统发送的原始数据包进行数据标准化处理,并对经过数据标准化处理后的数据进行数据下沉转换。
列式数据库数据加工模块30,所述列式数据库数据加工模块30用于接收队列中的ETL指令以进行数据的抽取清洗和加载操作,并为所述数据的加载提供对外暴露的功能。
从上述描述可知,本申请实施例提供的数据湖平台系统,能够通过设置大数据处理功能模块20和列式数据库数据加工模块30提升系统扩展性,实现快速横向扩展,有效应对数据量不断增加趋势。
在本申请的数据湖平台系统的一实施例中,参见图2,所述基础模块10包括开发工具单元11,所述开发工具单元11用于接收用户发送的配置数据,生成对应的配置文件并推送至所述大数据处理功能模块20和所述列式数据库数据加工模块30。
可选的,本申请所述开发工具单元11可以包含基于Web代码协同编辑、系统参数配置、元数据转换、算法模版等功能。
举例说明:如机构管理系统入库机构相关数据,则开发人员通过配置页面,首先将机构树等元数据录入开发系统,开发系统将与数据字典中有关机构数据进行比对转换,形成对应的数据抽取原始模型,同时生成相关DDL/DML模版,同时支持开发人员配置针对特定机构下的数据,进行ETL数据规则预设与算法模版预设等等。开发工具生成的相关配置文件,将以推送的方式发送给TBDS模块与Gbase模块进行加载,配合完成后续数据的加载、处理与备份。
由于该部分主要为协同配置功能,可基于传统Web java技术栈进行实现,使用SpringBoot快速完成页面与服务开发,同时结合CMQ插件完成配置结果文件的推送,供TBDS与Gbase使用。
所述基础模块10还包括数据统一处理单元12,所述数据统一处理单元12用于接收外部系统发送的原始数据包并进行数据预处理,根据预设订阅发布机制向各所述外部系统同步数据。
可选的,本申请所述数据统一处理单元12包括接收与发送的处理及预处理、数据传输等公共机制,具体的:
1、接收后处理,接收各系统发送来的原始数据包,依照相关数据协议进行解包、转码等操作。
2、发送前预处理,当涉及数据湖对外输出数据时,需将湖中数据实现数据转码,加密,压缩打包。
3、数据传输,采用订阅发布机制,针对各使用方在湖中配置的订阅规则进行同步,实时数据传输,异常处理等。
4、数据存储,需实现多介质存储,多格式存储,数据备份,该部分如考虑到高速读取存储,可考虑基于MPP进行建设。
可选的,该部分使用JAVA jar的方式进行开发提供服务,并集成在数据湖基础模块10中提供服务,基于切面处理设计,在数据发送前、接收后、传输中等关键步骤进行拦截,完成注入式处理。
在本申请的数据湖平台系统的一实施例中,参见图3,所述大数据处理功能模块20包括贴源数据加工单元21,所述贴源数据加工单元21用于对所述原始数据包进行数据标准化处理。
可选的,本申请所述贴源数据加工单元21对于采集来的原始数据,首先进行JSON与XML的结构化对应转换,其次依据预设的数据取值,完成不合格数据的清理工作;依据数据字典中的数据格式要求,完成数据标准化,并按照技术实现上数据库容量与性能设计,完成数据拉链与切片。
所述大数据处理功能模块20还包括大数据应用加工单元22,所述大数据应用加工单元22与所述贴源数据加工单元21连接,大数据应用加工单元22用于对经过数据标准化处理后的数据进行数据下沉转换。
可选的,本申请所述大数据应用加工单元22首先针对完成初步加工的贴源数据进行数据质量检核,针对冗余数据与无效数据完成再次清洗与剔除,针对上层Gbase中预设的ETL请求与规则配置,将具备即时查询需求的数据进行抽取与暂存,提供满足时效性的数据支撑;将完成具备业务背景的应用加工的数据(如借记卡客户数据、存款产品合约数据等)进行格式转换,并持续化至下层数据存储中的MPP数据库中,最后完成历史数据的归档与清洗。
所述大数据处理功能模块20还包括批量调度单元23,所述批量调度单元23用于与所述贴源数据加工单元21和所述大数据应用加工单元22连接,所述批量调度单元23用于为所述贴源数据加工单元21和所述大数据应用加工单元22提供流程调度支持。
可选的,本申请所述批量调度单元23主要负责将驱动底层Worker节点,执行对应Task工作,该部分对上层Gbase的ETL工作提供基础支撑,主要包括对贴源数据加工的流程调度支持、大数据应用加工批量调度、ETL指令响应等关键功能。
在本申请的数据湖平台系统的一实施例中,参见图4,所述列式数据库数据加工模块30包括ETL功能单元31,所述ETL功能单元31用于接收队列中的ETL指令并进行数据的抽取清洗和加载操作。
可选的,本申请所述ETL功能单元31主要包括:执行引擎、生成引擎、响应数据请求生成ETL语句等。
其中ETL执行引擎可考虑基于开源kettl进行建设,例如,通过ETL引擎加载队列中的ETL指令,完成数据的抽取清洗与加载,其中生成引擎,基于开发工具中预设的SQL模版,将配置的SQL规则直接转换成ETL语句;同时支持使用在客户端主动触发指令时,自动生成对应ETL语句,并放入队列中供执行引擎消费。在ETL关键数据项中预留日期等关键字,支持日期切换,同时向上支撑批量节点运行状态管理机制的按日期统计、按日期进行任务重做等功能。
所述列式数据库数据加工模块30还包括数据对外暴露单元32,所述数据对外暴露单元32用于为所述数据加载提供对外暴露的功能。
可选的,本申请所述数据对外暴露单元32主要包括将数据湖中数据加载并对外暴露的功能,如分布式数据查询路由、分布式数据查询聚合等,同时也提供了APi供运维人员使用,如批量加工节点的状态管理、节点起停等功能。该部分基于BI工具配合MPP数据库干数据,进行查询报表展现与报表格式定制等功能实现。
有上述内容可知,本申请构建了基于GBase+TBDS混合架构的数据湖平台系统,遵照OLTP系统数据逻辑模型、按照3NF、相关/相近共性数据整合、按照数据加工链路合理规划数据层次等原则设计组织级数据湖平台逻辑模型,包括了基础层、GBase加工层、TBDS加工层;根据不同模板以及映射关系,开发代码生成引擎,自动生成常见ETL脚本及其调度关系,解决现存的数据质量问题,统一设计ETL管理及调度,使用调度引擎配置数据湖中ETL程序流程,并根据程序运行规则生成执行计划,支持分实例调度每日批量,建立日期切换以及批量节点运行状态管理机制,支持跨工作流引擎查询批量运行状态;通过统一管理元数据,数据湖逻辑模型与物理,提高整体数据整合度与复用性,大大减少数据重复与使用混乱问题。
从硬件层面来说,为了能够有效提升系统扩展性,本申请提供一种用于实现所述数据湖平台系统中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现数据湖平台系统与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的数据湖平台系统的实施例,以及数据湖平台系统的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,数据湖平台系统的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图5为本申请实施例的电子设备9600的系统构成的示意框图。如图5所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图5是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,数据湖平台系统功能可以被集成到中央处理器9100中。
从上述描述可知,本申请实施例提供的电子设备,通过设置大数据处理功能模块和列式数据库数据加工模块提升系统扩展性,实现快速横向扩展,有效应对数据量不断增加趋势。
在另一个实施方式中,数据湖平台系统可以与中央处理器9100分开配置,例如可以将数据湖平台系统配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现数据湖平台系统功能。
如图5所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图5中所示的所有部件;此外,电子设备9600还可以包括图5中没有示出的部件,可以参考现有技术。
如图5所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的数据湖平台系统中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的数据湖平台系统。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过设置大数据处理功能模块和列式数据库数据加工模块提升系统扩展性,实现快速横向扩展,有效应对数据量不断增加趋势。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的数据湖平台系统中全部步骤的一种计算机程序产品,该计算机程序/指令被处理器执行时实现所述的数据湖平台系统。
从上述描述可知,本申请实施例提供的计算机程序产品,通过设置大数据处理功能模块和列式数据库数据加工模块提升系统扩展性,实现快速横向扩展,有效应对数据量不断增加趋势。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种数据湖平台系统,其特征在于,包括:
基础模块,所述基础模块与大数据处理功能模块和列式数据库数据加工模块连接,所述基础模块用于接收用户发送的配置数据并进行数据预处理,将数据预处理结果推送至所述大数据处理功能模块和所述列式数据库数据加工模块;
大数据处理功能模块,所述大数据处理功能模块用于对外部系统发送的原始数据包进行数据标准化处理,并对经过数据标准化处理后的数据进行数据下沉转换;
列式数据库数据加工模块,所述列式数据库数据加工模块用于接收队列中的ETL指令以进行数据的抽取清洗和加载操作,并为所述数据的加载提供对外暴露的功能。
2.根据权利要求1所述的数据湖平台系统,其特征在于,所述基础模块包括开发工具单元,所述开发工具单元用于接收用户发送的配置数据,生成对应的配置文件并推送至所述大数据处理功能模块和所述列式数据库数据加工模块。
3.根据权利要求2所述的数据湖平台系统,其特征在于,所述基础模块还包括数据统一处理单元,所述数据统一处理单元用于接收外部系统发送的原始数据包并进行数据预处理,根据预设订阅发布机制向各所述外部系统同步数据。
4.根据权利要求1所述的数据湖平台系统,其特征在于,所述大数据处理功能模块包括贴源数据加工单元,所述贴源数据加工单元用于对所述原始数据包进行数据标准化处理。
5.根据权利要求4所述的数据湖平台系统,其特征在于,所述大数据处理功能模块还包括大数据应用加工单元,所述大数据应用加工单元与所述贴源数据加工单元连接,大数据应用加工单元用于对经过数据标准化处理后的数据进行数据下沉转换。
6.根据权利要求5所述的数据湖平台系统,其特征在于,所述大数据处理功能模块还包括批量调度单元,所述批量调度单元用于与所述贴源数据加工单元和所述大数据应用加工单元连接,所述批量调度单元用于为所述贴源数据加工单元和所述大数据应用加工单元提供流程调度支持。
7.根据权利要求1所述的数据湖平台系统,其特征在于,所述列式数据库数据加工模块包括ETL功能单元,所述ETL功能单元用于接收队列中的ETL指令并进行数据的抽取清洗和加载操作。
8.根据权利要求1所述的数据湖平台系统,其特征在于,所述列式数据库数据加工模块还包括数据对外暴露单元,所述数据对外暴露单元用于为所述数据加载提供对外暴露的功能。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述的数据湖平台系统。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的数据湖平台系统。
11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至8任一项所述的数据湖平台系统。
CN202210545005.7A 2022-05-19 2022-05-19 数据湖平台系统 Pending CN114896321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210545005.7A CN114896321A (zh) 2022-05-19 2022-05-19 数据湖平台系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210545005.7A CN114896321A (zh) 2022-05-19 2022-05-19 数据湖平台系统

Publications (1)

Publication Number Publication Date
CN114896321A true CN114896321A (zh) 2022-08-12

Family

ID=82724653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210545005.7A Pending CN114896321A (zh) 2022-05-19 2022-05-19 数据湖平台系统

Country Status (1)

Country Link
CN (1) CN114896321A (zh)

Similar Documents

Publication Publication Date Title
US10831562B2 (en) Method and system for operating a data center by reducing an amount of data to be processed
CN109857755B (zh) 一种规则校验方法及装置
CN103688250B (zh) 使用动态方案来优化数据处理
US8612406B1 (en) Sharing business data across networked applications
CN110334070A (zh) 数据处理方法、系统、设备及存储介质
CN108536778A (zh) 一种数据应用共享平台及方法
CN110990482A (zh) 异步数据库之间的数据同步方法及装置
CN113467972B (zh) 通信接口构造方法、装置以及计算机设备、存储介质
CN102567378A (zh) 基于异构数据的信息检索系统
CN113392158A (zh) 业务数据处理方法、装置及数据中台
AU2017254506A1 (en) Method, apparatus, computing device and storage medium for data analyzing and processing
CN114722119A (zh) 数据同步方法及系统
CN110765165A (zh) 一种跨系统数据同步处理的方法、装置及系统
CN102567334A (zh) 基于异构数据的办公自动化系统
CN114820080A (zh) 基于人群流转的用户分群方法、系统、装置及介质
CN115033646A (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN111897890A (zh) 金融业务处理方法及装置
CN110286883B (zh) 智能数据库编码监控方法、装置及电子设备
US9632837B2 (en) Systems and methods for system consolidation
CN111143461B (zh) 映射关系处理系统、方法和电子设备
CN111045928B (zh) 一种接口数据测试方法、装置、终端及存储介质
CN113051303A (zh) 业务数据处理方法、装置、电子设备以及存储介质
CN114896321A (zh) 数据湖平台系统
CN111930690A (zh) 文件生成方法及装置
CN113837870A (zh) 金融风险数据审批方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination