CN116186131A - 一种结合Dubbo服务的ETL数据处理系统及方法 - Google Patents

一种结合Dubbo服务的ETL数据处理系统及方法 Download PDF

Info

Publication number
CN116186131A
CN116186131A CN202211682260.2A CN202211682260A CN116186131A CN 116186131 A CN116186131 A CN 116186131A CN 202211682260 A CN202211682260 A CN 202211682260A CN 116186131 A CN116186131 A CN 116186131A
Authority
CN
China
Prior art keywords
data
module
service
etl
dubbo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211682260.2A
Other languages
English (en)
Inventor
张亮
李显锋
熊纯
张雄彪
张永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Dream Database Co ltd
Original Assignee
Wuhan Dream Database Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Dream Database Co ltd filed Critical Wuhan Dream Database Co ltd
Priority to CN202211682260.2A priority Critical patent/CN116186131A/zh
Publication of CN116186131A publication Critical patent/CN116186131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种结合Dubbo服务的ETL数据处理系统及方法,其系统包括ETL数据抽取模块、第一ETL数据清洗转换模块、Dubbo服务模块、第二ETL数据清洗转换模块以及数据加载模块;所述ETL数据抽取模块用于对数据进行数据抽取;所述第一ETL数据清洗转换模块用于对抽取的数据进行数据清洗转换处理;所述Dubbo服务模块用于根据业务需求调用对应Dubbo服务对象,对数据进行处理,并将处理后的数据存储在目标数据库中或者根据业务需求将数据输入到第二ETL数据清洗转换模块;所述第二ETL数据清洗转换模块用于对数据进行数据清洗转处理;所述数据加载模块用于处理后的数据加载到目标数据库中;本发明通过Dubbo服务模块调用合适的服务对象对数据进行处理,增强了对复杂数据的处理能力。

Description

一种结合Dubbo服务的ETL数据处理系统及方法
技术领域
本发明涉及大数据技术领域,尤其涉及一种结合Dubbo服务的ETL数据处理系统及方法。
背景技术
随着互联网技术快速发展,目前的业务线越来越复杂,各个业务系统独立运营,针对不同业务源头产生的异构数据源数据统一进行抽取、转换、最终存储的需求日益增多从而衍生出了ETL工具的诞生。
目前,市面上大多ETL工具虽然在数据处理源头上入口多、但对数据处理的方式比较"单一",针对复杂数据的能力处理不足,可扩展性差,不能灵活满足复杂业务需求的问题尤为突出,尤其涉及数据来源众多,数据差异大无法准确定位真实数据的情况。
因此急需提供一种结合Dubbo服务的ETL数据处理系统及方法用于解决现有技术中ETL工具对数据的处理方式比较“单一”,针对复杂的数据处理能力不足,ETL工具可扩展性差,不能灵活地满足复杂的业务需求的问题。
发明内容
有鉴于此,有必要提供一种结合Dubbo服务的ETL数据处理系统及方法,用以解决现有技术中ETL工具对数据的处理方式比较“单一”,针对复杂的数据处理能力不足,ETL工具可扩展性差,不能灵活地满足复杂的业务需求的问题。
一方面,本发明提供了一种结合Dubbo服务的ETL数据处理系统,包括:
ETL数据抽取模块、第一ETL数据清洗转换模块、Dubbo服务模块、第二ETL数据清洗转换模块以及数据加载模块;
所述ETL数据抽取模块用于根据业务需求设置抽取配置信息,根据抽取配置信息对业务系统中的数据进行数据抽取得到待处理数据;
所述第一ETL数据清洗转换模块用于对待处理数据进行数据清洗转换处理得到第一目标数据;
所述Dubbo服务模块用于根据业务需求调用对应Dubbo服务对象,对待处理数据以及第一目标数据进行处理得到第二目标数据,并将第二目标数据存储在目标数据库中或者根据业务需求将第二目标数据输入到第二ETL数据清洗转换模块进行处理;
所述第二ETL数据清洗转换模块用于第二目标数据进行数据清洗转换处理得到第三目标数据;
所述数据加载模块用于将第一目标数据、第二目标数据集以及第三目标数据加载到目标数据库中。
在一些有可能实现的方式中,所述ETL数据抽取模块还包括同源数据提取模块、异源数据提取模块以及文件类型数据源提取模块;
所述同源数据提取模块用于通过建立在数据仓库和业务系统的链接关系,对业务系统中与数据仓库相同数据源的数据进行数据提取;
所述异源数据提取模块用于通过以连接数据源的方式建立的数据仓库与业务系统的链接关系,对业务系统中与数据仓库不同数据源的数据进行数据提取;
所述文件类型数据源提取模块用于提取存储在文本数据库中的数据。
在一些有可能实现的方式中,还包括:Dubbo服务参数配置模块;
所述Dubbo服务参数配置模块用于配置调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数。
在一些有可能实现的方式中,所述Dubbo服务模块,包括:配置信息调用模块、服务参数校验模块以及Dubbo服务代理对象调用模块;
所述配置信息调用模块用于调用Dubbo服务参数配置模块配置的Dubbo服务代理对象的服务参数以及处理完数据后输出参数;
所述服务参数校验模块用于根据预设的服务参数信息校验规则,判断配置的调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数是否有效;
所述Dubbo代理对象调用模块用于根据所述Dubbo服务代理对象的服务参数以及处理完数据后输出参数调用相匹配的Dubbo服务代理对象处理需要Dubbo服务代理对象的数据。
在一些有可能实现的方式中,所述Dubbo服务模块包括:数据返回模块;
所述数据返回模块用于当配置的调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数均有效时,将服务参数信息校验规则的参数返回第二ETL数据清洗转换模块;
当配置的调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数无效时,根据设定的自定义参数确定是执行终止异常流程输出返回终止异常信息或返回跳过错误参数继续执行任务信息,将信息返回第二ETL数据清洗转换模块。
在一些有可能实现的方式中,所述Dubbo服务模块包括:数据继承模块;
所述数据继承模块用于获取第一目标数据以及待处理数据。
在一些有可能实现的方式中,所述第一ETL数据清洗转换模块包括第一数据清洗模块以及第一数据转换模块;
所述第一数据清洗模块用于根据设定的参数清洗规则清洗待处理数据中不符合的数据进行过滤;所述第一数据转换模块用于根据设定的参数转换规则将过滤后的待处理数据进行转换得到第一目标数据。
在一些有可能实现的方式中,所述第二ETL数据清洗转换模块,包括第二数据清洗模块以及第二数据转换模块;
所述第二数据清洗模块用于根据设定的数据清洗规则将第二目标数据中不符合的数据进行过滤;
所述第二数据转换模块用于根据设定的数据转换规则将过滤后的第二目标数据进行转换得到第三目标数据。
在一些有可能实现的方式中,所述结合Dubbo服务的ETL数据处理系统,还包括:Dubbo服务对象构建模块;
所述Dubbo服务对象构建模块用于根据配置的Dubbo服务相关参数,构建Dubbo服务对象。
另一方面,本发明还提供一种基于结合Dubbo服务的ETL数据处理方法,包括:
根据业务需求设置抽取配置信息,根据抽取配置信息对业务系统中的数据进行数据抽取得到待处理数据;
对待处理数据进行数据清洗转换处理得到第一目标数据;
根据业务需求调用对应Dubbo服务对象,对待处理数据以及第一目标数据进行处理得到第二目标数据,并将第二目标数据存储在目标数据库中或者根据业务需求将第二目标数据输入到第二ETL数据清洗转换模块进行处理;
对第二目标数据进行数据清洗转换处理得到第三目标数据;
将第一目标数据、第二目标数据集以及第三目标数据加载到目标数据库中。
采用上述实施例的有益效果是:与现有技术相比,本发明实施例提供的结合Dubbo服务的ETL数据处理系统,通过设置的ETL数据抽取模块、第一ETL数据清洗转换模块、Dubbo服务模块、第二ETL数据清洗转换模块以及数据加载模块实现ETL对复杂数据的处理,可以通过Dubbo服务模块接入ETL工具根据业务需求调用合适的代理对象对数据进行处理,提高了ETL对复杂数据的处理能力,扩展了ETL对动态数据的数据处理能力。
附图说明
图1为本发明提供的结合Dubbo服务的ETL数据处理系统的一个实施例系统结构示意图;
图2为本发明提供的ETL数据抽取模块一个实施例的结构示意图;
图3为本发明提供的一种结合Dubbo服务的ETL数据处理系统的另一个实施例系统结构意图;
图4为本发明提供的Dubbo服务模块一个实施例的结构示意图;
图5为本发明提供的Dubbo服务模块另一个实施例的结构示意图;
图6为本发明提供的所述第一ETL数据清洗转换模块一个实施例的结构示意图;
图7为本发明提供的所述第二数据清洗转化模块的一个实施例的结构示意图;
图8为本发明提供的结合Dubbo服务的ETL数据处理系统的另一个实施例系统结构示意图;
图9为本发明提供的基于结合Dubbo服务的ETL数据处理方法的一个实施例流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
本发明实施例提供了一种结合Dubbo服务的ETL数据处理系统以下分别进行说明。
图1为本发明提供的结合Dubbo服务的ETL数据处理系统的一个实施例系统结构示意图,如图1所述,结合Dubbo服务的ETL数据处理系统10包括:ETL数据抽取模块100、第一ETL数据清洗转换模块200、Dubbo服务模块300、第二ETL数据清洗转换模块400以及数据加载模块500;
所述ETL数据抽取模块100用于根据业务需求设置抽取配置信息,根据抽取配置信息对业务系统中的数据进行数据抽取得到待处理数据;
所述第一ETL数据清洗转换模块200用于对待处理数据进行数据清洗转换处理得到第一目标数据;
所述Dubbo服务模块300用于根据业务需求调用对应Dubbo服务对象,对待处理数据以及第一目标数据进行处理得到第二目标数据,并将第二目标数据存储在目标数据库中或者根据业务需求将第二目标数据输入到第二ETL数据清洗转换模块进行处理;
所述第二ETL数据清洗转换模块400用于第二目标数据进行数据清洗转换处理得到第三目标数据;
所述数据加载模块500用于将第一目标数据、第二目标数据集以及第三目标数据加载到目标数据库中。
与现有技术相比,本发明实施例提供的结合Dubbo服务的ETL数据处理系统10,通过设置的TL数据抽取模块100、第一ETL数据清洗转换模块200、Dubbo服务模块300、第二ETL数据清洗转换模块400以及数据加载模块500实现ETL对复杂数据的处理,可以通过Dubbo服务模块300接入ETL根据业务需求调用合适的代理对象对数据进行处理,提高了ETL对复杂数据的处理能力,扩展了ETL对动态数据的数据处理能力。
在本发明的具体实施例中,所述Dubbo服务模块300根据业务需求调用对应Dubbo服务对象,对ETL数据抽取模块100抽取的业务系统中需要Dubbo服务处理的数据进行处理,或者对第一ETL数据处理模块200处理后的数据通过Dubbo服务再次处理,同时还可以根据业务需求将Dubbo服务处理后的数据输入到第二ETL数据清洗转换模块400再次进行数据清洗转换处理;并将处理后的数据存储在目标数据库中。
需要说明的是,ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
进一步需要说明的是,Dubbo是一个服务框架,使应用可通过高性能的RPC(RemoteProcedure Call)实现服务的输出和输入功能。
需要说明的是,所述第一ETL数据清洗转换模块200和第二ETL数据清洗转换模块400是两个功能一样的模块。
在本发明的一些实施例中,如图2所示,图2为本发明提供的ETL数据抽取模块一个实施例的结构示意图,所述ETL数据抽取模块100还包括同源数据提取模块201、异源数据提取模块202以及文件类型数据源提取模块203;
所述同源数据提取模块201用于通过建立在数据仓库和业务系统的链接关系,对业务系统中与数据仓库相同数据源的数据进行数据提取;
所述异源数据提取模块202用于通过以连接数据源的方式建立的数据仓库与业务系统的链接关系,对业务系统中与数据仓库不同数据源的数据进行数据提取;
所述文件类型数据源提取模块203用于提取存储在文本数据库中的数据。
在具体的实施例中,同源数据提取模块201,通过建立在数据仓库和业务系统的链接关系,通过Select语句直接访问来进行数据抽取;
异源数据提取模块202通过ODBC的方式建立数据仓库与业务系统的链接关系,来抽取业务系统中不同源数据。
需要说明的是,所述数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。
进一步需要说明的是,ODBC为开放数据库连接(Open Database Connectivity,ODBC)是用于解决异构数据库间的数据共享问题。
在本发明的一下实施例中,如图3所示,图3为本发明提供的一种结合Dubbo服务的ETL数据处理系统的另一个实施例系统结构意图,所述结合Dubbo服务的ETL数据处理系统,还包括:Dubbo服务参数配置模块600;
所述Dubbo服务参数配置模块600用于配置调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数。
在一些有可能实现的方式中,如图4所示,图4为本发明提供的Dubbo服务模块一个实施例的结构示意图,所述Dubbo服务模块300,包括:配置信息调用模块301、服务参数校验模块302以及Dubbo服务代理对象调用模块303;
所述配置信息调用模块301用于调用Dubbo服务参数配置模块配置的Dubbo服务代理对象的服务参数以及处理完数据后输出参数;
所述服务参数校验模块302用于根据预设的服务参数信息校验规则,判断配置的调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数是否有效;
所述Dubbo代理对象调用模块303用于根据所述Dubbo服务代理对象的服务参数以及处理完数据后输出参数调用相匹配的Dubbo服务代理对象处理需要Dubbo服务代理对象的数据;
所述数据存储模块304用于将Dubbo服务代理对象处理后的数据存储在数据库中。
在具体的实施例中,所述配置信息调用模块301通过继承数据处理器的方式接入ETL的API端口,获取在Dubbo服务参数配置模块600中配置的Dubbo服务代理对象的服务参数以及处理完数据后输出参数。
所述服务参数校验模块302,通过预设的参数校验规则对所述配置的Dubbo服务代理对象的服务参数以及处理完数据后输出参数进行校验,判断所述参数是否有效,当参数有效时继续执行,无效时输出无效信息给所述数据返回模块;
所述Dubbo代理对象调用模块303通过获取的Dubbo服务代理对象的服务参数,在Zookeeper注册中心地址去调用对应的Dubbo服务代理对象,从而实现根据不同参数调用不同Dubbo服务代理对象,获取不同的数据处理能力。
需要说明的是,在Dubbo代理对象调用模块303获取了Dubbo服务代理对象的服务参数后,通过Jave反射的方式来进行Dubbo服务代理对象的调用。
进一步,需要说明的是,Reflection(反射)是Java程序开发语言的特征之一,它允许运行中的Java程序对自身进行检查。被private封装的资源只能类内部访问,外部是不行的,但反射能直接操作类私有属性。反射可以在运行时获取一个类的所有信息,(包括成员变量,成员方法,构造器等),并且可以操纵类的字段、方法、构造器等部分。
进一步,需要说明的是,Zookeeper是一个高可用、高性能的分布式协调服务,可用于服务发现、分布式锁、分布式领导选举、配置管理等。
在一些有可能实现的方式中,如图5所示,图5为本发明提供的Dubbo服务模块另一个实施例的结构示意图,所述Dubbo服务模块300还包括:数据返回模块305;
所述数据返回模块305用于当配置的调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数均有效时,将服务参数信息校验规则的参数返回第二ETL数据清洗转换模块400;
当配置的调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数无效时,根据设定的自定义参数确定是执行终止异常流程输出返回终止异常信息或返回跳过错误参数继续执行任务信息,将信息返回第二ETL数据清洗转换模块400。
在一些有可能实现的方式中,如图5所示,图5为本发明提供的Dubbo服务模块另一个实施例的结构示意图,所述Dubbo服务模块300,还包括:数据继承模块306;
所述数据继承模块306用于获取第一目标数据以及待处理数据。
在具体的实施例中,所述数据继承模块通过继承数据器来从ETL数据抽取模块中获取需要的Dubbo服务的处理的数据。
在一些有可能实现的方式中,如图6所示,图6为本发明提供的所述第一ETL数据清洗转换模块一个实施例的结构示意图,所述第一ETL数据清洗转换模块200,包括第一数据清洗模块201以及第一数据转换模块202;
所述第一数据清洗模块201用于根据设定的参数清洗规则对待处理数据中不符合的数据进行过滤;
所述第一数据转换模块202用于根据设定的参数转换规则将过滤后的待处理数据进行转换得到第一目标数据。
在具体的实施例中,所述第一数据清洗转化模块根据设定的参数清洗规则对数据进行清洗;
需要说明的是,清洗的数据包括:
(1)数据不完整的数据:这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。
(2)错误的数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。
(3)重复的数据:对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。
在一些有可能实现的方式中,如图7所示,图7为本发明提供的所述第二数据清洗转换模块的一个实施例的结构示意图,所述第二ETL数据清洗转换模块400,包括第二数据清洗模块401以及第二数据转换模块402;
所述第二数据清洗模块401用于根据设定的数据清洗规则将第二目标数据中不符合的数据进行过滤;
所述第二数据转换模块402用于根据设定的数据转换规则将过滤后的第二目标数据进行转换得到第三目标数据。
在一些有可能实现的方式中,如图8所示,图8为本发明提供的本发明提供的结合Dubbo服务的ETL数据处理系统的另一个实施例系统结构示意图,结合Dubbo服务的ETL数据处理系统10,还包括:Dubbo服务对象构建模块600;
所述Dubbo服务对象构建模块600用于根据配置的Dubbo服务相关参数,构建Dubbo服务对象。
在具体的实施例中,通过数据继承器获取配置的Dubbo服务相关参数,构建Dubbo服务对象,注册在Zookeeper注册中心。
另一方面本,在结合Dubbo服务的ETL数据处理系统的基础上,本发明还提供一种基于结合Dubbo服务的ETL数据处理方法,如图9所示,图9为本发明提供的基于结合Dubbo服务的ETL数据处理方法的一个实施例流程图,所述一种基于结合Dubbo服务的ETL数据处理方法,包括:
S901、根据业务需求设置抽取配置信息,根据抽取配置信息对业务系统中的数据进行数据抽取得到待处理数据;
S902、对待处理数据进行数据清洗转换处理得到第一目标数据;
S903、根据业务需求调用对应Dubbo服务对象,对待处理数据以及第一目标数据进行处理得到第二目标数据,并将第二目标数据存储在目标数据库中或者根据业务需求将第二目标数据输入到第二ETL数据清洗转换模块进行处理;
S904、对第二目标数据进行数据清洗转换处理得到第三目标数据;
S905、将第一目标数据、第二目标数据集以及第三目标数据加载到目标数据库中。
需要说明的是:上述实施例中的方法中的步骤可根据结合Dubbo服务的ETL数据处理系统中的各个模块或单元进行增加或扩展,具体详见结合Dubbo服务的ETL数据处理系统实施例中的描述,在此不做赘述。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件(如处理器,控制器等)来完成,计算机程序可存储于计算机可读存储介质中。其中,计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上对本发明所提供的结合Dubbo服务的ETL数据处理系统及方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种结合Dubbo服务的ETL数据处理系统,其特征在于,包括:
ETL数据抽取模块、第一ETL数据清洗转换模块、Dubbo服务模块、第二ETL数据清洗转换模块以及数据加载模块;
所述ETL数据抽取模块用于根据业务需求设置抽取配置信息,根据抽取配置信息对业务系统中的数据进行数据抽取得到待处理数据;
所述第一ETL数据清洗转换模块用于对待处理数据进行数据清洗转换处理得到第一目标数据;
所述Dubbo服务模块用于根据业务需求调用对应Dubbo服务对象,对待处理数据以及第一目标数据进行处理得到第二目标数据,并将第二目标数据存储在目标数据库中或者根据业务需求将第二目标数据输入到第二ETL数据清洗转换模块进行处理;
所述第二ETL数据清洗转换模块用于第二目标数据进行数据清洗转换处理得到第三目标数据;
所述数据加载模块用于将第一目标数据、第二目标数据集以及第三目标数据加载到目标数据库中。
2.根据权利要求1所述的一种结合Dubbo服务的ETL数据处理系统,其特征在于,所述ETL数据抽取模块还包括同源数据提取模块、异源数据提取模块以及文件类型数据源提取模块;
所述同源数据提取模块用于通过建立在数据仓库和业务系统的链接关系,对业务系统中与数据仓库相同数据源的数据进行数据提取;
所述异源数据提取模块用于通过以连接数据源的方式建立的数据仓库与业务系统的链接关系,对业务系统中与数据仓库不同数据源的数据进行数据提取;
所述文件类型数据源提取模块用于提取存储在文本数据库中的数据。
3.根据权利要求1所述的一种结合Dubbo服务的ETL数据处理系统,其特征在于,还包括:Dubbo服务参数配置模块;
所述Dubbo服务参数配置模块用于配置调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数。
4.根据权利要求1所述的一种结合Dubbo服务的ETL数据处理系统,其特征在于,所述Dubbo服务模块,包括:配置信息调用模块、服务参数校验模块以及Dubbo服务代理对象调用模块;
所述配置信息调用模块用于调用Dubbo服务参数配置模块配置的Dubbo服务代理对象的服务参数以及处理完数据后输出参数;
所述服务参数校验模块用于根据预设的服务参数信息校验规则,判断配置的调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数是否有效;
所述Dubbo代理对象调用模块用于根据所述Dubbo服务代理对象的服务参数以及处理完数据后输出参数调用相匹配的Dubbo服务代理对象处理需要Dubbo服务代理对象的数据。
5.根据权利要求4所述的一种结合Dubbo服务的ETL数据处理系统,其特征在于,所述Dubbo服务模块包括:数据返回模块;
所述数据返回模块用于当配置的调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数均有效时,将服务参数信息校验规则的参数返回第二ETL数据清洗转换模块;
当配置的调用Dubbo服务代理对象的服务参数以及处理完数据后输出参数无效时,根据设定的自定义参数确定是执行终止异常流程输出返回终止异常信息或返回跳过错误参数继续执行任务信息,将信息返回第二ETL数据清洗转换模块。
6.根据权利要求4所述的一种结合Dubbo服务的ETL数据处理系统,其特征在于,所述Dubbo服务模块包括:数据继承模块;
所述数据继承模块用于获取第一目标数据以及待处理数据。
7.根据权利要求1所述的一种结合Dubbo服务的ETL数据处理系统,其特征在于,所述第一ETL数据清洗转换模块包括第一数据清洗模块以及第一数据转换模块;
所述第一数据清洗模块用于根据设定的参数清洗规则清洗待处理数据中不符合的数据进行过滤;
所述第一数据转换模块用于根据设定的参数转换规则将过滤后的待处理数据进行转换得到第一目标数据。
8.根据权利要求1所述的一种结合Dubbo服务的ETL数据处理系统,其特征在于,所述第二ETL数据清洗转换模块,包括第二数据清洗模块以及第二数据转换模块;
所述第二数据清洗模块用于根据设定的数据清洗规则将第二目标数据中不符合的数据进行过滤;
所述第二数据转换模块用于根据设定的数据转换规则将过滤后的第二目标数据进行转换得到第三目标数据。
9.根据权利要求1所述的一种结合Dubbo服务的ETL数据处理系统,其特征在于,所述结合Dubbo服务的ETL数据处理系统,还包括:Dubbo服务对象构建模块;
所述Dubbo服务对象构建模块用于根据配置的Dubbo服务相关参数,构建Dubbo服务对象。
10.一种基于结合Dubbo服务的ETL数据处理方法,包括:
根据业务需求设置抽取配置信息,根据抽取配置信息对业务系统中的数据进行数据抽取得到待处理数据;
对待处理数据进行数据清洗转换处理得到第一目标数据;
根据业务需求调用对应Dubbo服务对象,对待处理数据以及第一目标数据进行处理得到第二目标数据,并将第二目标数据存储在目标数据库中或者根据业务需求将第二目标数据输入到第二ETL数据清洗转换模块进行处理;
对第二目标数据进行数据清洗转换处理得到第三目标数据;
将第一目标数据、第二目标数据集以及第三目标数据加载到目标数据库中。
CN202211682260.2A 2022-12-26 2022-12-26 一种结合Dubbo服务的ETL数据处理系统及方法 Pending CN116186131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211682260.2A CN116186131A (zh) 2022-12-26 2022-12-26 一种结合Dubbo服务的ETL数据处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211682260.2A CN116186131A (zh) 2022-12-26 2022-12-26 一种结合Dubbo服务的ETL数据处理系统及方法

Publications (1)

Publication Number Publication Date
CN116186131A true CN116186131A (zh) 2023-05-30

Family

ID=86431863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211682260.2A Pending CN116186131A (zh) 2022-12-26 2022-12-26 一种结合Dubbo服务的ETL数据处理系统及方法

Country Status (1)

Country Link
CN (1) CN116186131A (zh)

Similar Documents

Publication Publication Date Title
US10169034B2 (en) Verification of backward compatibility of software components
US9043757B2 (en) Identifying differences between source codes of different versions of a software when each source code is organized using incorporated files
CN113360519B (zh) 数据处理方法、装置、设备和存储介质
US20070073675A1 (en) Database query translation
CN114925084B (zh) 分布式事务处理方法、系统、设备及可读存储介质
US9971794B2 (en) Converting data objects from multi- to single-source database environment
US11829814B2 (en) Resolving data location for queries in a multi-system instance landscape
CN114610598A (zh) 测试方法、装置、电子设备及计算机可读存储介质
CN113987337A (zh) 基于组件化动态编排的搜索方法、系统、设备及存储介质
CN117556008A (zh) 基于大语言模型的交互方法、介质、装置和计算设备
CN111753141B (zh) 一种数据管理方法及相关设备
CN115098297B (zh) 一种云原生存储数据卷的一致性快照生成方法和系统
CN116186131A (zh) 一种结合Dubbo服务的ETL数据处理系统及方法
CN116483707A (zh) 测试方法、装置、设备、存储介质及程序产品
CN113282347B (zh) 插件运行方法、装置、设备及存储介质
CN115271959A (zh) 分布式事务日志存证溯源方法和系统
WO2019111109A1 (en) Error handling
US20230066110A1 (en) Creating virtualized data assets using existing definitions of etl/elt jobs
CN113986592A (zh) 日志记录方法、装置、终端设备及可读存储介质
CN114138777A (zh) 一种分库分表方法、装置、电子设备及存储介质
CN112905617A (zh) 数据写入方法、服务器及计算机可读存储介质
CN111580938A (zh) 一种工作单元的事务处理方法、装置、设备及介质
CN111159198B (zh) 参数交易处理方法及装置、计算机设备及可读存储介质
CN113077241B (zh) 审批处理方法、装置、设备及存储介质
CN113190264B (zh) 一种基于jpa的自动化数据版本生成及应用的装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination