CN116860861A - 一种etl数据管理系统 - Google Patents
一种etl数据管理系统 Download PDFInfo
- Publication number
- CN116860861A CN116860861A CN202311133144.XA CN202311133144A CN116860861A CN 116860861 A CN116860861 A CN 116860861A CN 202311133144 A CN202311133144 A CN 202311133144A CN 116860861 A CN116860861 A CN 116860861A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- analysis
- etl
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013523 data management Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 73
- 238000004458 analytical method Methods 0.000 claims abstract description 46
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 230000001502 supplementing effect Effects 0.000 claims abstract description 9
- 238000012937 correction Methods 0.000 claims abstract description 5
- 238000007726 management method Methods 0.000 claims abstract description 5
- 108010076504 Protein Sorting Signals Proteins 0.000 claims abstract description 4
- 238000012856 packing Methods 0.000 claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000004806 packaging method and process Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000013479 data entry Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000006872 improvement Effects 0.000 description 8
- 238000012216 screening Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 238000013515 script Methods 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 238000011068 loading method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及ETL数据管理技术领域,公开了一种ETL数据管理系统,其技术方案要点是包括数据库、读取模块、消息归类模块、解析模块、纠错模块、数据打包模块、补充模块和入库模块;当需要信息管理时,所述读取模块先向数据库发出读取请求,数据库反馈通过信号,读取模块在读取信息时,发出类别整理信号,消息归类模块开始对数据进行归类整理,在发出类别整理信号的同时发出过滤信号给到过滤模块,发送解析信号给解析模块,对数据进行解析,解析完成后发出补充信号,对数据进行增强,补充模块发出入库信号,入库模块将所有的原始数据和解析后的数据都存储在一条标准数据结构中,通过提高数据处理效率:通过优化ETL系统的性能。
Description
技术领域
本发明涉及ETL数据管理技术领域,更具体的说是涉及一种ETL数据管理系统。
背景技术
数据ETL(数据提取、转换和加载)是一个重要的数据管理和处理领域,涉及从不同数据源中提取数据、进行转换和清洗、并将其加载到目标数据仓库中。Talend Open Studio是一种开源的ETL工具,可用于数据提取、转换和加载,处理大数据量时性能不佳:ETL系统通常需要在处理大数据量时进行大量的数据转换和操作,这可能导致系统性能下降,影响数据处理速度。难以处理复杂数据结构:ETL系统通常设计用于处理规范化的结构化数据,但随着非结构化和半结构化数据的增加,这些系统可能无法处理复杂的数据结构。数据质量问题:ETL系统可能无法正确处理不一致、重复或缺失的数据,这可能导致数据质量问题。需要大量的手工工作:在ETL系统中,数据映射和转换通常需要手动配置和编程,这需要大量的手工工作,可能导致错误和重复的劳动。缺少实时数据处理能力:许多ETL系统是基于批处理的,需要等待数据到达饱和后处理,这可能导致数据处理的延迟和数据的实时性问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种ETL数据管理系统,提高数据处理效率:通过优化ETL系统的性能,可以加快数据处理速度,提高数据集成和加工的效率。支持复杂数据结构:改进ETL系统可以使其支持更多的复杂数据结构,从而提高系统的灵活性和适应性。提高数据质量:通过改进ETL系统,可以增加数据质量控制规则和功能,帮助检测和纠正不一致、重复或缺失的数据,从而提高数据质量。自动化处理和减少手工工作:改进ETL系统可以引入自动化处理,减少手工工作和人为错误,从而提高系统的可靠性和稳定性。支持实时数据处理:改进ETL系统可以使其支持实时数据处理,从而满足更高的数据处理要求,提高数据的实时性和准确性。
为实现上述目的,本发明提供了如下技术方案:一种ETL数据管理系统,包括数据库、读取模块、消息归类模块、解析模块、纠错模块、数据打包模块、补充模块和入库模块;当需要信息管理时,所述读取模块先向数据库发出读取请求,数据库反馈通过信号,读取模块在读取信息时,发出类别整理信号,消息归类模块开始对数据进行归类整理,在发出类别整理信号的同时发出过滤信号给到过滤模块,发送解析信号给解析模块,对数据进行解析,解析完成后发出补充信号,对数据进行增强,补充模块发出入库信号,入库模块将所有的原始数据和解析后的数据都存储在一条标准数据结构中,通过提高数据处理效率:通过优化ETL系统的性能,可以加快数据处理速度,提高数据集成和加工的效率。支持复杂数据结构:改进ETL系统可以使其支持更多的复杂数据结构,从而提高系统的灵活性和适应性。提高数据质量:通过改进ETL系统,可以增加数据质量控制规则和功能,帮助检测和纠正不一致、重复或缺失的数据,从而提高数据质量。自动化处理和减少手工工作:改进ETL系统可以引入自动化处理,减少手工工作和人为错误,从而提高系统的可靠性和稳定性。支持实时数据处理:改进ETL系统可以使其支持实时数据处理,从而满足更高的数据处理要求,提高数据的实时性和准确性。
作为本发明的进一步改进,还包括所述回溯模块;所述回溯模块针对数据中的具体某个字段进行字段回溯,可以判断各个解析过程中遇到的问题,用于检测和纠正数据中的错误和不一致性。
作为本发明的进一步改进,所述数据库的为若干个,数据库内的数据包括历史数据、新增数据和实时数据。
作为本发明的进一步改进,所述读取模块包括第一采集策略和第二采集策略;所述第一采集策略为全部采集,第二采集策略为增量数据提取技术可以根据数据源中的变化情况,只提取新增或修改的数据,记录数据录入时间,检测时间节点,从而判断是否为新增或者修改的数据。
作为本发明的进一步改进,还包括过滤模块;所述过滤模块在消息归类模块的采集阶段针对不合适的数据可以统一的过滤,在采集阶段丢弃。
作为本发明的进一步改进,所述解析模块包括第一解析策略和第二解析策略;所述第一解析策略为其中一条解析规则匹配,就不再执行;所述第二解析策略为所有的全局解析规则都要执行,每种规则下可以基于简单流程图形式进行数据解析。
作为本发明的进一步改进,所述第二解析策略包括支持条件节点和加工节点;所述条件节点用来判断数据是否匹配,加工节点进行数据转换、清洗、合并、分割、聚合和计算。
作为本发明的进一步改进,所述加工节点包括第一加工单元和第二加工单元;所述第一加工单元为智能划词,可以对一串文本划取来实现对数据提取、解析;所述第二加工单元第为自定义形式,内置了多种不同函数,同时根据目标系统的指令,将源数据的数据类型转换为目标数据类型。
作为本发明的进一步改进,还包括多个计算节点;所述所有计算节点发出打包信号给数据打包模块,数据打包模块将数据分散打包传输到各个计算节点,每个计算节点均配备解析模块
作为本发明的进一步改进,所述打包信号根据第一采集策略中采集到的数据整体总量大小进行计算节点预分配。
本发明的有益效果:
(1)本发明提高数据处理效率:通过优化ETL系统的性能,可以加快数据处理速度,提高数据集成和加工的效率。支持复杂数据结构:改进ETL系统可以使其支持更多的复杂数据结构,从而提高系统的灵活性和适应性。提高数据质量:通过改进ETL系统,可以增加数据质量控制规则和功能,帮助检测和纠正不一致、重复或缺失的数据,从而提高数据质量。自动化处理和减少手工工作:改进ETL系统可以引入自动化处理,减少手工工作和人为错误,从而提高系统的可靠性和稳定性。支持实时数据处理:改进ETL系统可以使其支持实时数据处理,从而满足更高的数据处理要求,提高数据的实时性和准确性。
(2)本发明可以基于不同数据形式来采集数据。数据库(如JDBC等):连接到不同类型的数据库生,执行SQL查询以提取数据。文件读取器:读取各种文件格式(如CSV等)的数据。消息队列:可以基于消息队列订阅形式接受数据。UDP:通过网络协议实现不同主机间数据传递。同时,针对不合适的数据可以统一的过滤,在采集阶段丢弃。
(3)本发明支持2种形式的数据解析。第一种普通形式下,其中某一条解析规则匹配,就不再执行。第二种全局形式下,所有的全局解析规则都要执行。每种规则下可以基于简单流程图形式进行数据解析,支持条件节点和加工节点,其中条件节点用来判断数据是否匹配,加工节点进行数据转换、清洗、合并、分割、聚合、计算等操作。加工节点主要有2种类型:第一种智能划词,可以对一串文本划取来实现对数据提取、解析。第二种自定义形式,内置了多种不同函数(正则表达式、GROK、字符串处理等),同时支持脚本、特定类型形式,可以方便的解析所有的数据格式。同时根据目标系统的需要,将源数据的数据类型转换为目标数据类型。例如,将字符串类型的日期转换为日期类型。数据转换后,有些数据还需要第三方数据源来进行增强,可以使用数据转换之后解析的字段来做过滤条件。支持第三方数据源的数据对元数据进行补充,目前支持多种形式,数据库、文件、API接口、脚本等。所有的原始数据和解析后的字段都存储在一条标准数据结构中,进行规划范入库。系统提供了实时查询功能,可以基于SQL的规范进行数据查询。同时针对数据中的具体某个字段还提供了回溯功能,可以判断各个解析过程中遇到的问题,用于检测和纠正数据中的错误和不一致性。数据实时读取后立刻执行数据转换、增强、存储等流程,实现数据实时处理。同时支持分布式部署,减少大批量数据处理时长。
附图说明
图1是本发明的系统流程示意图;
图2是本发明的系统运行示意图。
附图标记:数据库;读取模块;消息归类模块;过滤模块;解析模块;纠错模块;数据打包模块;补充模块;回溯模块;入库模块。
具体实施方式
下面结合附图和实施例,对本发明进一步详细说明。其中相同的零部件用相同的附图标记表示。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“底面”和“顶面”、“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
参照图1-图2所示,本实施例的一种ETL数据管理系统,包括数据库、读取模块、消息归类模块、解析模块、纠错模块、数据打包模块、补充模块和入库模块;当需要信息管理时,所述读取模块先向数据库发出读取请求,数据库反馈通过信号,读取模块在读取信息时,发出类别整理信号,消息归类模块开始对数据进行归类整理,在发出类别整理信号的同时发出过滤信号给到过滤模块,发送解析信号给解析模块,对数据进行解析,解析完成后发出补充信号,对数据进行增强,补充模块发出入库信号,入库模块将所有的原始数据和解析后的数据都存储在一条标准数据结构中,提高数据处理效率:通过优化ETL系统的性能,可以加快数据处理速度,提高数据集成和加工的效率。支持复杂数据结构:改进ETL系统可以使其支持更多的复杂数据结构,从而提高系统的灵活性和适应性。提高数据质量:通过改进ETL系统,可以增加数据质量控制规则和功能,帮助检测和纠正不一致、重复或缺失的数据,从而提高数据质量。自动化处理和减少手工工作:改进ETL系统可以引入自动化处理,减少手工工作和人为错误,从而提高系统的可靠性和稳定性。支持实时数据处理:改进ETL系统可以使其支持实时数据处理,从而满足更高的数据处理要求,提高数据的实时性和准确性。
参照图1-图2所示,还包括所述回溯模块;所述回溯模块针对数据中的具体某个字段进行字段回溯,可以判断各个解析过程中遇到的问题,用于检测和纠正数据中的错误和不一致性,在使用过程中,针对数据中的某个字段,利用回溯木块进行回溯,即可获取到该字段在解析过程中层遇到的问题,利用回溯功能,可检测字段中的错误并纠正数据中的不一致性。
参照图1-图2所示,所述数据库的为若干个,数据库内的数据包括历史数据、新增数据和实时数据。
参照图1-图2所示,所述读取模块包括第一采集策略和第二采集策略;所述第一采集策略为全部采集,第二采集策略为增量数据提取技术可以根据数据源中的变化情况,只提取新增或修改的数据,记录数据录入时间,检测时间节点,从而判断是否为新增或者修改的数据,在指定时间t内,利用第一采集策略对数据进行全部采集。
具体的,在预设时间内,数据通过筛选,进入到数据源内,数据源判断该数据为新增数据,并利用第二采集策略对新增数据进行采集,并对数据内容进行补充。
另一种实施方式,在读取模块数据采集过程中,利用过滤模块对数据进行过滤,筛选获取所需数据,并将不合格的数据进行过滤丢弃,合格的数据进入到数据源内,并利用第二采集策略,对进入数据源的数据进行提取。
参照图1-图2所示,还包括过滤模块;所述过滤模块在消息归类模块的采集阶段针对不合适的数据可以统一的过滤,在采集阶段丢弃,在采集阶段,根据数据的形式,选择不同的过滤条件,并在采集阶段进行统一的采集,并将不满足条件、不合适的数据进行过滤,在采集阶段进行丢下,将满足条件的数据进行归类;过滤条件可根据实际需求自定义,内设有不同的筛选条件,根据实际需求,选择不同的筛选条件进行筛选过滤;筛选条件例如字符串的包含或不包含;数字的等于、不等于、小于、大于等;日期的相同、小于、大于、存在、不存在等;以及IP地址的网段、内网、范围等。
参照图1-图2所示,所述解析模块包括第一解析策略和第二解析策略;所述第一解析策略为其中一条解析规则匹配,就不再执行;所述第二解析策略为所有的全局解析规则都要执行,每种规则下可以基于简单流程图形式进行数据解析。
参照图1-图2所示,所述第二解析策略包括支持条件节点和加工节点;所述条件节点用来判断数据是否匹配,过滤节点基于条件节点实现,加工节点进行数据转换、清洗、合并、分割、聚合和计算,利用加工节点,支持不同的加工转换逻辑,例如字符串转换小写、字符串转换大写、字段名转换小写、字段重命名,数字提取unix时间戳等。
参照图1-图2所示,所述加工节点包括第一加工单元和第二加工单元;所述第一加工单元为智能划词,可以对一串文本划取来实现对数据提取、解析;所述第二加工单元为自定义形式,内置了多种不同函数,同时根据目标系统的指令,将源数据的数据类型转换为目标数据类型;例如将字符串类型的日期转换为日期类型,或者字符串、数字、日期以及IP地址四种类型之间的相互转换;具体为2023年1月5日转换为20230105。
参照图1-图2所示,还包括多个计算节点;多个节点部署,接收到数据,所述所有计算节点发出打包信号给数据打包模块,数据打包模块将数据分散打包传输到各个计算节点,每个计算节点均配备解析模块,具体的,数据包括A、B、C等,利用数据打包模块,分别将数据A、B、C打包并分别传输至不同的计算节点a、b、c,并分别在计算节点a、b、c配置有解析模块分别对数据A、B、C进行解析。
参照图1-图2所示,所述打包信号根据第一采集策略中采集到的数据整体总量大小进行计算节点预分配。
参照图2所示,每一条ETL都是一类解析,本发明支持不同厂商设备的解析,即针对特定数据构建一个特定的ETL 配置。
工作原理:数据形式类别转换策略数据库的包括若干个,数据库内的数据种类为历史数据、新增数据和实时数据,预设多个时间节点,选定其中一个时间节点,此时间节点以前的数据为历史数据,此时间节点与其后面的另一时间节点内的数据为新增数据,另一时间节与此刻时间节点之间的数据为实时数据。
当需要信息管理时,读取模块先向数据库发出读取请求,数据库反馈通过信号,读取模块在读取信息时,第一采集策略为全部采集;发出类别整理信号,消息归类模块开始对数据进行归类整理,如将通过文件读取器读取各种文件格式的数据后进行格式分类、基于消息队列订阅形式接收数据后进行队列分类以及通过网络协议实现不同主机间的数据接收,然后进行主机分类;在发出类别整理信号的同时发出过滤信号给到过滤模块,第二采集策略为增量数据提取技术可以根据数据源中的变化情况,只提取新增或修改的数据,记录数据录入时间,检测时间节点,从而判断是否为新增或者修改的数据。
过滤模块在消息归类模块的采集阶段针对不合适的数据可以统一的过滤,在采集阶段丢弃,所述不合适的数据为:
发送解析信号给解析模块,第一解析策略和第二解析策略;
第一解析策略为其中一条解析规则匹配,就不再执行。
第二解析策略为所有的全局解析规则都要执行。每种规则下可以基于简单流程图形式进行数据解析,支持条件节点和加工节点,其中条件节点用来判断数据是否匹配,加工节点进行数据转换、清洗、合并、分割、聚合、计算等操作。加工节点包括第一加工单元和第二加工单元,第一加工单元为智能划词,可以对一串文本划取来实现对数据提取、解析。第二加工单元第为自定义形式,内置了多种不同函数(正则表达式、GROK、字符串处理等),同时支持脚本、特定类型形式进行数据加工,可以方便的解析所有的数据格式。同时根据目标系统的指令,将源数据的数据类型转换为目标数据类型。例如,将字符串类型的日期转换为日期类型。
预设多个计算节点,发出打包信号给数据打包模块,数据打包模块将数据分散打包传输到其他计算节点,每个计算节点均配备解析模块,解析完成后发出补充信号,有些数据还需要第三方数据源来进行增强,通过数据解析之后的第一加工单元来做过滤条件,搜寻到需要增强的数据,以完成补充,并支持第三方数据源的数据对原始数据进行补充。其中目前支持多种形式,数据库、文件、API接口和脚本等。
补充模块发出入库信号,入库模块将所有的原始数据和解析后的数据都存储在一条标准数据结构中,进行规划范入库。系统提供了实时查询功能,可以基于SQL的规范进行数据查询。入库后入库模块发出回溯信号,回溯模块针对数据中的具体某个字段进行字段回溯,可以判断各个解析过程中遇到的问题,用于检测和纠正数据中的错误和不一致性。
在实时信息数据实时读取时采用第一采集策略,读取后立刻依次执行解析信号、补充信号和入库信号,实现数据实时处理。其中打包信号根据第一采集策略中采集到的数据整体总量大小进行计算节点预分配,然后发出打包信号,并针对打包后每个计算节点的实时效率做记录,提高实时计算效率。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种ETL数据管理系统,其特征在于:包括数据库、读取模块、消息归类模块、解析模块、纠错模块、数据打包模块、补充模块和入库模块;
当需要信息管理时,所述读取模块先向数据库发出读取请求,数据库反馈通过信号,读取模块在读取信息时,发出类别整理信号,消息归类模块开始对数据进行归类整理,在发出类别整理信号的同时发出过滤信号给到过滤模块,发送解析信号给解析模块,对数据进行解析,解析完成后发出补充信号,对数据进行增强,补充模块发出入库信号,入库模块将所有的原始数据和解析后的数据都存储在一条标准数据结构中。
2.根据权利要求1所述的一种ETL数据管理系统,其特征在于:还包括所述回溯模块;
所述回溯模块针对数据中的具体某个字段进行字段回溯,可以判断各个解析过程中遇到的问题,用于检测和纠正数据中的错误和不一致性。
3.根据权利要求2所述的一种ETL数据管理系统,其特征在于:所述数据库的为若干个,数据库内的数据包括历史数据、新增数据和实时数据。
4.根据权利要求1所述的一种ETL数据管理系统,其特征在于:所述读取模块包括第一采集策略和第二采集策略;
所述第一采集策略为全部采集,第二采集策略为增量数据提取技术可以根据数据源中的变化情况,只提取新增或修改的数据,记录数据录入时间,检测时间节点,从而判断是否为新增或者修改的数据。
5.根据权利要求1所述的一种ETL数据管理系统,其特征在于:还包括过滤模块;
所述过滤模块在消息归类模块的采集阶段针对不合适的数据可以统一的过滤,在采集阶段丢弃。
6.根据权利要求1所述的一种ETL数据管理系统,其特征在于:所述解析模块包括第一解析策略和第二解析策略;
所述第一解析策略为其中一条解析规则匹配,就不再执行;
所述第二解析策略为所有的全局解析规则都要执行,每种规则下可以基于简单流程图形式进行数据解析。
7.根据权利要求1所述的一种ETL数据管理系统,其特征在于:所述第二解析策略包括支持条件节点和加工节点;
所述条件节点用来判断数据是否匹配,加工节点进行数据转换、清洗、合并、分割、聚合和计算。
8.根据权利要求1所述的一种ETL数据管理系统,其特征在于:所述加工节点包括第一加工单元和第二加工单元;
所述第一加工单元为智能划词,可以对一串文本划取来实现对数据提取、解析;
所述第二加工单元第为自定义形式,内置了多种不同函数,同时根据目标系统的指令,将源数据的数据类型转换为目标数据类型。
9.根据权利要求1所述的一种ETL数据管理系统,其特征在于:还包括多个计算节点;
所述所有计算节点发出打包信号给数据打包模块,数据打包模块将数据分散打包传输到各个计算节点,每个计算节点均配备解析模块。
10.根据权利要求1所述的一种ETL数据管理系统,其特征在于:所述打包信号根据第一采集策略中采集到的数据整体总量大小进行计算节点预分配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311133144.XA CN116860861B (zh) | 2023-09-05 | 2023-09-05 | 一种etl数据管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311133144.XA CN116860861B (zh) | 2023-09-05 | 2023-09-05 | 一种etl数据管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116860861A true CN116860861A (zh) | 2023-10-10 |
CN116860861B CN116860861B (zh) | 2023-12-15 |
Family
ID=88223808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311133144.XA Active CN116860861B (zh) | 2023-09-05 | 2023-09-05 | 一种etl数据管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860861B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050251812A1 (en) * | 2004-04-27 | 2005-11-10 | Convertabase, Inc. | Data conversion system, method, and apparatus |
CN102117306A (zh) * | 2010-01-04 | 2011-07-06 | 阿里巴巴集团控股有限公司 | Etl数据处理过程的监控方法及其系统 |
CN103731298A (zh) * | 2013-11-15 | 2014-04-16 | 中国航天科工集团第二研究院七〇六所 | 一种大规模分布式网络安全数据采集方法与系统 |
CN105069142A (zh) * | 2015-08-18 | 2015-11-18 | 山大地纬软件股份有限公司 | 数据增量抽取转换与分发系统及方法 |
CN106897411A (zh) * | 2017-02-20 | 2017-06-27 | 广东奡风科技股份有限公司 | 基于Spark技术的ETL系统及其方法 |
CN110019446A (zh) * | 2017-09-12 | 2019-07-16 | 上海酷服信息科技有限公司 | Etl数据处理系统及方法 |
CN112632173A (zh) * | 2020-12-30 | 2021-04-09 | 民生科技有限责任公司 | 海量数据下基于etl的尽职调查数据分析系统及方法 |
CN113312205A (zh) * | 2020-02-26 | 2021-08-27 | 腾讯科技(深圳)有限公司 | 数据校验方法、装置、存储介质和计算机设备 |
CN114281694A (zh) * | 2021-12-24 | 2022-04-05 | 浙江太美医疗科技股份有限公司 | 基于etl框架的数据仓库运行调度方法、系统及计算机可读介质 |
CN114461612A (zh) * | 2022-02-11 | 2022-05-10 | 上海掌数科技有限公司 | 一种基于数据库的数据管理方法及管理系统 |
US20230185781A1 (en) * | 2021-12-09 | 2023-06-15 | Datametica Solutions Private Limited | System and method for data warehouse migration |
CN116368355A (zh) * | 2021-09-05 | 2023-06-30 | 汉熵通信有限公司 | 物联网系统 |
-
2023
- 2023-09-05 CN CN202311133144.XA patent/CN116860861B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050251812A1 (en) * | 2004-04-27 | 2005-11-10 | Convertabase, Inc. | Data conversion system, method, and apparatus |
CN102117306A (zh) * | 2010-01-04 | 2011-07-06 | 阿里巴巴集团控股有限公司 | Etl数据处理过程的监控方法及其系统 |
CN103731298A (zh) * | 2013-11-15 | 2014-04-16 | 中国航天科工集团第二研究院七〇六所 | 一种大规模分布式网络安全数据采集方法与系统 |
CN105069142A (zh) * | 2015-08-18 | 2015-11-18 | 山大地纬软件股份有限公司 | 数据增量抽取转换与分发系统及方法 |
CN106897411A (zh) * | 2017-02-20 | 2017-06-27 | 广东奡风科技股份有限公司 | 基于Spark技术的ETL系统及其方法 |
CN110019446A (zh) * | 2017-09-12 | 2019-07-16 | 上海酷服信息科技有限公司 | Etl数据处理系统及方法 |
CN113312205A (zh) * | 2020-02-26 | 2021-08-27 | 腾讯科技(深圳)有限公司 | 数据校验方法、装置、存储介质和计算机设备 |
CN112632173A (zh) * | 2020-12-30 | 2021-04-09 | 民生科技有限责任公司 | 海量数据下基于etl的尽职调查数据分析系统及方法 |
CN116368355A (zh) * | 2021-09-05 | 2023-06-30 | 汉熵通信有限公司 | 物联网系统 |
US20230185781A1 (en) * | 2021-12-09 | 2023-06-15 | Datametica Solutions Private Limited | System and method for data warehouse migration |
CN114281694A (zh) * | 2021-12-24 | 2022-04-05 | 浙江太美医疗科技股份有限公司 | 基于etl框架的数据仓库运行调度方法、系统及计算机可读介质 |
CN114461612A (zh) * | 2022-02-11 | 2022-05-10 | 上海掌数科技有限公司 | 一种基于数据库的数据管理方法及管理系统 |
Non-Patent Citations (3)
Title |
---|
李宝林;: "基于ETL的数据仓库ODS数据查询", 江西科学, no. 06, pages 130 - 134 * |
梁美红;张男楠;李建;伍东;胡永泉;杨静;: "一种钻井数据仓库ETL系统的设计", 计算机技术与发展, no. 03, pages 256 - 259 * |
王磊;李一凡;赵怀慈;: "银联数据仓库系统中ETL的设计和实现", 微电子学与计算机, no. 05, pages 72 - 74 * |
Also Published As
Publication number | Publication date |
---|---|
CN116860861B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582551B (zh) | 日志数据解析方法、装置、计算机设备和存储介质 | |
CN106055618B (zh) | 一种基于网络爬虫与结构化存储的数据处理方法 | |
CN103473056B (zh) | 一种遥测配置文件自动生成方法 | |
CN103177120A (zh) | 一种基于索引的XPath查询模式树匹配方法 | |
WO2022134363A1 (zh) | 整合业务报表的方法、装置、设备以及存储介质 | |
CN107797916A (zh) | Ddl语句审核方法和装置 | |
CN109933578A (zh) | 一种可配置的自动化数据质量检查方法及系统 | |
CN109582286A (zh) | 基于Freemarker技术的数据规范性校验方法及其装置 | |
CN116483903A (zh) | 一种面向多源异构数据源的全链路数据血缘关系识别方法 | |
CN113821554B (zh) | 一种实现异构数据库数据采集的方法 | |
WO2024149368A1 (zh) | 一种提高相似物流单号识别精度的算法和物流查询系统 | |
CN116860861B (zh) | 一种etl数据管理系统 | |
CN107291938A (zh) | 订单查询系统及方法 | |
CN117892820A (zh) | 一种基于大语言模型的多级数据建模方法及系统 | |
CN105677723A (zh) | 一种用于工业信号源的数据标签建立与检索方法 | |
CN113138906A (zh) | 一种调用链数据采集方法、装置、设备及存储介质 | |
CN108897678A (zh) | 静态代码检测方法和静态代码检测系统、存储设备 | |
CN111125045B (zh) | 一种轻量级etl处理平台 | |
CN113535758B (zh) | 一种把传统数据库脚本批量转换上云的大数据系统和方法 | |
CN112256802A (zh) | 一种海洋微生物信息的自动采集方法和设备 | |
CN115729935A (zh) | 一种基于orm框架的数据交互处理方法及系统 | |
CN110008448A (zh) | 将SQL代码自动转换为Java代码的方法和装置 | |
CN111143651A (zh) | 一种新媒体一体化运营管理用数据采集分析系统 | |
CN110008239A (zh) | 基于预计算优化的逻辑执行优化方法及系统 | |
US20200242121A1 (en) | Method and apparatus for analyzing data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |