CN104317928A - 一种基于分布式数据库的业务etl方法及系统 - Google Patents

一种基于分布式数据库的业务etl方法及系统 Download PDF

Info

Publication number
CN104317928A
CN104317928A CN201410602087.XA CN201410602087A CN104317928A CN 104317928 A CN104317928 A CN 104317928A CN 201410602087 A CN201410602087 A CN 201410602087A CN 104317928 A CN104317928 A CN 104317928A
Authority
CN
China
Prior art keywords
data
etl
data processing
processing task
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410602087.XA
Other languages
English (en)
Inventor
邢兆飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201410602087.XA priority Critical patent/CN104317928A/zh
Publication of CN104317928A publication Critical patent/CN104317928A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Abstract

本发明涉及一种基于分布式数据库的业务ETL方法及系统,所述方法包括以下步骤:步骤1,设计数据处理任务,并将数据处理任务发送至ETL集群,并进行ETL集群和数据处理任务的管理;步骤2,ETL集群从OLTP业务数据库中抽取数据处理任务中指定的数据,并根据数据处理任务建立存储过程,按数据处理任务设置的规则将抽取的数据发送至分布式数据库的不同数据节点进行存储;步骤3,分布式数据库存储从OLTP业务数据库中抽取出来的数据,执行存储过程对数据进行分析处理,并存储或返回分析处理结果。本发明解决了现在ETL技术在处理海量数据时存在的速度慢、效率低、易用性低等问题。

Description

一种基于分布式数据库的业务ETL方法及系统
技术领域
本发明涉及分布式数据库、数据挖掘及云计算领域,特别是涉及一种基于分布式数据库的业务ETL方法及系统。
背景技术
ETL,Extraction-Transformation-Loading的缩写,即数据提取、转换和加载,是海量数据分析处理过程中的重要步骤。
传统的ETL技术在需要对OLTP(联机事务处理系统)产生的业务数据进行分析统计处理时,采用集中式部署方案。通过执行存储于业务系统数据库上的存储过程,直接在业务系统的数据库上对数据进行分析、筛选等操作,再将整理后的数据填充到自身数据库中。整个操作过程在同一业务环境中实施,其业务流程图如图1所示,系统结构图如图2所示。
但是,随着互联网、电信行业的迅速发展,OLTP业务量急速增加,需要处理的数据也越来越多,传统ETL技术方案在处理海量数据时的存在弊端也愈发明显,主要表现在以下几个方面。
1)集中式部署影响OLTP业务性能。
数据分析筛选存储过程就在业务数据库上直接执行,运行存储过程期间对数据库主机的CPU、内存、磁盘I/O等资源占用极大,直接影响到OLTP业务正常运行。
2)单机执行数据统计分析效率低。
所有需要分析的业务数据都在同一数据库上,数据分析的存储过程必须按顺序依次执行,无法并行运算。否则会相互影响效率大幅降低,还有可能造成部分表死锁等情况。
3)数据量大分析、统计执行速度慢。
由于OLTP业务非常繁忙,产生的数据量非常大,使得单个表的数据量常常是以亿计的,数据库查找统计等操作的速度是和数据量的大小成反比的,这样在分析,统计过程中的耗时就会很长。
4)存在于数据库中的大量存贮过程不易管理。
由于同一数据库中大量不同业务数据需要分析,每项业务各自有许多不同的存储过程,很难管理,修改编辑也很不方便。而且很难直观的了解各个存储过程的作用以及执行的先后关联关系等等。
5)中间表占用业务数据库空间太大。
在数据筛选后生成大量中间数据,需要保存到中间表里,这些数据在处理结束后占用大量数据库空间,不及时清理有可能造成数据库空间不足,影响到业务系统。
发明内容
本发明所要解决的技术问题是提供一种基于分布式数据库的业务ETL方法及系统,用于解决现在ETL技术在处理海量数据时存在的局限性问题。
本发明解决上述技术问题的技术方案如下:一种基于分布式数据库的业务ETL方法,包括以下步骤:
步骤1,设计数据处理任务,并将数据处理任务发送至ETL集群,并进行ETL集群和数据处理任务的管理;
步骤2,ETL集群从OLTP业务数据库中抽取数据处理任务中指定的数据,并根据数据处理任务建立存储过程,按数据处理任务设置的规则将抽取的数据发送至分布式数据库的不同数据节点进行存储;
步骤3,分布式数据库存储从OLTP业务数据库中抽取出来的数据,执行存储过程对数据进行分析处理,并存储或返回分析处理结果。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤1中将数据处理任务发送至ETL集群具体包括:将多个数据处理任务发送到ETL集群的不同服务器运行,或者以集群方式运行同一个数据处理任务。
进一步,所述步骤2中将抽取的数据发送至分布式数据库的不同数据节点进行存储具体包括:按自定义的数据切分规则对抽取的数据进行切分,将切分后的数据导入分布式数据库的不同数据节点。
进一步,以XML文件格式保存设计的数据处理任务。
进一步,采用可视化的流程图界面设计数据处理任务。
进一步,所述步骤2还包括:对抽取的数据进行数据格式转换,将不同格式的数据转换为相同格式存储在分布式数据库。
进一步,所述步骤3还包括:将数据分析处理结果通过ETL集群返回给OLTP业务数据库。
进一步,所述步骤3还包括:将数据分析处理过程中产生的中间数据存储在分布式数据库中。
本发明的技术方案还包括一种基于分布式数据库的业务ETL系统,包括:
ETL控制端,用于设计数据处理任务,将数据处理任务发送至ETL集群,并进行ETL集群和数据处理任务的管理;
ETL集群,用于从OLTP业务数据库中抽取数据处理任务中指定的数据,并根据数据处理任务建立存储过程,按数据处理任务设置的规则将抽取的数据发送至分布式数据库的不同数据节点进行存储;
分布式数据库,用于存储从OLTP业务数据库中抽取出来的数据,执行存储过程对数据进行分析处理,并存储或返回分析处理结果。
进一步,所述ETL控制端采用可视化的流程图界面设计数据处理任务。
本发明的有益效果是:
一、高效性
1)在数据处理的业务流程中多处使用并行处理,极大的提高的数据处理的速度;
2)通过数据切分减小的单个数据表的规模,极大的减少了各种数据操作的耗时;
3)采用分布式数据库存储数据,解决了单磁盘读写时存在磁盘I/O瓶颈的问题;
二、易用性
1)采用可视化界面与脚本相结合的方式进行业务流程的设计,极大的简化了技术人员的开发难度,解决了单存储过程人工调度混乱的问题;
2)采用多项工作组合成一项任务,这样分层级管理的设计模式,便于技术人员灵活合理的设计安排任务的执行过程。
3)采用XML格式文件传输和保存任务,结构清晰、易懂,便于技术人员批量的通过文件进行直接的修改。
4)采用控制端直接控制远程服务器并发布、启动、停止、清除任务,免去了技术人员逐个的在服务器上进行文件操作。
三、数据复用
在应用与业务系统独立的分布式数据库,不挤占业务系统数据库空间,所以不必经常去清除数据,这样许多数据可以保留下来以便于其他系统再次使用。
附图说明
图1为现有技术中处理OLTP产生的业务数据的流程示意图;
图2为现有技术中处理OLTP产生的业务数据的系统的结构示意图;
图3为本发明所述的一种基于分布式数据库的业务ETL方法及系统的数据处理过程示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图3所示,一种基于分布式数据库的业务ETL方法,其特征在于,包括以下步骤:
步骤1,设计数据处理任务,并将数据处理任务发送至ETL集群,并进行ETL集群和数据处理任务的管理;
步骤2,ETL集群从OLTP业务数据库中抽取数据处理任务中指定的数据,并根据数据处理任务建立存储过程,按数据处理任务设置的规则将抽取的数据发送至分布式数据库的不同数据节点进行存储;
步骤3,分布式数据库存储从OLTP业务数据库中抽取出来的数据,执行存储过程对数据进行分析处理,并存储或返回分析处理结果。
需说明的是:“存储过程”是指数据库中的概念,是一组为了完成特定功能的SQL语句集,设计、建立、调用、执行存储过程的最终目的是处理数据。
对应地,同样如图3所示,本实施例还给出了一种基于分布式数据库的业务ETL系统,包括:
ETL控制端,用于设计数据处理任务,将数据处理任务发送至ETL集群,并进行ETL集群和数据处理任务的管理;
ETL集群,用于从OLTP业务数据库中抽取数据处理任务中指定的数据,并根据数据处理任务建立存储过程,按数据处理任务设置的规则将抽取的数据发送至分布式数据库的不同数据节点进行存储;
分布式数据库,用于存储从OLTP业务数据库中抽取出来的数据,执行存储过程对数据进行分析处理,并存储或返回分析处理结果。
对于该业务ETL系统,ETL控制端、ETL集群和分布式数据库还有其余功能,各构成部分完成的功能如下所述。
ETL控制端,是用户进行数据分析业务流程设计开发的界面,它可以对数据源、业务流程、数据抽取脚本、数据转换脚本等资源进行管理。它还是ETL集群的控制台,可以将任务发送到ETL集群上,控制任务的启停、定时运行等等。
ETL集群,是具体运行执行数据筛选抽取任务的一组服务器。用户设计好工作流程,从ETL控制端以XML文件的形式发送到ETL集群的指定服务器上,服务器解析这些文件后,根据控制台指令或定时信息运行相关处理流程。
分布式数据库,接收并存储ETL集群从业务数据库中筛选出的数据,然后根据ETL集群任务脚本建立、调用、启动数据分析处理的存储过程,并将结果存储下来等待其他系统查询使用,或发送回业务数据库。
根据上述基本步骤,具体的实施过程如下:
1)建立数据处理任务
在ETL控制端有可视化的界面用于建立管理编辑数据处理任务。
一项简单的数据处理任务中应包含至少一个输入。输入的种类有很多种,主要划分为文件输入、表输入两大类型。
文件输入,包含文件路径,分割格式,筛选条件等等设置。文件输入是以XML、Excel、CSV、GZIP等各种格式的数据文件为数据源的。
任务中通常采用表输入,其中包含数据链接以及对应的查询SQL脚本,在SQL脚本中通过设置不同查询条件来实现数据的筛选。此过程首先针对业务需求,为每个表制定一个数据切分规则,在编辑查询SQL的时候就按照这个规则将数据查询出来。这些数据被按照规则拆分开以文件流的形式传输到分布式数据库对应的节点上。数据切分条件根据数据量和表关联关系来确定(例如在客户表和订单表中,以客户ID取模,取模数为分布式数据库节点数n,即mod(CID,n)=0,mod(CID,n)=1,…,mod(CID,n)=n-1作为查询条件,将从这两个表抽取出来的数据均等的切分成n份)。在添加表输入时将数据切分条件加入SQL脚本中,设置多个相似但切分条件不同的表输入来实现将大数据切分成多份。
每个表输入应该对应一个数据输出,这个输出包含目的表的链接以及数据转换格式、数据类型等信息,主要用于指示输出的目标和类型。
每个输入和一个或多个输出构成一组转换工作,每组转换工作可以单独运行,也可以将多组转换工作按一定顺序组织排列成一项任务。在任务中除了能安排各组转换工作并行或串行执行,还可以通过可视化界面在转换工作前后添加各种脚本,判断条件,分支路径,定时启动,存储过程调用等组件。这样便构成一个完整的数据处理任务,这个任务是以XML文件格式进行描述和保存的,便于传输和再次编辑。
在可视化界面上可以非常方便的对任务中的转换工作、各种脚本、判断条件、分支路径、定时启动和存储过程调用等组件进行编辑管理。以任务的形式对数据处理中的各种资源进行组织管理,解决了各种资源、流程的分布和依赖关系混乱,难以实施系统的维护和管理的问题。
本实施例中,设计数据处理任务为表输入,且所述表输入包括数据链接及对应的查询SQL脚本,再在添加表输入时将数据切分规则加入查询SQL脚本中,按数据切分规则将数据处理任务发送至ETL集群的各个服务器中。
2)数据处理任务发送
在用户打算运行发布任务时,会出现ETL集群服务器的控制台界面,用于选择由哪一台或多台服务器执行此项任务,同时也可以管理该任务的启停、监控运行状态、查看错误信息等等。
选定服务器后点击运行,描述任务的XML文件就被传输到服务器上,服务器对这个文件进行解析,并启动此项任务。任务运行期间ETL控制端可以收到相关运行状态信息。如果控制端关闭,这些信息保存在服务器的日志文件中。
任务启动后ETL集群的服务器根据设计好的任务流程判断即时开始任务还是指定时间开始,并依次执行相关转换工作。用户也可以在控制端停止或清除某任务。
3)数据抽取
每个任务中的转换工作主要内容就是数据抽取,即将需要的数据从业务平台的数据库中查询出来,存储到分布式数据库中。具体为:按数据切分规则将表输入中的目的表的数据链接设置为分布式数据库的数据节点,将抽取的数据导入分布式数据库的不同数据节点。
在转换工作中通常采用Bulk Loader模式的输出,这种模式下查询出的数据以文件流的方式输出到ETL集群的服务器上,在ETL集群的服务器上只暂存部分正在传输而尚未导入到数据库中的部分数据,占用磁盘空间非常小,目的数据库以文件导入的方式将数据加载到目的库中,省去了SQL语句解析执行的过程,其速度远高于使用SQL进行插入数据的方式。
在这里就把目的表的链接设置为分布式数据库的数据节点,这样每个别切分开的数据就被导入到不同的分布式数据库的数据节点上。而通常情况下把每组表输入输出指定到不同的ETL服务器上,这样多台ETL服务器可以并行运行将数据切分到分布式数据库的多个数据节点上,实现分布式运算。通过分布式并行处理以及文件数据导入的方式极大的提高数据抽取的效率。
4)数据转换
由于数据输入源众多,输入数据的格式千差万别,要把这些数据都导入到分布式数据库中存储,势必要经过数据文件解析以及数据类型转换,即对抽取的数据进行数据格式转换,将不同格式的数据转换为相同格式存储在分布式数据库。
数据转换的实现是,首先在输入源中定义了数据源的类型(即:数据源是文件数据源还是表输入数据源,文件数据源采用的是何种文件格式,表输入数据是何种数据库),以便系统正确的识别当前输入的数据。然后,在表输出部分则要定义目标库类型,解析输入数据的格式定义(即分隔符、结束符、换行符等),各个字段数据类型对应关系。服务器在执行数据转换工作时就依照定义和的输入输出完成数据的导出导入,以及中间的数据转换工作。
5)数据分布式存储
在数据抽取过程中就将数据切分成多个部分存储到分布式数据库上。使用分布式数据库作为存储容器,可以充分利用多主机、多磁盘I/O带宽大,整体读取、写入速度高的优势进行大数据量传输交换。
另外数据被切分成较小的单元进行存储,在检索、查询、统计、建立索引等操作时速度相对于大数据表操作成几何倍数减少。所以针对于大数据表操作时一定要在任务设计时根据数据量将数据切分成多份,以减少后续操作的执行时间。
此外,将数据分析处理过程中产生的中间数据也存储在分布式数据库中。
6)数据统计分析
数据统计分析,是整个流程的关键步骤也是最终目的。这个步骤具体的执行过程是——由ETL集群根据任务流程在分布式数据库中建立数据分析处理业务的存储过程,然后在流程中调用相应的存储过程进行数据分析处理。
在分布式数据库各个节点上运行的存储过程不会产生相互影响,造成表死锁等问题,也不会竞争磁盘I/O影响读取写入速度。所以各不同节点上的存储过程可以同时运行,这样多任务并行处理极大的减少了数据分析处理所需的时间。
7)数据统计结果
数据统计分析完成其结果可以直接存储在分布式数据库中也可以通过ETL集群返回给业务平台(OLTP业务数据库),包括数据处理是产生的中间数据以及最终结果如果都存储在分布式数据库中,就不占用业务系统的数据库空间,而且因为分布式数据库大容量的特点不用及时的清理这些数据,甚至可以较长期的保留这些数据,以便其他业务系统或者后续处理业务重复使用。
结合背景技术及上述具体实施过程,本实施例为了解决传统技术方案在处理海量数据时存在的弊端,主要从以下几个方面进行了技术改进:
一、变集中式部署为分布式部署
将原本都在OLTP业务环境下处理运行的整个流程拆分,把数据筛选、分析、统计的过程与业务环境分离,只在数据抽取的过程中对业务系统做读取操作,其他数据分析过程都在分布式数据库系统上进行,减少了对业务正常运行的影响。
二、改单节点串行操作为多节点并行计算
将原本在一个数据库上运行的数据分析、转换脚本部署到分布式数据库的多个数据节点上,通过合理的规划和调度,使原本单线串行执行的流程变为多线分批次并行执行。避免了在单一节点上运行多任务资源竞争,和数据表死锁等待问题,使得并行处理成为可能,极大的提高了数据处理的效率。
三、对大数据表进行拆分
根据数据关系,制定拆分规则对表进行拆分,将一个大表拆分为多个小表,并且各个小表的分析处理采用并行处理的方式进行,然后将各表的处理结果合并得到需要的结果,以提高数据库运行查询分析处理的速度。
四、采用流程图方式设计规划数据分析统计业务
采用可视化的流程图界面来设计编辑每个数据分析业务,将存储过程作为流程中的一个步骤,在使用时生成,结束后删除。这样可以向管理普通软件项目代码一样管理数据库中的存储过程。并且在可视化的流程图界面可以直观的了解到各个步骤的关联关系,便于维护修改。
五、数据分析生成的中间数据单独存贮
将数据分析过程中产生的中间数据存储到分布式数据库中,不占用业务系统数据库空间,不影响业务系统正常使用,也不需要及时的去清除这些数据,减少了数据清除操作的频率,而且这些保留下来的数据还可以提供其他系统复用。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于分布式数据库的业务ETL方法,其特征在于,包括以下步骤:
步骤1,设计数据处理任务,并将数据处理任务发送至ETL集群,并进行ETL集群和数据处理任务的管理;
步骤2,ETL集群从OLTP业务数据库中抽取数据处理任务中指定的数据,并根据数据处理任务建立存储过程,按数据处理任务设置的规则将抽取的数据发送至分布式数据库的不同数据节点进行存储;
步骤3,分布式数据库存储从OLTP业务数据库中抽取出来的数据,执行存储过程对数据进行分析处理,并存储或返回分析处理结果。
2.根据权利要求1所述的业务ETL方法,其特征在于,所述步骤1中将数据处理任务发送至ETL集群具体包括:将多个数据处理任务发送到ETL集群的不同服务器运行,或者以集群方式运行同一个数据处理任务。
3.根据权利要求2所述的业务ETL方法,其特征在于,所述步骤2中将抽取的数据发送至分布式数据库的不同数据节点进行存储具体包括:按自定义的数据切分规则对抽取的数据进行切分,将切分后的数据导入分布式数据库的不同数据节点。
4.根据权利要求1至3中任一所述的业务ETL方法,其特征在于,以XML文件格式保存设计的数据处理任务。
5.根据权利要求1至3中任一所述的业务ETL方法,其特征在于,采用可视化的流程图界面设计数据处理任务。
6.根据权利要求1所述的业务ETL方法,其特征在于,所述步骤2还包括:对抽取的数据进行数据格式转换,将不同格式的数据转换为相同格式存储在分布式数据库。
7.根据权利要求1所述的业务ETL方法,其特征在于,所述步骤3还包括:将数据分析处理结果通过ETL集群返回给OLTP业务数据库。
8.根据权利要求1所述的业务ETL方法,其特征在于,所述步骤3还包括:将数据分析处理过程中产生的中间数据存储在分布式数据库中。
9.一种基于分布式数据库的业务ETL系统,其特征在于,包括:
ETL控制端,用于设计数据处理任务,将数据处理任务发送至ETL集群,并进行ETL集群和数据处理任务的管理;
ETL集群,用于从OLTP业务数据库中抽取数据处理任务中指定的数据,并根据数据处理任务建立存储过程,按数据处理任务设置的规则将抽取的数据发送至分布式数据库的不同数据节点进行存储;
分布式数据库,用于存储从OLTP业务数据库中抽取出来的数据,执行存储过程对数据进行分析处理,并存储或返回分析处理结果。
10.根据权利要求9中任一所述的业务ETL系统,其特征在于,所述ETL控制端采用可视化的流程图界面设计数据处理任务。
CN201410602087.XA 2014-10-31 2014-10-31 一种基于分布式数据库的业务etl方法及系统 Pending CN104317928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410602087.XA CN104317928A (zh) 2014-10-31 2014-10-31 一种基于分布式数据库的业务etl方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410602087.XA CN104317928A (zh) 2014-10-31 2014-10-31 一种基于分布式数据库的业务etl方法及系统

Publications (1)

Publication Number Publication Date
CN104317928A true CN104317928A (zh) 2015-01-28

Family

ID=52373160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410602087.XA Pending CN104317928A (zh) 2014-10-31 2014-10-31 一种基于分布式数据库的业务etl方法及系统

Country Status (1)

Country Link
CN (1) CN104317928A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069029A (zh) * 2015-07-17 2015-11-18 电子科技大学 一种实时etl系统及方法
CN105205105A (zh) * 2015-08-27 2015-12-30 浪潮集团有限公司 一种基于storm的数据ETL系统及处理方法
CN105589920A (zh) * 2015-09-29 2016-05-18 中国银联股份有限公司 用于大数据预分析的方法和装置
CN105760355A (zh) * 2016-01-29 2016-07-13 大连楼兰科技股份有限公司 自动批量转换换行符格式的系统及方法
CN105868365A (zh) * 2016-03-30 2016-08-17 浪潮通信信息系统有限公司 一种基于Hadoop的传统网管数据处理方法
CN106227862A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 基于分布式的电商数据整合方法
CN106354876A (zh) * 2016-09-22 2017-01-25 珠海格力电器股份有限公司 一种数据处理系统和方法
CN106776786A (zh) * 2016-11-24 2017-05-31 山东浪潮云服务信息科技有限公司 一种互联网采集数据的过程化处理方法
CN107204892A (zh) * 2017-04-12 2017-09-26 北京国电通网络技术有限公司 电力通信网运行数据处理方法及装置
CN107329989A (zh) * 2017-06-05 2017-11-07 无锡雅座在线科技股份有限公司 导出数据的方法、装置及系统
CN108197496A (zh) * 2018-01-18 2018-06-22 成都博睿德科技有限公司 云计算环境下数据安全增强方法
CN108280023A (zh) * 2017-01-04 2018-07-13 中兴通讯股份有限公司 任务执行方法、装置和服务器
CN109388667A (zh) * 2017-08-14 2019-02-26 中兴通讯股份有限公司 组件化大数据处理方法、系统及计算机可读存储介质
CN109669975A (zh) * 2018-11-09 2019-04-23 成都数之联科技有限公司 一种工业大数据处理系统及方法
US10339152B2 (en) 2016-08-29 2019-07-02 International Business Machines Corporation Managing software asset environment using cognitive distributed cloud infrastructure
CN110222113A (zh) * 2019-06-20 2019-09-10 中国人民解放军陆军特种作战学院 一种数据提取处理可视化预警方法
CN110874371A (zh) * 2018-08-31 2020-03-10 杭州海康威视数字技术股份有限公司 一种数据分析系统、方法及装置
CN112231406A (zh) * 2020-10-20 2021-01-15 浪潮云信息技术股份公司 一种分布式云数据集中处理方法
CN113360558A (zh) * 2021-06-04 2021-09-07 北京京东振世信息技术有限公司 数据处理方法、数据处理装置、电子设备及存储介质
CN114595294A (zh) * 2022-03-11 2022-06-07 北京梦诚科技有限公司 一种数据仓库建模和抽取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102497353A (zh) * 2011-10-28 2012-06-13 深圳第七大道科技有限公司 多服务器分布式数据处理方法、服务器及系统
CN103455526A (zh) * 2012-06-05 2013-12-18 杭州勒卡斯广告策划有限公司 一种etl数据处理方法、装置及系统
CN103514205A (zh) * 2012-06-27 2014-01-15 中国电信股份有限公司 海量数据处理方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102497353A (zh) * 2011-10-28 2012-06-13 深圳第七大道科技有限公司 多服务器分布式数据处理方法、服务器及系统
CN103455526A (zh) * 2012-06-05 2013-12-18 杭州勒卡斯广告策划有限公司 一种etl数据处理方法、装置及系统
CN103514205A (zh) * 2012-06-27 2014-01-15 中国电信股份有限公司 海量数据处理方法和系统

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069029B (zh) * 2015-07-17 2019-01-29 电子科技大学 一种实时etl系统及方法
CN105069029A (zh) * 2015-07-17 2015-11-18 电子科技大学 一种实时etl系统及方法
CN105205105A (zh) * 2015-08-27 2015-12-30 浪潮集团有限公司 一种基于storm的数据ETL系统及处理方法
CN105205105B (zh) * 2015-08-27 2019-04-16 浪潮集团有限公司 一种基于storm的数据ETL系统及处理方法
CN105589920A (zh) * 2015-09-29 2016-05-18 中国银联股份有限公司 用于大数据预分析的方法和装置
CN105760355A (zh) * 2016-01-29 2016-07-13 大连楼兰科技股份有限公司 自动批量转换换行符格式的系统及方法
CN105868365A (zh) * 2016-03-30 2016-08-17 浪潮通信信息系统有限公司 一种基于Hadoop的传统网管数据处理方法
CN106227862A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 基于分布式的电商数据整合方法
US10339152B2 (en) 2016-08-29 2019-07-02 International Business Machines Corporation Managing software asset environment using cognitive distributed cloud infrastructure
CN106354876A (zh) * 2016-09-22 2017-01-25 珠海格力电器股份有限公司 一种数据处理系统和方法
CN106776786A (zh) * 2016-11-24 2017-05-31 山东浪潮云服务信息科技有限公司 一种互联网采集数据的过程化处理方法
CN108280023A (zh) * 2017-01-04 2018-07-13 中兴通讯股份有限公司 任务执行方法、装置和服务器
CN108280023B (zh) * 2017-01-04 2022-11-01 深圳市中兴通讯技术服务有限责任公司 任务执行方法、装置和服务器
CN107204892A (zh) * 2017-04-12 2017-09-26 北京国电通网络技术有限公司 电力通信网运行数据处理方法及装置
CN107204892B (zh) * 2017-04-12 2020-07-21 北京国电通网络技术有限公司 电力通信网运行数据处理方法及装置
CN107329989A (zh) * 2017-06-05 2017-11-07 无锡雅座在线科技股份有限公司 导出数据的方法、装置及系统
CN109388667A (zh) * 2017-08-14 2019-02-26 中兴通讯股份有限公司 组件化大数据处理方法、系统及计算机可读存储介质
CN108197496A (zh) * 2018-01-18 2018-06-22 成都博睿德科技有限公司 云计算环境下数据安全增强方法
CN110874371A (zh) * 2018-08-31 2020-03-10 杭州海康威视数字技术股份有限公司 一种数据分析系统、方法及装置
CN110874371B (zh) * 2018-08-31 2023-06-02 杭州海康威视数字技术股份有限公司 一种数据分析系统、方法及装置
CN109669975B (zh) * 2018-11-09 2020-12-18 成都数之联科技有限公司 一种工业大数据处理系统及方法
CN109669975A (zh) * 2018-11-09 2019-04-23 成都数之联科技有限公司 一种工业大数据处理系统及方法
CN110222113A (zh) * 2019-06-20 2019-09-10 中国人民解放军陆军特种作战学院 一种数据提取处理可视化预警方法
CN112231406A (zh) * 2020-10-20 2021-01-15 浪潮云信息技术股份公司 一种分布式云数据集中处理方法
CN113360558A (zh) * 2021-06-04 2021-09-07 北京京东振世信息技术有限公司 数据处理方法、数据处理装置、电子设备及存储介质
CN113360558B (zh) * 2021-06-04 2023-09-29 北京京东振世信息技术有限公司 数据处理方法、数据处理装置、电子设备及存储介质
CN114595294A (zh) * 2022-03-11 2022-06-07 北京梦诚科技有限公司 一种数据仓库建模和抽取方法及系统

Similar Documents

Publication Publication Date Title
CN104317928A (zh) 一种基于分布式数据库的业务etl方法及系统
US10275278B2 (en) Stream processing task deployment using precompiled libraries
CN103370691B (zh) 管理缓冲器溢出状况
CN104268428B (zh) 一种用于指标计算的可视化配置方法
US9135071B2 (en) Selecting processing techniques for a data flow task
CN107526645B (zh) 一种通信优化方法及系统
CN107885499A (zh) 一种接口文档生成方法及终端设备
US11675779B2 (en) Enhanced high performance real-time relational database system and methods for using same
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN104252452A (zh) 数据管理的方法及装置
CN106933836B (zh) 一种基于分表的数据存储方法和系统
CN109241159B (zh) 一种数据立方体的分区查询方法、系统及终端设备
CN101901265B (zh) 一种虚拟试验数据对象化管理系统
CN103885986A (zh) 主备数据库同步的方法和装置
US20140101213A1 (en) Computer-readable recording medium, execution control method, and information processing apparatus
CN103077192B (zh) 一种数据处理方法及其系统
CN110471754A (zh) 作业调度中的数据展示方法、装置、设备及存储介质
CN110209646A (zh) 一种基于实时流式计算的数据平台系统
CN108829505A (zh) 一种分布式调度系统及方法
CN110134646B (zh) 知识平台服务数据存储与集成方法及系统
CN106802928B (zh) 电网历史数据管理方法及其系统
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN110119422A (zh) 小微信贷租户数据仓库数据处理系统及设备
CN105308579A (zh) 系列数据并行分析基础设施及其并行分散处理方法
CN109829094A (zh) 分布式爬虫系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150128

RJ01 Rejection of invention patent application after publication