CN101105793A - 数据仓库中的数据处理方法及系统 - Google Patents

数据仓库中的数据处理方法及系统 Download PDF

Info

Publication number
CN101105793A
CN101105793A CNA200610090274XA CN200610090274A CN101105793A CN 101105793 A CN101105793 A CN 101105793A CN A200610090274X A CNA200610090274X A CN A200610090274XA CN 200610090274 A CN200610090274 A CN 200610090274A CN 101105793 A CN101105793 A CN 101105793A
Authority
CN
China
Prior art keywords
data
refresh
synchronous
refreshes
allocation list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200610090274XA
Other languages
English (en)
Other versions
CN100487700C (zh
Inventor
史健
樊亚飞
张金银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CNB200610090274XA priority Critical patent/CN100487700C/zh
Publication of CN101105793A publication Critical patent/CN101105793A/zh
Priority to HK08107424.3A priority patent/HK1112762A1/xx
Application granted granted Critical
Publication of CN100487700C publication Critical patent/CN100487700C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据仓库中的数据处理方法及系统,以解决单一进程处理需要花费大量时间和人力成本,以及无法及时处理ETL过程异常的问题。所述方法包括:设置数据同步配置表及数据刷新配置表;对应数据源配置信息,并行启动多个同步进程;对应刷新级别,并行启动多个刷新进程,对多个数据源同时顺次执行同步及刷新处理。还包括并行监控处理:定时检查同步刷新信息表,若发现异常,将异常信息记录到报警信息表。还包括并行报警处理:定时检查报警信息表,对应新的异常信息,立即发送相应报警信息。本发明提高了同步和刷新的效率,可以节省大量的时间和人力成本。实时监控方式保证了问题处理的及时性及数据仓库安全、合理、稳定的运行。

Description

数据仓库中的数据处理方法及系统
技术领域
本发明涉及数据仓库的数据处理,特别是涉及一种数据仓库联机分析处理(OLAP)系统数据抽取、转换及转载(ETL)过程的处理方法及系统。
背景技术
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合,也就是对所有应用系统,例如客户关系管理(CRM,Customer Relationship Management)系统、财务系统等,按主题进行集成,并记录整个历史变化情况。随着企业信息化程度的不断提高,企业内部积累了大量的业务数据,数据仓库系统用于对这些相互独立、分散的数据进行统一处理,以满足企业高层决策与分析需要。
参照图1,是数据仓库系统的体系结构框图。整个数据仓库系统是一个包含四个层次的体系结构,包括数据源101、数据仓库102、联机分析处理(OLAP,On-line Analytical Processing)系统103及前端工具104。其中:
数据源101,是数据仓库系统的基础,通常包括企业内部信息和外部信息。内部信息包括各种业务处理数据和各类文档数据,外部信息包括各类法律法规、市场信息和竞争对手的信息等。例如,CRM系统、财务系统等;
数据仓库102,是以数据表的结构存储所述数据源101的数据,每个数据表对应一个数据对象,一个数据源可以对应多个数据对象;
OLAP系统103,用于对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势;
前端工具104,主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库的应用开发工具,实现对所述数据仓库102的访问。其中,数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
数据仓库的ETL过程是指数据抽取(Extract)、转换(Transform)、装载(Load)的过程,是对OLAP系统开发的过程。其中,所述数据抽取指从源系统中提取数据;所述数据转换指开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总;所述数据装载指加载经转换和汇总的数据到目标数据仓库中。对源数据的抽取过程称为同步处理,对源数据的转换和装载过程称为刷新处理。
参照图2,现有技术中数据仓库OLAP系统ETL处理过程流程图,该模式是一种流水线型处理模式,包括ETL主模块、同步模块、刷新模块的功能调用。处理流程为:步骤201,每天通过定时触发器(Crontab)调用ETL主模块;步骤202,主模块再调用同步模块,等待数据源恢复(即等待数据源数据是否已准备好),逐一对已恢复的数据源进行同步操作,例如先同步CRM数据源数据,再同步财务数据源数据,而且每个数据源对应的多个数据对象的同步都采用单一进程执行;步骤203,同步模块完成后,再调用刷新模块,也是采用单一进程处理模式,逐个刷新各个数据表。所述同步及刷新过程完成对数据源数据的抽取、转换和装载处理。
建设数据仓库的作用在于满足企业高层决策与分析需要,为确保数据仓库分析数据的准确性,还设置了监控模块和报警模块,用于处理上述数据仓库OLAP系统ETL处理过程中出现的异常状况。对数据源数据完成同步及刷新处理后,执行:步骤204,刷新模块完成后,启动监控模块,检查同步刷新过程的目志记录是否异常;步骤205,监控模块检查出异常后,启动报警模块发送报警信息,提示ETL工程师,重新执行同步刷新处理。
上述处理方法中,针对每个数据源及数据对象的同步及刷新过程都采用单一进程处理方式,一个数据源同步完成后,再同步另一个数据源;一个数据表刷新完成后,再刷新另一个数据表。一方面,由于各个数据源的恢复时间点不同,单进程的处理方式不能及时同步数据,造成ETL过程处理时间超时,影响数据处理效率。另一方面,所述一个进程进行到底的串行方式,没有合理充分利用网络和服务器资源,在网络或服务器资源出现空闲时,ETL处理过程需要花费很多的时间,等待单进程的处理。
而且,随着公司业务的不断扩大和市场的快速变化,带来分析需求数据的高速增长,所需要的数据源和数据对象也会不断增加。所述单进程处理方式下,ETL过程新添加数据源或数据对象,需要修改程序。因此,针对不同的处理需求,所述方法将耗费大量的开发人力成本。
此外,在ETL处理过程中,同步、刷新、监控、报警四个模块的调用同样采用串行调度方式,因此对同步刷新过程的监控属于事后监控模式,会造成ETL过程异常问题得不到及时解决,以至于影响公司决策分析数据获取的及时性,从而也会影响数据仓库在客户中的影响力。
发明内容
本发明所要解决的技术问题是提供一种数据仓库OLAP系统数据ETL过程的处理方法及系统,以解决处理效率低下及网络和服务器资源没有合理利用的问题,以及程序修改的不便和无法及时处理ETL过程的异常问题。
为解决上述技术问题,本发明提供了数据仓库中的数据处理方法,包括:
设置包括数据源配置信息的数据同步配置表及数据刷新配置表;
对应所述数据源配置信息,并行启动多个同步进程,对多个数据源同时执行同步处理;
启动刷新进程,执行刷新处理。
优选的,对应每个同步进程,在该同步进程执行完毕,启动所述刷新进程。
其中,在所有同步进程执行完毕,启动所述刷新进程。
其中,按照下述步骤进行同步处理:对应所述数据源配置信息中的数据源个数,并行启动相应个数的同步等待进程;定时检查数据源是否恢复,若恢复则相应的同步等待进程并行启动多个同步进程。
优选的,按照下述步骤进行刷新处理:每个数据源包括至少一个数据对象,所述数据刷新配置表设置有刷新级别,对应所述刷新级别定义的数据对象个数,并行启动相应个数的刷新等待进程;定时检查数据对象的刷新执行条件是否符合,若符合则相应的刷新等待进程启动刷新进程。
其中,所述刷新执行条件包括:对应数据对象完成同步处理,以及调用所述数据对象的上一级数据对象完成刷新处理。
优选的,所述多个同步进程间或多个刷新进程间均采用优先级方式调用。
还包括:将处理过程信息记录到同步刷新信息表。
还包括并行监控处理:设置报警级别配置表;定时检查所述同步刷新信息表,若发现异常,对应所述报警级别配置表,将异常信息记录到报警信息表。
还包括并行报警处理:定时检查所述报警信息表,对应异常信息,立即发送相应报警信息。
本发明还提供了数据仓库中的数据处理系统,包括:
存储单元,用于存储包括数据源配置信息的数据同步配置表、包括刷新级别的数据刷新配置表、同步刷新信息表。
同步单元,用于读取所述数据同步配置表;对应所述数据源配置信息中的数据源个数,并行启动相应个数的同步等待进程;定时检查数据源是否恢复,若恢复则相应的同步等待进程并行启动多个同步进程。
刷新单元,用于读取所述数据刷新步配置表;每个数据源包括至少一个数据对象,对应所述刷新级别定义的数据对象个数,并行启动相应个数的刷新等待进程;定时检查数据对象的刷新执行条件是否符合,若符合则相应的刷新等待进程启动刷新进程。
其中,所述刷新执行条件包括:对应数据对象完成同步处理,以及调用所述数据对象的上一级数据对象完成刷新处理。
还包括:记录单元,用于将同步及刷新处理过程信息记录到所述同步刷新信息表。
其中,所述存储单元还存储报警级别配置表及报警信息表。
还包括:监控单元,用于读取所述报警级别配置表;定时检查同步刷新信息表,若发现异常,对应报警级别配置表,将异常信息记录到所述报警信息表。
还包括:报警单元,用于读取所述报警信息表;定时检查报警信息表,对应异常信息,立即发送相应报警信息。
与现有技术相比,本发明具有以下优点:
首先,本发明采用了多进程并发处理的方式,多进程对多数据源多数据对象并发启动同步、刷新处理:
第一,多数据源多进程同步等待处理,解决了多个数据源恢复时间点不同造成的数据源同步时间不一致问题,在某个数据源恢复完成后,等待进程会及时启动同步进程,既保证了数据处理时间,又为其他数据源处理节省了网络和服务器资源,达到网络和服务器资源的合理利用;
第二,多数据对象多进程同步及刷新,对同一数据源对应的多个数据对象或多个数据源的多个数据对象,同时进行同步或刷新操作,即同时同步到数据仓库,或对数据仓库中的多个数据表同时刷新处理,提高了同步和刷新的效率,从而节省大量的同步和刷新时间,为数据的增长提供了剩余时间资源,达到网络和服务器资源的最优化利用。
第三,同步、刷新进程并发启动,通过检查同步进程的完成情况及刷新进程间的调度执行关系,实现同一数据对象同步和刷新的调度,解决了数据的及时刷新问题,节省ETL过程刷新时间,提高了刷新效率;采用刷新优先级方式,实现数据对象间的刷新调度,解决了刷新对象与多维渐变维度的关联问题,渐变维度刷新进程完成后,启动关联数据对象的刷新进程,保证数据逻辑的准确性。
其次,本发明采用了可配置方式,同步、刷新、监控、报警处理都通过配置表配置方式,通过脚本调用同步配置表、刷新配置表、报警配置表,实现ETL的过程可配置化,减少人为干预程度及工程师编程的工作量,提高了ETL工程师开发的效率,节省了ETL过程开发所需要的人力成本,为数据仓库范围的扩大提供了剩余人力资源。
再次,本发明采用了实时监控方式,同时启动同步、刷新、监控、报警处理,对同步刷新过程采用实时监控模式,发现问题按问题等级及时通报数据仓库ETL工程师,保证了问题处理的及时性及数据仓库安全、合理、稳定的运行环境,保证了客户能及时、准确的得到分析性的数据,从而为数据仓库在客户心目中的地位提供了坚实的基础。
附图说明
图1是数据仓库系统的体系结构框图;
图2是现有技术中数据仓库OLAP系统ETL处理过程流程图;
图3是本发明所述数据仓库同步刷新过程的流程图;
图4是本发明优化数据仓库ETL处理过程的流程图;
图5是本发明实施例的处理流程图;
图6是本发明所述数据仓库ETL过程处理系统的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的核心思想是:通过设置数据同步配置表、数据刷新配置表,对数据仓库OLAP系统ETL过程采用多进程并行同步刷新方式,同步处理等待数据源恢复后,对多数据源启动多个同步进程;刷新处理根据同一数据对象的同步进程完成情况及数据对象的刷新调度关系,对多数据对象启动多个刷新进程;同时启动同步、刷新处理,同一数据对象完成同步处理后,及时进行刷新。通过设置报警级别配置表,并行启动监控处理及报警处理,对同步刷新过程的运行情况进行实时监控,并采用实时方式查看监控结果,发现异常情况立即通知ETL工程师,保证在最快的时间内通报同步刷新过程运行情况,保证数据仓库安全、稳定地运行。
参照图3,是本发明所述数据仓库同步刷新过程的流程图。
步骤301,设置数据同步配置表及数据刷新配置表。所述数据同步配置表,记录数据源配置信息、目的数据信息、同步级别、增量同步字段等,供同步处理调用。其中,数据源配置信息包括数据源包含的数据对象个数、各个数据对象对应的原始数据表名、数据源所在服务器、数据源链接信息等;目的数据信息包括目的数据对象个数、目的数据对象对应的数据表名等,是远程数据源在数据仓库的数据镜像信息,所述数据镜像是一个集成了来自不同数据库数据的环境,指远程数据源在数据仓库的备份,用于数据抽取、转换及装载。所述数据刷新配置表,记录刷新的过程名、刷新参数、刷新执行条件、刷新周期(如日、周执行周期)、刷新级别等,供刷新处理调用。
步骤302,启动数据仓库ETL主模块。数据仓库OLAP系统ETL过程是通过Shell脚本和结构化查询语言(SQL,Structured Quevy Language)脚本为主要开发脚本实现,主模块是通过Crontab启动主Shell脚本,主模块脚本用来启动同步、刷新处理脚本。
通过步骤302,ETL主模块同时启动同步、刷新处理。对于并行方式,可以有多种处理方式,如对应多个处理对象,同时启动相应个数的进程执行;还可以预先设置进程数,由少数几个并行进程来执行多个处理对象,等等。但对于数据仓库OLAP系统ETL过程的多进程处理,通常采用下述方式。下面对同步和刷新过程分别进行说明。所述同步处理的流程是:
步骤303,读取数据同步配置表。
步骤304,启动同步等待进程。根据所述配置表信息中记录的数据源个数,并行启动相应个数的同步等待进程。
步骤305,等待数据源是否恢复。所述数据源恢复指数据源镜像(Standby)服务器的恢复情况,数据仓库从所述镜像服务器获取数据,可以保证正式服务器的性能。在等待数据源恢复的过程中,同步等待进程起到监控数据源是否恢复的作用。所述同步等待进程定时检查一次数据源Standby服务器恢复情况,定时时间一般为5分钟。若恢复,继续执行步骤306,否则等待下一定时时间点的到来。
由于数据源的恢复时间点不同,并行启动多个同步等待进程的方式,能够及时处理已恢复的数据源;而且,在同步过程中多个数据源的并行处理,能够节省处理时间,又为其他数据源处理节省了网络和服务器资源,达到网络和服务器资源的合理利用。
步骤306,启动同步进程。若数据源Standby服务器恢复完成后,则相应的同步等待进程并行启动多个同步进程,根据数据同步配置表信息,将数据抽取到操作数据存储(ODS,Operation Data Storage)。所述ODS又称数据镜像,是一个集成了来自不同数据库数据的环境。通常,每个数据源对应多个数据对象,因此并行启动多个同步进程来处理多个数据对象的同步。但是,同步进程的个数是根据网络和服务器资源的使用情况来分配的,并不与数据对象的个数一一对应。因此,在数据同步配置表中定义了同步进程的同步级别,用于保证网络带宽,避免达到网络瓶颈,还可以自由调整同步的并行度。例如,同一数据源对应的8个数据对象,通过配置同步级别,先并行执行4个同步进程,再并行执行剩余的4个同步进程,多个同步进程按照优先级先后顺序执行,减轻服务器压力,合理、充分地利用网络和服务器资源。
在ETL过程中,从不同角度对数据源的抽取称为数据的变化维度。例如,某个数据对象对应的数据表定义了4个字段,即从4个不同角度抽取数据,若增加一个字段,则数据的维度变化,为增量式变化。所述数据同步配置表中定义的增量同步字段即为数据源数据对象的变化纬度,在同步处理中,根据所述增量同步字段信息,将增量数据同步到数据仓库。由于数据仓库中每天同步变化的数据很多,减少同步的数据量,可以提高同步效率。因此,采用数据源的多进程处理方式,多个数据对象同时同步到数据仓库,提高了同步处理的效率,从而节省大量的同步时间,为数据的增长提供了剩余时间资源,达到网络和服务器资源的最优化利用。
步骤307,记录同步过程信息。在同步处理中,同时将同步的运行过程信息记录到同步刷新信息表(Promsg),为用户提供一致的企业数据集成视图。所述同步刷新信息表记录了完成同步时间或异常时间、异常原因等信息。所述过程与系统日志记录的功能相似,便于对同步过程的数据分析,也便于根据用户的不同需求为用户提供不同的过程信息。
上述同步处理过程中,多数据源及多数据对象并行多进程处理,解决了数据源恢复时间点不一致问题,提高了同步处理的效率。对于同一数据源数据对象,完成同步处理后,进入刷新过程,即数据的转换和装载过程。所述刷新处理流程为:
步骤308,读取数据刷新配置表。
步骤309,启动刷新等待进程。根据所述配置表记录的刷新级别,并行启动多个数据对象对应的刷新等待进程。例如,有8个数据对象对应的数据表需要刷新,刷新优先级顺序为先刷新3个数据表,再刷新5个数据表,因此在第一级刷新中启动3个刷新等待进程,在第二级刷新中启动5个刷新等待进程。所述刷新级别的目的是:
第一,由于采用多进程并行刷新方式,具有逻辑关系的数据表需要进行先后次序的调度刷新,定义的刷新优先级解决了刷新对象与多维渐变维度的关联问题。所述多维渐变维度指数据的维度(即数据表包含的字段)是变化的,在ETL过程中,由于一些维度属性维度数据需要保留历史轨迹,所以在刷新数据表时,对数据采用缓慢渐变维的方式记录历史,会在数据表中增加唯一标识记录历史状态。所述刷新对象与多维渐变维度的关联问题指具有关联的上下级数据表间的调度,只有上一层级的数据表完成刷新后,才能对下一层级的数据表进行刷新。多维渐变维采用缓慢变化维的方式,渐变维度刷新进程完成后,再启动关联对象刷新进程,保证数据逻辑的准确性。
第二,通过自由调整刷新并行度,能够合理利用和服务器硬件资源,避免达到服务器IO运行瓶颈。
步骤310,检查刷新执行条件是否符合。所述刷新执行条件定义在数据刷新配置表中,包括:第一,刷新对象的同步处理完成;第二,调度所述刷新对象的上一级数据对象完成刷新处理。所述刷新等待进程起到监控刷新执行条件是否符合的作用,按照刷新周期定时检查,当刷新对象同时满足上述两个条件时,继续执行步骤311,否则等待下一个刷新周期。
步骤311,启动刷新进程。当刷新对象符合刷新执行条件时,刷新等待进程启动刷新进程,完成数据表的刷新。同样,多进程刷新能够节省刷新处理时间,提高刷新效率,合理利用网络和服务器资源。
步骤312,记录刷新过程信息。在刷新处理中,同时将同步的运行过程信息记录到同步刷新信息表(Promsg)。所述同步刷新信息表记录了完成刷新时间或异常时间、异常原因等信息。同样,这也是一个类似日志记录的过程。
下面举例说明刷新处理的过程。例如:刷新处理启动产品信息表(Offer表)的刷新等待进程,每隔3分钟对以下条件做检查:等待进程首先检查Offer表同步是否完成,再检查Offer表的调度表会员信息(Member表)表刷新是否完成。在确认以上两个条件符合的情况下,启动执行Offer表的刷新过程,并同时把刷新的运行情况信息记录到同步刷新信息表(Promsg)。
在上述多进程同步及刷新处理过程中,若同步处理和刷新处理仍按照串行方式(即所有数据源完成同步过程后,再进行刷新),在同步过程中,多数据源多数据对象同时同步到数据仓库;在刷新过程中,多数据源数据对象同时刷新,都提高了同步及刷新过程的效率。在所述串行处理方式下,步骤310只需判断刷新执行条件二,因为刷新处理前所有的同步处理已完成,所以不用判断条件一。
但是,由于采用配置表的方式实现了每个过程的多进程处理,由此可以方便地实现同步与刷新的并行处理,即主模块同时启动同步和刷新处理脚本,对应每个同步进程,若该同步进程执行完毕后,启动刷新进程。这种优化方法下,步骤310需要检查刷新执行条件一和二,当同时符合时,启动刷新进程,实现同步对象和刷新对象的调度。所述调度可以实现数据对象的及时刷新,节省ETL过程刷新时间,提高刷新效率。本发明实现了多个数据源多个数据对象的同步刷新并行处理,但对于同一个数据源数据对象,仍顺次执行同步、刷新处理。
上述的同步及刷新处理完成了对数据源数据的抽取、转换和装载过程,为保证数据仓库ETL过程的安全稳定运行,在并行启动同步、刷新处理的同时,还并行启动监控及报警处理,对同步刷新过程进行实时监控。参照图4,是本发明优化数据仓库ETL处理过程的流程图。
步骤401,设置数据同步配置表,数据刷新配置表,报警级别配置表。所述数据同步配置表包括数据源配置信息、目的数据信息、同步级别、增量同步字段及同步报警级别等,所述数据刷新配置表包括刷新的过程名、刷新参数、刷新执行条件、刷新周期(如日、周执行周期)、刷新级别及刷新报警级别等,所述报警级别配置表包括报警级别分配信息、报警接收人等。所述报警级别配置表中记录的报警级别分配信息是根据异常等级,如立即、几小时后、几点发送报警,划分报警级别。例如,级别1对应立即发送,级别2对应2小时后发送,等等。所述报警接收人根据维护ETL各模块工程师的不同设置。本步骤中,在数据同步配置表及数据刷新配置表中增加了同步报警级别和刷新报警级别信息。所述同步报警级别和刷新报警级别分别对应报警级别分配信息,记录每次发送报警对应的报警级别。例如,同步过程1出现异常发送级别2的报警,刷新过程3出现异常发送级别1的报警,等等。
步骤402,启动数据仓库ETL主模块。
步骤403,ETL主模块同时启动同步、刷新、监控、报警处理。同步及刷新处理过程同前所述,监控进程对此同步刷新过程进行实时监控,定时检查同步刷新信息表。若发现异常信息,根据报警级别配置表及同步、刷新报警级别信息,记录异常信息到报警信息表,并每天记录ETL过程完成信息到报警信息表,保证数据仓库ETL过程能安全、稳定、合理地运行。其中,所述异常信息包括报警发送时间、报警接收人、报警信息等,所述报警信息表用于报警处理;所述定时检查的时间间隔一般为5分钟。对应不同的处理过程,可以设置不同报警信息加以区别。
并行启动的报警处理实时发送ETL过程的异常信息,定时检查所述报警信息表,通常每5分钟检查一次。若发现异常信息,根据报警发送时间,立即向报警接收人发送相应报警信息,通知ETL工程师,保证及时地处理ETL过程的异常问题,为数据的及时性奠定了基础。同时,还将完成信息发送,通知ETL工程师整个ETL过程的结束情况。
所述同步、刷新、监控、报警的并行处理,发现问题按问题等级及时通报数据仓库ETL工程师,保证了问题处理的及时性及数据仓库安全、合理、稳定的运行环境,保证了客户能及时、准确的得到分析性的数据,从而为数据仓库在客户心目中的地位提供了坚实的基础。
本发明采用了可配置方式,同步、刷新、监控、报警处理都通过配置表配置方式,通过脚本调用同步配置表、刷新配置表、报警配置表,实现ETL的过程可配置化,减少人为干预程度及工程师编程的工作量,提高了ETL工程师开发的效率,节省了ETL过程开发所需要的人力成本,为数据仓库范围的扩大提供了剩余人力资源。
为更加清楚地说明本发明的核心内容,现列举具体实例进行说明。参照图5,是本发明实施例的处理流程图。
步骤501,设置同步配置表,刷新配置表,报警配置表。在所述处理过程中,数据源个数为3,数据源1对应A、B、C、D四个数据表,数据源2和数据源3也分别对应多个数据表。
步骤502,启动数据仓库ETL主模块。
步骤503,ETL主模块同时启动同步、刷新、监控、报警处理。
步骤504,启动同步等待进程和刷新等待进程。根据配置表记录的3个数据源信息,并行启动源数据库1、源数据库2、源数据库3的同步等待进程;根据刷新对象个数,并行启动表A、B、D的刷新等待进程。
步骤505,启动同步进程,对应源数据库1同步等待进程,按照同步级别及数据源的恢复情况,先并行启动2个同步进程,对表A和表C进行同步处理,而表B和表D的同步等待下一级别的调用。
启动刷新进程。表A完成同步处理,当表A没有上一级的关联调度时,立即启动表A刷新进程。而表A的下一级关联调度表B和表D,需要等待表A刷新完成。
步骤506,根据同步级别,表B和表D等待同步处理;根据刷新级别,表B和表D等待刷新处理。
监控和报警进程对上述同步刷新过程进行实时监控和实时报警处理。
本发明还提供了数据仓库中的数据处理系统。参照图6,是本发明所述数据仓库ETL过程处理系统的结构框图。所述系统包括存储单元601、主单元602、同步单元603、刷新单元604、监控单元605、报警单元606及记录单元607。其中,
存储单元601,用于存储数据同步配置表、数据刷新配置表、报警级别配置表、同步刷新信息表、报警信息表。所述数据同步配置表包括数据源配置信息、目的数据信息、同步级别、增量同步字段及同步报警级别等,所述数据刷新配置表包括刷新的过程名、刷新参数、刷新执行条件、刷新周期(如日、周执行周期)、刷新级别及刷新报警级别等,所述报警级别配置表包括报警级别分配信息、报警接收人等。所述同步刷新信息表记录同步、刷新的运行过程信息,包括完成同步或刷新时间、异常时间、异常原因等。所述报警信息表记录同步、刷新过程的异常信息及完成信息等,所述所述异常信息包括报警发送时间、报警接收人、报警信息等。
主单元602,用于通过Crontab(操作每个用户的守护程序和该执行的时间表)启动主Shell脚本,调用所述同步单元、刷新单元、监控单元、报警单元及记录单元。
同步单元603,用于读取所述数据同步配置表;对应数据同步配置表记录的数据源个数,并行启动相应个数的同步等待进程;定时检查数据源是否恢复,若恢复则相应的同步等待进程并行启动多个同步进程。
刷新单元604,用于读取所述数据刷新步配置表;每个数据源包括至少一个数据对象,对应刷新级别定义的数据对象个数,并行启动相应个数的刷新等待进程;定时检查数据对象的刷新执行条件是否符合,若符合则相应的刷新等待进程启动刷新进程。所述刷新执行条件包括,第一为对应数据对象完成同步处理,第二为调用所述数据对象的上一级数据对象完成刷新处理;若同时检查所述两个条件,则并行调用所述刷新单元与同步单元;若只检查第二个条件,则串行调用所述刷新单元与同步单元。
监控单元605,用于读取所述报警级别配置表;定时检查同步刷新信息表,若发现异常,对应报警级别配置表,将异常信息记录到所述报警信息表;每天记录ETL过程完成信息到报警信息表。所述所述异常信息包括报警发送时间、报警接收人、报警信息等。
报警单元606,用于读取所述报警信息表;定时检查报警信息表,对应新的异常信息,根据报警发送时间,立即发送相应报警信息,通知ETL工程师,保证及时地处理ETL过程的异常问题;还将完成信息发送,通知ETL工程师整个ETL过程的结束情况。
记录单元607,用于将同步及刷新处理过程信息记录到所述同步刷新信息表。
上述数据仓库数据抽取、转换、装载过程的处理系统,实现了多数据源多数据对象的同步刷新处理,主单元同时调用同步单元、刷新单元、监控单元、报警单元及记录单元,能够及时处理数据的同步刷新过程,提高了同步刷新效率,既保证了数据处理时间,又为其他数据源处理节省了网络和服务器资源,达到网络和服务器资源的合理利用。监控单元及报警单元对同步刷新过程采用实时监控,发现问题按问题等级及时通报数据仓库ETL工程师,保证了问题处理的及时性及数据仓库安全、合理、稳定的运行环境。本发明还实现了可配置方式,同步、刷新、监控、报警单元都通过读取配置表获取相关配置信息,通过脚本调用同步配置表、刷新配置表、报警配置表,实现ETL的过程可配置化,减少人为干预程度及工程师编程的工作量,提高了ETL工程师开发的效率,节省了ETL过程开发所需要的人力成本,为数据仓库范围的扩大提供了剩余人力资源。
以上对本发明所提供的数据仓库中的数据处理方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.数据仓库中的数据处理方法,其特征在于,包括:
设置包括数据源配置信息的数据同步配置表及数据刷新配置表;
对应所述数据源配置信息,并行启动多个同步进程,对多个数据源同时执行同步处理;
启动刷新进程,执行刷新处理。
2.根据权利要求1所述的方法,其特征在于:对应每个同步进程,在该同步进程执行完毕,启动所述刷新进程。
3.根据权利要求1所述的方法,其特征在于:在所有同步进程执行完毕,启动所述刷新进程。
4.根据权利要求1所述的方法,其特征在于,按照下述步骤进行同步处理:
对应所述数据源配置信息中的数据源个数,并行启动相应个数的同步等待进程;
定时检查数据源是否恢复,若恢复则相应的同步等待进程并行启动多个同步进程。
5.根据权利要求2所述的方法,其特征在于,按照下述步骤进行刷新处理:
每个数据源包括至少一个数据对象,所述数据刷新配置表设置有刷新级别,对应所述刷新级别定义的数据对象个数,并行启动相应个数的刷新等待进程;
定时检查数据对象的刷新执行条件是否符合,若符合则相应的刷新等待进程启动刷新进程。
6.根据权利要求5所述的方法,其特征在于,所述刷新执行条件包括:对应数据对象完成同步处理,以及调用所述数据对象的上一级数据对象完成刷新处理。
7.根据权利要求1或2所述的方法,其特征在于:所述多个同步进程间或多个刷新进程间均采用优先级方式调用。
8.根据权利要求1所述的方法,其特征在于,还包括:将同步及刷新处理过程信息记录到同步刷新信息表。
9.根据权利要求8所述的方法,其特征在于,还包括并行监控处理:
设置报警级别配置表;
定时检查所述同步刷新信息表,若发现异常,对应所述报警级别配置表,将异常信息记录到报警信息表。
10.根据权利要求9所述的方法,其特征在于,还包括并行报警处理:定时检查所述报警信息表,对应异常信息,立即发送相应报警信息。
11.数据仓库中的数据处理系统,其特征在于,包括:
存储单元,用于存储包括数据源配置信息的数据同步配置表、包括刷新级别的数据刷新配置表、同步刷新信息表。
同步单元,用于读取所述数据同步配置表;对应所述数据源配置信息中的数据源个数,并行启动相应个数的同步等待进程;定时检查数据源是否恢复,若恢复则相应的同步等待进程并行启动多个同步进程。
刷新单元,用于读取所述数据刷新步配置表;每个数据源包括至少一个数据对象,对应所述刷新级别定义的数据对象个数,并行启动相应个数的刷新等待进程;定时检查数据对象的刷新执行条件是否符合,若符合则相应的刷新等待进程启动刷新进程。
12.根据权利要求11所述的系统,其特征在于,所述刷新执行条件包括:对应数据对象完成同步处理,以及调用所述数据对象的上一级数据对象完成刷新处理。
13.根据权利要求11所述的系统,其特征在于,还包括:记录单元,用于将同步及刷新处理过程信息记录到所述同步刷新信息表。
14.根据权利要求11所述的系统,其特征在于:所述存储单元还存储报警级别配置表及报警信息表。
15.根据权利要求14所述的系统,其特征在于,还包括:
监控单元,用于读取所述报警级别配置表;定时检查同步刷新信息表,若发现异常,对应报警级别配置表,将异常信息记录到所述报警信息表。
16.根据权利要求15所述的系统,其特征在于,还包括:
报警单元,用于读取所述报警信息表;定时检查报警信息表,对应异常信息,立即发送相应报警信息。
CNB200610090274XA 2006-07-11 2006-07-11 数据仓库中的数据处理方法及系统 Expired - Fee Related CN100487700C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB200610090274XA CN100487700C (zh) 2006-07-11 2006-07-11 数据仓库中的数据处理方法及系统
HK08107424.3A HK1112762A1 (en) 2006-07-11 2008-07-07 Method and system for data processing in data warehouse

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200610090274XA CN100487700C (zh) 2006-07-11 2006-07-11 数据仓库中的数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN101105793A true CN101105793A (zh) 2008-01-16
CN100487700C CN100487700C (zh) 2009-05-13

Family

ID=38999691

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200610090274XA Expired - Fee Related CN100487700C (zh) 2006-07-11 2006-07-11 数据仓库中的数据处理方法及系统

Country Status (2)

Country Link
CN (1) CN100487700C (zh)
HK (1) HK1112762A1 (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009103212A1 (zh) * 2008-02-18 2009-08-27 华为技术有限公司 一种数据同步的方法、系统和装置
CN101882165A (zh) * 2010-08-02 2010-11-10 山东中创软件工程股份有限公司 基于etl的多线程数据处理方法
CN101388038B (zh) * 2008-10-28 2011-01-05 杭州华三通信技术有限公司 数据抽取、转换和加载的执行方法和装置
CN102096857A (zh) * 2010-12-27 2011-06-15 大唐软件技术股份有限公司 一种数据处理过程的协同方法和装置
CN102279886A (zh) * 2011-08-16 2011-12-14 中国民生银行股份有限公司 元数据处理方法及设备
CN102339288A (zh) * 2010-07-21 2012-02-01 中国移动通信集团辽宁有限公司 数据仓库异常数据的检测方法及装置
CN102411599A (zh) * 2011-08-01 2012-04-11 中国民生银行股份有限公司 数据仓库中异常行为的处理方法及监测服务器
CN102497353A (zh) * 2011-10-28 2012-06-13 深圳第七大道科技有限公司 多服务器分布式数据处理方法、服务器及系统
CN102915303A (zh) * 2011-08-01 2013-02-06 阿里巴巴集团控股有限公司 一种etl测试的方法和装置
CN102063439B (zh) * 2009-11-18 2013-03-06 南京南瑞继保电气有限公司 内存数据库在线装载方法
CN103186624A (zh) * 2011-12-31 2013-07-03 北京亿阳信通科技有限公司 一种数据同步方法和数据同步装置
CN103365758A (zh) * 2013-08-05 2013-10-23 北京搜狐新媒体信息技术有限公司 一种虚拟化环境下的进程监控方法及系统
CN104462082A (zh) * 2013-09-12 2015-03-25 深圳中科金证科技有限公司 一种基于数据仓库的医疗数据整合方法及系统
CN104519103A (zh) * 2013-09-30 2015-04-15 腾讯科技(北京)有限公司 网络数据的同步处理方法、服务器及相关系统
CN104866487A (zh) * 2014-02-24 2015-08-26 阿里巴巴集团控股有限公司 一种宽表刷新的方法和装置
CN104866619A (zh) * 2015-06-09 2015-08-26 北京京东尚科信息技术有限公司 数据仓库的数据监控方法和系统
CN105607983A (zh) * 2015-11-09 2016-05-25 北京京东尚科信息技术有限公司 数据异常监控方法和装置
CN105718468A (zh) * 2014-12-02 2016-06-29 阿里巴巴集团控股有限公司 一种数据仓库ods层的建立方法和装置
CN106202580A (zh) * 2016-08-29 2016-12-07 江苏数加数据科技有限责任公司 基于etl数据仓库技术实现的双公示生产数据采集系统
CN106777180A (zh) * 2016-12-22 2017-05-31 北京京东金融科技控股有限公司 高性能分布式数据转换的方法、装置及系统
CN107015848A (zh) * 2016-01-21 2017-08-04 罗伯特·博世有限公司 用于监视和操控事件导向的操作系统中的准并行的实施线程的方法和设备
CN107302469A (zh) * 2016-04-14 2017-10-27 北京京东尚科信息技术有限公司 针对分布式服务集群系统数据更新的实时监控装置及方法
CN107402804A (zh) * 2017-07-31 2017-11-28 广东欧珀移动通信有限公司 后台进程管控方法、装置、存储介质及电子设备
CN107784026A (zh) * 2016-08-31 2018-03-09 杭州海康威视数字技术股份有限公司 一种etl数据处理方法及装置
CN108509603A (zh) * 2018-04-02 2018-09-07 焦点科技股份有限公司 一种数据仓库的自适应动态调度方法及系统
CN108595552A (zh) * 2018-04-10 2018-09-28 平安科技(深圳)有限公司 数据立方体发布方法、装置、电子设备和存储介质
CN108595264A (zh) * 2018-04-10 2018-09-28 平安科技(深圳)有限公司 刷新任务分配方法、电子设备及计算机可读存储介质
WO2019000629A1 (zh) * 2017-06-25 2019-01-03 平安科技(深圳)有限公司 多数据源数据同步方法、系统、应用服务器及计算机可读存储介质
CN109241033A (zh) * 2018-08-21 2019-01-18 北京京东尚科信息技术有限公司 创建实时数据仓库的方法和装置
CN109408146A (zh) * 2018-10-19 2019-03-01 郑州云海信息技术有限公司 一种处理现场可更换单元fru参数的方法及装置
CN109492018A (zh) * 2018-09-12 2019-03-19 武汉达梦数据库有限公司 一种数据同步系统自适应动态调整方法和装置
CN109726198A (zh) * 2018-12-06 2019-05-07 中科恒运股份有限公司 异常数据处理方法及装置
CN110213207A (zh) * 2018-05-07 2019-09-06 腾讯科技(深圳)有限公司 一种基于日志分析的网络安全防御方法及设备
CN111881066A (zh) * 2020-07-28 2020-11-03 北京浪潮数据技术有限公司 一种pl反向元数据的存储方法、系统、设备及存储介质
CN112416896A (zh) * 2020-11-17 2021-02-26 珠海格力电器股份有限公司 数据异常的报警方法和装置、存储介质、电子装置
CN112579648A (zh) * 2020-12-23 2021-03-30 赛尔网络有限公司 用于企业的数据处理系统、方法、设备及介质
CN113553313A (zh) * 2018-07-10 2021-10-26 创新先进技术有限公司 一种数据迁移方法及系统、存储介质、电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108248641A (zh) * 2017-12-06 2018-07-06 中国铁道科学研究院电子计算技术研究所 一种城市轨道交通数据处理方法及装置

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101516131B (zh) * 2008-02-18 2012-04-04 华为技术有限公司 一种数据同步的方法、系统和装置
WO2009103212A1 (zh) * 2008-02-18 2009-08-27 华为技术有限公司 一种数据同步的方法、系统和装置
CN101388038B (zh) * 2008-10-28 2011-01-05 杭州华三通信技术有限公司 数据抽取、转换和加载的执行方法和装置
CN102063439B (zh) * 2009-11-18 2013-03-06 南京南瑞继保电气有限公司 内存数据库在线装载方法
CN102339288B (zh) * 2010-07-21 2013-09-25 中国移动通信集团辽宁有限公司 数据仓库异常数据的检测方法及装置
CN102339288A (zh) * 2010-07-21 2012-02-01 中国移动通信集团辽宁有限公司 数据仓库异常数据的检测方法及装置
CN101882165A (zh) * 2010-08-02 2010-11-10 山东中创软件工程股份有限公司 基于etl的多线程数据处理方法
CN101882165B (zh) * 2010-08-02 2012-06-27 山东中创软件工程股份有限公司 基于etl的多线程数据处理方法
CN102096857B (zh) * 2010-12-27 2013-05-29 大唐软件技术股份有限公司 一种数据处理过程的协同方法和装置
CN102096857A (zh) * 2010-12-27 2011-06-15 大唐软件技术股份有限公司 一种数据处理过程的协同方法和装置
CN102915303A (zh) * 2011-08-01 2013-02-06 阿里巴巴集团控股有限公司 一种etl测试的方法和装置
CN102411599A (zh) * 2011-08-01 2012-04-11 中国民生银行股份有限公司 数据仓库中异常行为的处理方法及监测服务器
CN102915303B (zh) * 2011-08-01 2016-04-20 阿里巴巴集团控股有限公司 一种etl测试的方法和装置
CN102279886A (zh) * 2011-08-16 2011-12-14 中国民生银行股份有限公司 元数据处理方法及设备
CN102279886B (zh) * 2011-08-16 2012-10-17 中国民生银行股份有限公司 元数据处理方法及设备
CN102497353A (zh) * 2011-10-28 2012-06-13 深圳第七大道科技有限公司 多服务器分布式数据处理方法、服务器及系统
CN102497353B (zh) * 2011-10-28 2015-08-26 深圳第七大道网络技术有限公司 多服务器分布式数据处理方法、服务器及系统
CN103186624A (zh) * 2011-12-31 2013-07-03 北京亿阳信通科技有限公司 一种数据同步方法和数据同步装置
CN103186624B (zh) * 2011-12-31 2017-10-20 亿阳信通股份有限公司 一种数据同步方法和数据同步装置
CN103365758A (zh) * 2013-08-05 2013-10-23 北京搜狐新媒体信息技术有限公司 一种虚拟化环境下的进程监控方法及系统
CN103365758B (zh) * 2013-08-05 2016-03-16 北京搜狐新媒体信息技术有限公司 一种虚拟化环境下的进程监控方法及系统
CN104462082B (zh) * 2013-09-12 2017-11-17 深圳中科金证科技有限公司 一种基于数据仓库的医疗数据整合方法及系统
CN104462082A (zh) * 2013-09-12 2015-03-25 深圳中科金证科技有限公司 一种基于数据仓库的医疗数据整合方法及系统
CN104519103A (zh) * 2013-09-30 2015-04-15 腾讯科技(北京)有限公司 网络数据的同步处理方法、服务器及相关系统
CN104519103B (zh) * 2013-09-30 2018-10-26 腾讯科技(北京)有限公司 网络数据的同步处理方法、服务器及相关系统
CN104866487B (zh) * 2014-02-24 2018-08-03 阿里巴巴集团控股有限公司 一种宽表刷新的方法和装置
CN104866487A (zh) * 2014-02-24 2015-08-26 阿里巴巴集团控股有限公司 一种宽表刷新的方法和装置
CN105718468A (zh) * 2014-12-02 2016-06-29 阿里巴巴集团控股有限公司 一种数据仓库ods层的建立方法和装置
CN104866619A (zh) * 2015-06-09 2015-08-26 北京京东尚科信息技术有限公司 数据仓库的数据监控方法和系统
CN105607983A (zh) * 2015-11-09 2016-05-25 北京京东尚科信息技术有限公司 数据异常监控方法和装置
CN105607983B (zh) * 2015-11-09 2018-08-10 北京京东尚科信息技术有限公司 数据异常监控方法和装置
CN107015848B (zh) * 2016-01-21 2022-05-27 罗伯特·博世有限公司 用于监视操作系统中的准并行的实施线程的方法和设备
CN107015848A (zh) * 2016-01-21 2017-08-04 罗伯特·博世有限公司 用于监视和操控事件导向的操作系统中的准并行的实施线程的方法和设备
CN107302469B (zh) * 2016-04-14 2020-03-31 北京京东尚科信息技术有限公司 分布式服务集群系统数据更新的监控装置及方法
CN107302469A (zh) * 2016-04-14 2017-10-27 北京京东尚科信息技术有限公司 针对分布式服务集群系统数据更新的实时监控装置及方法
CN106202580A (zh) * 2016-08-29 2016-12-07 江苏数加数据科技有限责任公司 基于etl数据仓库技术实现的双公示生产数据采集系统
CN107784026A (zh) * 2016-08-31 2018-03-09 杭州海康威视数字技术股份有限公司 一种etl数据处理方法及装置
CN107784026B (zh) * 2016-08-31 2021-08-20 杭州海康威视数字技术股份有限公司 一种etl数据处理方法及装置
CN106777180A (zh) * 2016-12-22 2017-05-31 北京京东金融科技控股有限公司 高性能分布式数据转换的方法、装置及系统
CN106777180B (zh) * 2016-12-22 2020-09-01 北京京东金融科技控股有限公司 高性能分布式数据转换的方法、装置及系统
WO2019000629A1 (zh) * 2017-06-25 2019-01-03 平安科技(深圳)有限公司 多数据源数据同步方法、系统、应用服务器及计算机可读存储介质
CN107402804B (zh) * 2017-07-31 2019-12-10 Oppo广东移动通信有限公司 后台进程管控方法、装置、存储介质及电子设备
CN107402804A (zh) * 2017-07-31 2017-11-28 广东欧珀移动通信有限公司 后台进程管控方法、装置、存储介质及电子设备
CN108509603B (zh) * 2018-04-02 2019-01-29 焦点科技股份有限公司 一种数据仓库的自适应动态调度方法及系统
CN108509603A (zh) * 2018-04-02 2018-09-07 焦点科技股份有限公司 一种数据仓库的自适应动态调度方法及系统
CN108595264A (zh) * 2018-04-10 2018-09-28 平安科技(深圳)有限公司 刷新任务分配方法、电子设备及计算机可读存储介质
CN108595552A (zh) * 2018-04-10 2018-09-28 平安科技(深圳)有限公司 数据立方体发布方法、装置、电子设备和存储介质
WO2019196277A1 (zh) * 2018-04-10 2019-10-17 平安科技(深圳)有限公司 刷新任务分配方法、电子设备及存储介质
CN110213207A (zh) * 2018-05-07 2019-09-06 腾讯科技(深圳)有限公司 一种基于日志分析的网络安全防御方法及设备
CN110213207B (zh) * 2018-05-07 2021-12-28 腾讯科技(深圳)有限公司 一种基于日志分析的网络安全防御方法及设备
CN113553313A (zh) * 2018-07-10 2021-10-26 创新先进技术有限公司 一种数据迁移方法及系统、存储介质、电子设备
CN113553313B (zh) * 2018-07-10 2023-12-05 创新先进技术有限公司 一种数据迁移方法及系统、存储介质、电子设备
CN109241033A (zh) * 2018-08-21 2019-01-18 北京京东尚科信息技术有限公司 创建实时数据仓库的方法和装置
CN109492018A (zh) * 2018-09-12 2019-03-19 武汉达梦数据库有限公司 一种数据同步系统自适应动态调整方法和装置
CN109492018B (zh) * 2018-09-12 2020-12-22 武汉达梦数据库股份有限公司 一种数据同步系统自适应动态调整方法和装置
CN109408146A (zh) * 2018-10-19 2019-03-01 郑州云海信息技术有限公司 一种处理现场可更换单元fru参数的方法及装置
CN109726198A (zh) * 2018-12-06 2019-05-07 中科恒运股份有限公司 异常数据处理方法及装置
CN111881066A (zh) * 2020-07-28 2020-11-03 北京浪潮数据技术有限公司 一种pl反向元数据的存储方法、系统、设备及存储介质
CN111881066B (zh) * 2020-07-28 2022-07-05 北京浪潮数据技术有限公司 一种pl反向元数据的存储方法、系统、设备及存储介质
CN112416896A (zh) * 2020-11-17 2021-02-26 珠海格力电器股份有限公司 数据异常的报警方法和装置、存储介质、电子装置
CN112579648A (zh) * 2020-12-23 2021-03-30 赛尔网络有限公司 用于企业的数据处理系统、方法、设备及介质

Also Published As

Publication number Publication date
HK1112762A1 (en) 2008-09-12
CN100487700C (zh) 2009-05-13

Similar Documents

Publication Publication Date Title
CN100487700C (zh) 数据仓库中的数据处理方法及系统
US8938421B2 (en) Method and a system for synchronizing data
CN1959717B (zh) 订单驱动的海量遥感数据集群化预处理系统及其方法
US9002777B1 (en) Systems and methods for handling data
EP2474919B1 (en) System and method for data replication between heterogeneous databases
CN103460208A (zh) 用于将数据加载到时态数据仓库的方法和系统
US20190370264A1 (en) Scientific computing process management system
CN111506556A (zh) 一种多源异构的结构化数据同步方法
CN113179173B (zh) 一种用于高速公路系统的运维监控系统
CN102508833A (zh) 数据监控装置及方法
CN111913933B (zh) 基于统一支撑平台的电网历史数据管理方法及系统
CN112181940A (zh) 全国工商大数据处理系统的构建方法
CN112100227A (zh) 一种基于多级异构数据存储的大数据处理方法
CN116842055A (zh) 用于物联网数据批流一体处理的系统及方法
CN110262945A (zh) 一种智能监控数据仓库调度系统的方法
CN111538720B (zh) 电力行业基础数据清理的方法及系统
CN116795816A (zh) 一种基于流式处理的数仓建设方法和系统
CN112052284A (zh) 一种大数据下的主数据管理方法及系统
CN108900497B (zh) 一种异构系统间的数据同步方法及系统
CN112581080A (zh) 一种轻量级的分布式工作流引擎构建系统
Wu et al. Scene-Based Data Management Method for Power System Using Snapshot Technology
CN115689788A (zh) 一种财务数据分析方法
CN116644039B (zh) 一种基于大数据的在线能力运营日志自动采集分析的方法
CN111198870B (zh) 一种过程装备的建模方法及系统
CN117032950A (zh) 基于日志的实时数据透传方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1112762

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1112762

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090513

Termination date: 20200711