CN104298760A - 一种应用于数据仓库的数据处理方法和数据处理装置 - Google Patents

一种应用于数据仓库的数据处理方法和数据处理装置 Download PDF

Info

Publication number
CN104298760A
CN104298760A CN201410568558.XA CN201410568558A CN104298760A CN 104298760 A CN104298760 A CN 104298760A CN 201410568558 A CN201410568558 A CN 201410568558A CN 104298760 A CN104298760 A CN 104298760A
Authority
CN
China
Prior art keywords
data
database
tables
record
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410568558.XA
Other languages
English (en)
Other versions
CN104298760B (zh
Inventor
刘羽
刘彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong three hundred and sixty degree e-commerce Co., Ltd.
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201410568558.XA priority Critical patent/CN104298760B/zh
Publication of CN104298760A publication Critical patent/CN104298760A/zh
Application granted granted Critical
Publication of CN104298760B publication Critical patent/CN104298760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2308Concurrency control
    • G06F16/2315Optimistic concurrency control
    • G06F16/2329Optimistic concurrency control using versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种应用于数据仓库的数据处理方法和数据处理装置,能够提高数据仓库中的数据的时效性。本发明的应用于数据仓库的数据处理方法包括:在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修改后的记录另行保存到键值数据库中;从所述键值数据库中取出最新的条目,将该条目追加保存到所述数据仓库的第一数据表中,使该第一数据表中包含所述镜像数据库的该记录的各个历史版本;在所述第一数据表中查询数据。

Description

一种应用于数据仓库的数据处理方法和数据处理装置
技术领域
本发明涉及计算机技术领域,特别地涉及一种应用于数据仓库的数据处理方法和数据处理装置。
背景技术
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。其数据来自于各个分散的源数据库,例如生产环境下的关系数据库,以及其他需要进行分析的数据所在的数据库。数据仓库是出于分析性报告和决策支持的目的而创建,为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。与源数据库相比,数据仓库是前者数据的汇总,具有大容量的特点,并且一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
在搭建数据仓库系统,建设数据分析平台时,常常需要实时的数据流参与数据分析,如PV(页面浏览量)、UV(独立访问量)、订单量、订单金额等,因此要求能够快速准确的得到实时数据。
数据仓库的数据是从源数据库抽取数据而得到。数据抽取的时间间隔一般由最终用户的查询数据的需求决定,大多数需求一般是一天至少更新一次数据。如果源数据库是随时会有更新的在线数据库,则数据仓库可以在源数据库在线或离线时抽取数据,一般按如下步骤:
步骤一:使用数据库SQL查询的方式获取源数据库在一定时间范围内更新的数据。一般根据数据表更新字段获取每天更新的数据,如果没有更新字段则需要进行每天全表查询抽取。
步骤二:将第一步获取的数据通过程序或者数据库原生方式从源数据库导入到中转服务器或者数据仓库。
步骤三:经过数据清洗后的当天增量或者全量数据保存到数据仓库的源数据库的镜像数据库内,并且生成该镜像数据在当天的一个快照数据。
按照现有技术中的上述从源数据库离线批量抽取数据方式,由于离线批量抽取只能采用SQL方式通过数据库查询引擎进行数据提取,会对源数据库造成一定压力。为了减少对源数据库的压力,从源数据库进行数据抽取一般都在每天夜间生产压力小的时候进行,从而造成了数据至少一天的延时,并且只能通过抽取大于每次间隔时间的数据来更新。这样,从数据仓库查询得到的数据比较陈旧,时效性不足。
发明内容
有鉴于此,本发明提供一种应用于数据仓库的数据处理方法和数据处理装置,能够提高数据仓库中的数据的时效性。
为实现上述目的,根据本发明的一个方面,提供了一种应用于数据仓库的数据处理方法。
本发明的应用于数据仓库的数据处理方法包括:在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修改后的记录另行保存到键值数据库中;从所述键值数据库中取出最新的条目,将该条目追加保存到所述数据仓库的第一数据表中,使该第一数据表中包含所述镜像数据库的该记录的各个历史版本;在所述第一数据表中查询数据。
可选地,在所述第一数据表中查询数据的步骤包括:在所述第一数据表中查询具有指定标识并且距指定历史时刻最近且在该历史时刻之前更新的数据库记录。
可选地,在所述第一数据表中查询数据的步骤包括:在所述第一数据表中查询当前最新的记录。
可选地,还包括:根据所述第一数据表的指定时刻之前的记录,将当前数据仓库的第一数据库的镜像数据库更新为所述第一数据库在该指定时刻的状态。
可选地,所述键值数据库为Hbase数据库;所述第一数据表为Hive数据表。
根据本发明的另一方面,提供了一种应用于数据仓库的数据处理装置。
本发明的应用于数据仓库的数据处理装置包括:修改模块,用于在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修改后的记录另行保存到键值数据库中;保存模块,用于从所述键值数据库中取出最新的条目,将该条目追加保存到所述数据仓库的第一数据表中,使该第一数据表中包含所述镜像数据库的该记录的各个历史版本;查询模块,用于在所述第一数据表中查询数据。
可选地,所述查询模块还用于在所述第一数据表中查询具有指定标识并且距指定历史时刻最近且在该历史时刻之前更新的数据库记录。
可选地,所述查询模块还用于在所述第一数据表中查询当前最新的记录。
可选地,还包括更新模块,用于根据所述第一数据表的指定时刻之前的记录,将当前数据仓库的第一数据库的镜像数据库更新为所述第一数据库在该指定时刻的状态。
可选地,所述键值数据库为Hbase数据库;所述第一数据表为Hive数据表。
根据本发明的技术方案,在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,修改后的条目的内容被追加保存到数据仓库的第一数据表中,使该第一数据表中包含镜像数据库的该记录的各个历史版本,这样既能够从数据仓库中得到实时性很高的镜像数据,又可以得到镜像数据库在任意历史时刻的版本即数据快照,还能够使镜像数据库的更新调度变得简单,调度间隔容易控制。在Hadoop技术环境下,应用本实施例的方案无需编写复杂的Mapreduce程序,通过Hive SQL接口就可以从第一数据表中查询数据记录以及更新上述镜像数据库。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的应用于数据仓库的数据处理方法的流程的主要步骤的示意图;
图2是根据本发明实施例的应用于数据仓库的数据处理装置的主要模块的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在以下的描述中,以数据仓库保存生产环境下的在线的关系数据库(以下简称作“第一数据库”)的镜像数据库为例说明本实施例的技术方案对本发明实施例的技术方案作详细说明,并且本实施例中采用Hadoop体系的技术。图1是根据本发明实施例的应用于数据仓库的数据处理方法的流程的主要步骤的示意图。该方法可以由计算机程序来完成。如图1所示,该方法主要包括如下的步骤S11至S13。
步骤S11:判断当前是否产生增量日志。若是,则进行步骤S12,否则延时之后再次判断。在第一数据库被操作后,日志处理程序监听到数据库的变化,然后产生一条对应于该操作的日志,该日志对于第一数据库来说可以称作“操作日志”,对于第一数据库的镜像数据库来说可称作增量日志。
步骤S12:根据步骤S11中获取的增量日志,对数据仓库中的第一数据库的镜像数据库的记录进行修改。显然这里的记录应当是增量日志涉及到的记录。
步骤S13:将步骤S12中被修改的记录另行保存到键值数据库中。由于源数据库可能是在线数据库,其数据更新速度可能非常快,因此需要采用能够快速读写数据记录的数据库来缓存修改后的数据记录,本实施例中采用了键值数据库例如Hbase等。以数据记录的标识(在下文中的各表中,标识是其中的id字段)为键名,数据记录的其他字段为键值进行保存,在保存时先判断键值数据库中是否已经有以该被修改的记录的标识为键名的记录,如没有,则直接保存该被修改的记录,如果有,则按该被修改的记录的内容更新已有的记录。也就是说在键值数据库中,仅保存第一数据库的各条记录的最新版本。这样,如果需要查询某一记录的最新版本,可以从该键值数据库中以最快的速度获取,无需对第一数据库进行操作。
步骤S14:从该键值数据库中取出最新条目,将该条目追加保存到数据仓库的第一数据表中。
在Hadoop体系下,可采用应用于Hadoop的数据仓库工具Hive将结构化的数据文件映射得到上述第一数据表。可按键名快速取出Hbase中的数据记录,然后由Hive进行映射处理得到Hive表。Hive表是一种数据库表,提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务来运行。
对于数据仓库中的第一数据库的镜像数据库,并不在上述步骤中被更新,也就是说上述步骤与第一数据库的镜像数据库的更新,二者独立进行。
步骤S14之后返回步骤S11。按照上述步骤,第一数据表中逐渐累计了第一数据库的各条记录的每次更新后的版本。以下举一个具体的例子。例如在2014年4月1日0:45得到表1包含的日志内容(表1中是日志的内容,而实际的日志形式不一定是表格形式):
表1
该日志记录的是第一数据库中插入了一条新记录的操作,其中的字段dml_opt_type表示操作类型,insert表示该记录是被新插入到第一数据库中,update表示该记录被修改(即更新),delete表示该记录被删除。字段version是在日志被保存时分配的按自然数单调递增的版本号。字段delete为1表示该记录在第一数据库中存在,为0表示在第一数据库中不存在(即已被删除)。在键值数据库中,保存的内容如表2所示(表2是键值数据库中的数据的内容,键值数据库并不以表格形式保存数据):
表2
id order name price dml_opt_type version lastupdatetime delete
1 1001 kate 0 insert 1 2014/4/10:45 1
随着时间的推移,依次获取到后续产生的日志,如表3所示。表3内示出了已获得的一条日志的内容。
表3
每获取到一条日志,就修改一次镜像数据库中的相应记录然后保存到键值数据库中,此时可以根据逻辑关系补全所有字段。键值数据库中的最新记录以追加保存的方式另存到第一数据表内,即不覆盖第一数据表内具有与被修改记录相同id的记录的原有内容。追加保存使得第一数据表内出现同一id的记录有多条的情况,如表4所示。表4还保存了数据记录的操作方式。
表4
id order name price dml_opt_type version lastupdatetime delete
1 1001 kate 0 insert 1 2014/4/1 0:45 1
2 1002 tom 1 insert 2 2014/4/1 0:57 1
3 1003 leo 12.1 insert 3 2014/4/1 1:57 1
4 1004 jack 9.1 insert 4 2014/4/1 1:57 1
5 1005 joy insert 5 2014/4/1 2:19 1
5 1005 joy 10 update 6 2014/4/1 2:29 1
2 1002 tom 1 update 7 2014/4/2 4:10 1
4 1004 jack 9.1 delete 8 2014/4/2 8:10 0
因为在第一数据库被更新时,实时产生增量日志,而执行上述各步骤之后,第一数据表中包含了按照该增量日志修改后的数据记录,因此使得第一数据表中的记录有很高的更新程度,而且还包含了条记录的各个历史版本。采用通用的SQL语句可以从第一数据表中查询最新的数据记录;还可以针对指定的历史时刻进行查询,例如编写如下的SQL语句:
select*from(select max(version)as version,distinct(id)asid,order,name,price,date,delete from A_middle where lastUpdateTime<='2014/04/03 12:10'and delete=1)
在上面的SQL语句中,通过lastUpdateTime<='2014/04/03 12:10指定了历史时刻,通过max(version)函数取version值最大值,使查询到的记录距离历史时刻最近,通过delete=1指定记录未被删除,通过distinct(id)指定了id字段并进行去重,这样最终查询到在指定历史时刻之前并距离该历史时刻最近的指定标识的数据记录。
因为第一数据表中保存了数据记录的增量,所以也可以用来与数据仓库中的第一数据库的镜像数据库进行合并从而对该镜像数据进行更新。这样,在存在第一数据表的情况下,可以简化对于上述镜像数据库进行更新时的调度机制,利用第一数据表来更新该镜像数据库。例如当前该镜像数据库是更新到2014/4/1 0:00,则可以根据表4的内容对其进行更新。可以是按表4所示的全部内容更新到2014/4/2 8:10,也可以指定一个时刻,例如2014/4/2 0:00,这样就按表3中的前6行更新镜像数据库,即更新到指定时刻之前的记录,这里的“之前”包含指定时刻本身,例如指定时刻是2014/4/1 2:19,则根据表3前5行更新镜像数据库。这样,在该指定时刻,镜像数据库与第一数据库本身的状态相同,也就是说能够得到任意时刻的第一数据库的数据镜像。
图2是根据本发明实施例的应用于数据仓库的数据处理装置的主要模块的示意图。该装置可以用计算机软件来实现。如图2所示,数据处理装置20主要包括修改模块21、保存模块22、以及查询模块23。
修改模块21用于在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修改后的记录另行保存到键值数据库中。保存模块22用于从键值数据库中取出最新的条目,将该条目追加保存到数据仓库的第一数据表中,使该第一数据表中包含镜像数据库的该记录的各个历史版本。查询模块23用于在第一数据表中查询数据,可根据用户的查询指令,在第一数据表中查询具有指定标识并且距指定历史时刻最近且在该历史时刻之前更新的数据库记录,还可以在第一数据表中查询当前最新记录。
数据处理装置20还可包括更新模块(图中未示出),用于根据第一数据表的指定时刻之前的记录,将当前数据仓库的第一数据库的镜像数据库更新为第一数据库在该指定时刻的状态。
根据本发明实施例的技术方案,在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,修改后的条目的内容被追加保存到数据仓库的第一数据表中,使该第一数据表中包含镜像数据库的该记录的各个历史版本,这样既能够从数据仓库中得到实时性很高的镜像数据,又可以得到镜像数据库在任意历史时刻的版本即数据快照,还能够使镜像数据库的更新调度变得简单,调度间隔容易控制。在Hadoop技术环境下,应用本实施例的方案无需编写复杂的Mapreduce程序,通过Hive SQL接口就可以从第一数据表中查询数据记录以及更新上述镜像数据库。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和设备的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来开发出的任何存储介质。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种应用于数据仓库的数据处理方法,其特征在于,包括:
在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修改后的记录另行保存到键值数据库中;
从所述键值数据库中取出最新的条目,将该条目追加保存到所述数据仓库的第一数据表中,使该第一数据表中包含所述镜像数据库的该记录的各个历史版本;
在所述第一数据表中查询数据。
2.根据权利要求1所述的方法,其特征在于,在所述第一数据表中查询数据的步骤包括:在所述第一数据表中查询具有指定标识并且距指定历史时刻最近且在该历史时刻之前更新的数据库记录。
3.根据权利要求1所述的方法,其特征在于,在所述第一数据表中查询数据的步骤包括:在所述第一数据表中查询当前最新的记录。
4.根据权利要求1,2或3所述的方法,其特征在于,还包括:根据所述第一数据表的指定时刻之前的记录,将当前数据仓库的第一数据库的镜像数据库更新为所述第一数据库在该指定时刻的状态。
5.根据权利要求1,2或3所述的方法,其特征在于,所述键值数据库为Hbase数据库;所述第一数据表为Hive数据表。
6.一种应用于数据仓库的数据处理装置,其特征在于,包括:
修改模块,用于在第一数据库被操作时,根据该操作对应的增量日志对数据仓库中的第一数据库的镜像数据库的记录进行修改,然后将修改后的记录另行保存到键值数据库中;
保存模块,用于从所述键值数据库中取出最新的条目,将该条目追加保存到所述数据仓库的第一数据表中,使该第一数据表中包含所述镜像数据库的该记录的各个历史版本;
查询模块,用于在所述第一数据表中查询数据。
7.根据权利要求6所述的数据处理装置,其特征在于,所述查询模块还用于在所述第一数据表中查询具有指定标识并且距指定历史时刻最近且在该历史时刻之前更新的数据库记录。
8.根据权利要求6所述的数据处理装置,其特征在于,所述查询模块还用于在所述第一数据表中查询当前最新的记录。
9.根据权利要求6,7或8所述的数据处理装置,还包括更新模块,用于根据所述第一数据表的指定时刻之前的记录,将当前数据仓库的第一数据库的镜像数据库更新为所述第一数据库在该指定时刻的状态。
10.根据权利要求6,7或8所述的数据处理装置,其特征在于,所述键值数据库为Hbase数据库;所述第一数据表为Hive数据表。
CN201410568558.XA 2014-10-23 2014-10-23 一种应用于数据仓库的数据处理方法和数据处理装置 Active CN104298760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410568558.XA CN104298760B (zh) 2014-10-23 2014-10-23 一种应用于数据仓库的数据处理方法和数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410568558.XA CN104298760B (zh) 2014-10-23 2014-10-23 一种应用于数据仓库的数据处理方法和数据处理装置

Publications (2)

Publication Number Publication Date
CN104298760A true CN104298760A (zh) 2015-01-21
CN104298760B CN104298760B (zh) 2019-02-05

Family

ID=52318485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410568558.XA Active CN104298760B (zh) 2014-10-23 2014-10-23 一种应用于数据仓库的数据处理方法和数据处理装置

Country Status (1)

Country Link
CN (1) CN104298760B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765866A (zh) * 2015-04-24 2015-07-08 武汉噢易云计算有限公司 基于树形结构对行政区划数据进行汇总的方法及系统
CN105760548A (zh) * 2016-03-21 2016-07-13 武汉烽火众智数字技术有限责任公司 一种基于大数据跨域比对的车辆首次出现分析方法及系统
CN106021422A (zh) * 2016-05-13 2016-10-12 北京思特奇信息技术股份有限公司 一种基于关系型数据库形成Hive数据仓库的方法及系统
CN106294461A (zh) * 2015-06-01 2017-01-04 阿里巴巴集团控股有限公司 数据导入方法和装置
CN106326470A (zh) * 2016-08-31 2017-01-11 无锡雅座在线科技发展有限公司 流式大数据的处理方法和装置
CN107704590A (zh) * 2017-09-30 2018-02-16 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法及系统
CN107844491A (zh) * 2016-09-19 2018-03-27 阿里巴巴集团控股有限公司 一种在分布式系统中实现强一致性读操作的方法与设备
CN108108374A (zh) * 2016-11-25 2018-06-01 百度在线网络技术(北京)有限公司 一种数据仓库的存储方法及装置
CN108255838A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 一种建立用于大数据分析的中间数据仓库的方法及系统
CN104765866B (zh) * 2015-04-24 2018-08-31 武汉噢易云计算股份有限公司 对行政区划数据进行汇总的方法及系统
CN108629029A (zh) * 2018-05-09 2018-10-09 北京京东尚科信息技术有限公司 一种应用于数据仓库的数据处理方法和装置
CN108920698A (zh) * 2018-07-16 2018-11-30 北京京东金融科技控股有限公司 一种数据同步方法、装置、系统、介质及电子设备
CN109145049A (zh) * 2018-09-17 2019-01-04 浙江工业大学 一种基于增量日志的数据组合视图实时更新方法
CN109871373A (zh) * 2019-01-31 2019-06-11 北京明略软件系统有限公司 一种数据存储方法和装置、计算机可读存储介质
CN109902130A (zh) * 2019-01-31 2019-06-18 北京明略软件系统有限公司 一种数据存储方法、数据查询方法和装置、存储介质
WO2020192064A1 (zh) * 2019-03-28 2020-10-01 苏宁云计算有限公司 一种增量数据一致性实现方法及装置
CN111881173A (zh) * 2020-06-04 2020-11-03 博依特(广州)工业互联网有限公司 一种基于Hive的数据修改方法、装置及存储介质
CN112749226A (zh) * 2019-10-30 2021-05-04 北京国双科技有限公司 Hive增量数据同步方法、装置、计算机设备和存储介质
CN112783927A (zh) * 2021-01-27 2021-05-11 浪潮云信息技术股份公司 一种数据库查询方法及系统
CN112817969A (zh) * 2021-01-14 2021-05-18 内蒙古蒙商消费金融股份有限公司 数据查询方法、系统、电子设备和存储介质
CN113449043A (zh) * 2021-07-21 2021-09-28 中国人民解放军61932部队 数据同步方法、装置、计算机设备和存储介质
CN113761052A (zh) * 2020-11-27 2021-12-07 北京沃东天骏信息技术有限公司 数据库同步方法和装置
WO2023071367A1 (zh) * 2021-10-25 2023-05-04 中兴通讯股份有限公司 通信业务数据的处理方法、装置和计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183387A (zh) * 2007-12-14 2008-05-21 沈阳东软软件股份有限公司 一种增量数据捕获方法和系统
US7822712B1 (en) * 2007-10-18 2010-10-26 Google Inc. Incremental data warehouse updating
CN102508835A (zh) * 2011-09-22 2012-06-20 用友软件股份有限公司 基于日志管理包的增量数据实时同步装置和方法
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库系统
CN102841897A (zh) * 2011-06-23 2012-12-26 阿里巴巴集团控股有限公司 一种实现增量数据抽取的方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7822712B1 (en) * 2007-10-18 2010-10-26 Google Inc. Incremental data warehouse updating
CN101183387A (zh) * 2007-12-14 2008-05-21 沈阳东软软件股份有限公司 一种增量数据捕获方法和系统
CN102841897A (zh) * 2011-06-23 2012-12-26 阿里巴巴集团控股有限公司 一种实现增量数据抽取的方法、装置及系统
CN102508835A (zh) * 2011-09-22 2012-06-20 用友软件股份有限公司 基于日志管理包的增量数据实时同步装置和方法
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库系统

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765866A (zh) * 2015-04-24 2015-07-08 武汉噢易云计算有限公司 基于树形结构对行政区划数据进行汇总的方法及系统
CN104765866B (zh) * 2015-04-24 2018-08-31 武汉噢易云计算股份有限公司 对行政区划数据进行汇总的方法及系统
CN106294461A (zh) * 2015-06-01 2017-01-04 阿里巴巴集团控股有限公司 数据导入方法和装置
CN106294461B (zh) * 2015-06-01 2019-10-08 阿里巴巴集团控股有限公司 数据导入方法和装置
CN105760548A (zh) * 2016-03-21 2016-07-13 武汉烽火众智数字技术有限责任公司 一种基于大数据跨域比对的车辆首次出现分析方法及系统
CN106021422B (zh) * 2016-05-13 2019-04-09 北京思特奇信息技术股份有限公司 一种基于关系型数据库形成Hive数据仓库的方法及系统
CN106021422A (zh) * 2016-05-13 2016-10-12 北京思特奇信息技术股份有限公司 一种基于关系型数据库形成Hive数据仓库的方法及系统
CN106326470A (zh) * 2016-08-31 2017-01-11 无锡雅座在线科技发展有限公司 流式大数据的处理方法和装置
CN107844491B (zh) * 2016-09-19 2021-11-16 阿里巴巴集团控股有限公司 一种在分布式系统中实现强一致性读操作的方法与设备
CN107844491A (zh) * 2016-09-19 2018-03-27 阿里巴巴集团控股有限公司 一种在分布式系统中实现强一致性读操作的方法与设备
CN108108374A (zh) * 2016-11-25 2018-06-01 百度在线网络技术(北京)有限公司 一种数据仓库的存储方法及装置
CN108108374B (zh) * 2016-11-25 2021-11-16 百度在线网络技术(北京)有限公司 一种数据仓库的存储方法及装置
CN108255838A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 一种建立用于大数据分析的中间数据仓库的方法及系统
CN108255838B (zh) * 2016-12-28 2022-02-18 航天信息股份有限公司 一种建立用于大数据分析的中间数据仓库的方法及系统
CN107704590A (zh) * 2017-09-30 2018-02-16 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法及系统
CN108629029A (zh) * 2018-05-09 2018-10-09 北京京东尚科信息技术有限公司 一种应用于数据仓库的数据处理方法和装置
CN108629029B (zh) * 2018-05-09 2021-06-29 北京京东尚科信息技术有限公司 一种应用于数据仓库的数据处理方法和装置
CN108920698A (zh) * 2018-07-16 2018-11-30 北京京东金融科技控股有限公司 一种数据同步方法、装置、系统、介质及电子设备
CN108920698B (zh) * 2018-07-16 2020-11-03 京东数字科技控股有限公司 一种数据同步方法、装置、系统、介质及电子设备
CN109145049A (zh) * 2018-09-17 2019-01-04 浙江工业大学 一种基于增量日志的数据组合视图实时更新方法
CN109871373B (zh) * 2019-01-31 2021-06-08 北京明略软件系统有限公司 一种数据存储方法和装置、计算机可读存储介质
CN109871373A (zh) * 2019-01-31 2019-06-11 北京明略软件系统有限公司 一种数据存储方法和装置、计算机可读存储介质
CN109902130A (zh) * 2019-01-31 2019-06-18 北京明略软件系统有限公司 一种数据存储方法、数据查询方法和装置、存储介质
WO2020192064A1 (zh) * 2019-03-28 2020-10-01 苏宁云计算有限公司 一种增量数据一致性实现方法及装置
CN112749226A (zh) * 2019-10-30 2021-05-04 北京国双科技有限公司 Hive增量数据同步方法、装置、计算机设备和存储介质
CN111881173A (zh) * 2020-06-04 2020-11-03 博依特(广州)工业互联网有限公司 一种基于Hive的数据修改方法、装置及存储介质
CN113761052A (zh) * 2020-11-27 2021-12-07 北京沃东天骏信息技术有限公司 数据库同步方法和装置
CN112817969A (zh) * 2021-01-14 2021-05-18 内蒙古蒙商消费金融股份有限公司 数据查询方法、系统、电子设备和存储介质
CN112817969B (zh) * 2021-01-14 2023-04-14 内蒙古蒙商消费金融股份有限公司 数据查询方法、系统、电子设备和存储介质
CN112783927A (zh) * 2021-01-27 2021-05-11 浪潮云信息技术股份公司 一种数据库查询方法及系统
CN113449043A (zh) * 2021-07-21 2021-09-28 中国人民解放军61932部队 数据同步方法、装置、计算机设备和存储介质
WO2023071367A1 (zh) * 2021-10-25 2023-05-04 中兴通讯股份有限公司 通信业务数据的处理方法、装置和计算机存储介质

Also Published As

Publication number Publication date
CN104298760B (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN104298760A (zh) 一种应用于数据仓库的数据处理方法和数据处理装置
US11907244B2 (en) Modifying field definitions to include post-processing instructions
EP3563268B1 (en) Scalable database system for querying time-series data
US7657674B2 (en) Flexible and error resistant data buffering and connectivity
US8244700B2 (en) Rapid update of index metadata
CN105144080B (zh) 用于元数据管理的系统
CN112534396A (zh) 数据库系统中的日记表
US10095807B2 (en) Linked data processor for database storage
CN101405728B (zh) 具有动态加载能力的关系数据库架构
CN102609488B (zh) 客户端及其数据查询方法、服务端和数据查询系统
CN104133772A (zh) 一种自动生成测试数据的方法
US8407183B2 (en) Business intelligence data extraction on demand
CN105787058B (zh) 一种用户标签系统及基于用户标签系统的数据推送系统
CN101464895A (zh) 一种更新内存数据的方法、系统和装置
CN110442585B (zh) 数据更新方法、数据更新装置、计算机设备及存储介质
CN105808653A (zh) 一种基于用户标签系统的数据处理方法及装置
CN114780641B (zh) 多库多表同步方法、装置、计算机设备和存储介质
EP4024263A1 (en) Method for dynamic maintenance of a knowledge graph, terminal device and storage medium
CN104657387A (zh) 一种数据查询方法及装置
CN103902562A (zh) 一种终端数据库升级方法及相关装置
CN111708895B (zh) 一种知识图谱系统的构建方法及装置
CN102393860A (zh) 数据库数据迁移系统
US20220229821A1 (en) Data restoration using dynamic data structure altering
CN110019306A (zh) 一种基于xml格式文件的sql语句查找方法及系统
CN107291938A (zh) 订单查询系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191128

Address after: 100176 room 222, 2f, building C, No. 18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Patentee after: Beijing Jingdong three hundred and sixty degree e-commerce Co., Ltd.

Address before: 100195 1-4 layer, 1-4 layer, western section of 11C building, building, West District, Haidian District, Beijing, China

Co-patentee before: Beijing Jingdong Century Commerce Co., Ltd.

Patentee before: Beijing Jingdong Shangke Information Technology Co., Ltd.

TR01 Transfer of patent right