CN106407360A - 一种数据的处理方法及装置 - Google Patents

一种数据的处理方法及装置 Download PDF

Info

Publication number
CN106407360A
CN106407360A CN201610808765.7A CN201610808765A CN106407360A CN 106407360 A CN106407360 A CN 106407360A CN 201610808765 A CN201610808765 A CN 201610808765A CN 106407360 A CN106407360 A CN 106407360A
Authority
CN
China
Prior art keywords
data
current
incremental
data table
delta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610808765.7A
Other languages
English (en)
Other versions
CN106407360B (zh
Inventor
徐骄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201610808765.7A priority Critical patent/CN106407360B/zh
Publication of CN106407360A publication Critical patent/CN106407360A/zh
Application granted granted Critical
Publication of CN106407360B publication Critical patent/CN106407360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据的处理方法及装置,该方法包括:获取当前数据表的属性信息;根据所述当前数据表中的属性信息查找关联的增量数据表,其中,所述增量数据表中包含当前处理周期内获取的当前增量数据;根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据。利用该处理方法,能够对不具备更新标识字段的数据库表中更新数据简单高效地进行跨数据仓库的增量抽取,与现有的数据的增量抽取方式相比,该处理方法具有更好的增量抽取性能,能够节省数据处理的处理时间,从而实现了数据增量抽取的多样化。

Description

一种数据的处理方法及装置
技术领域
本发明实施例涉及数据库技术领域,尤其涉及一种数据的处理方法及装置。
背景技术
数据抽取主要指对数据库中的数据进行抽取的过程,常见的数据抽取方式包括全量抽取和增量抽取,其中,全量抽取是指将数据源中的数据原封不动的从数据库中抽取出来;而增量抽取指从数据库中抽取自上次抽取以来新增、修改和/或删除的数据。在数据库的抽取-转换-加载(Extract-Transform-Load,ETL)过程中,增量抽取的方法较全量抽取的应用更为广范。
目前,常见的增量抽取方式可以基于触发器、时间戳、全表对比和/或日志对比等。上述几种方式在其工作特性上各有优劣,但实际应用中最广泛的是基于时间戳的增量抽取。具体地,基于时间戳的增量抽取可概括为:在源数据表上增加时间戳字段(相当于一个更新标识字段),在更新修改表数据时,也同时修改时间戳字段的值,当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。基于时间戳的增量抽取存在的不足表现在:有些数据库中的数据表直接被设计为无时间戳字段,由此无法得出哪些数据在何时进行了新增、修改或者删除。
发明内容
本发明实施例提供了一种数据的处理方法及装置,简单高效地实现了对不存在更新标识字段的数据表中更新数据的增量抽取。
一方面,本发明实施例提供了一种数据的处理方法,包括:
获取当前数据表的属性信息;
根据所述当前数据表中的属性信息查找关联的增量数据表,其中,所述增量数据表中包含当前处理周期内获取的当前增量数据;
根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据。
另一方面,本发明实施例提供了一种数据的处理装置,包括:
信息获取模块,用于获取当前数据表的属性信息;
关联表确定模块,用于根据所述当前数据表中的属性信息查找关联的增量数据表,其中,所述增量数据表中包含当前处理周期内获取的当前增量数据;
目标数据确定模块,用于根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据。
本发明实施例中提供的一种数据的处理方法及装置,该方法首先获取当前数据表的属性信息;然后根据属性信息确定与当前数据表关联的增量数据表,其中,增量数据表中包含了当前处理周期内更新的增量数据;最后,基于增量数据表的增量数据确定了当前数据表中更新的增量数据。利用该方法,能够对不具备更新标识字段的数据库表中更新数据简单高效地进行跨数据仓库的增量抽取,与现有的数据的增量抽取方式相比,本发明实施例提供的处理方法具有更好的增量抽取性能,能够节省数据处理的处理时间。
附图说明
图1为本发明实施例一提供的一种数据的处理方法的流程示意图;
图2为本发明实施例二提供的一种数据的处理方法的流程示意图;
图3为本发明实施例三提供的一种数据的处理方法的优选实施例的流程示意图;
图4为本发明实施例四提供的一种数据的处理装置的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步地详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据的处理方法的流程示意图,该处理方法适用于跨数据仓库增量抽取更新数据的情况,该方法可以由数据的处理装置执行,其中该装置可由软件和/或硬件实现。
需要说明的是,本发明实施例的处理方法可以对不具备更新标识字段的源数据表实现进行跨数据仓库的增量抽取,即从源数据仓库不具备更新数据标识的源数据表中抽取更新数据并存储到目标数据仓库的目标数据表中。可以理解的是,源数据仓库中的源数据表和目标数据仓库的目标数据表一一对应。此外,执行本发明实施例处理方法的数据的处理装置集成在所述目标数据仓库所在的服务平台上。
如图1所示,本发明实施例一提供的一种数据的处理方法,包括如下操作:
S101、获取当前数据表的属性信息。
在本实施例中,所述当前数据表具体可以是位于目标数据仓库中的一个目标数据表,且是当前正在进行数据处理的目标数据表,所述当前数据表具体可用于存放源数据仓库相应源数据表中的更新数据,其中,所述更新数据可称为所述当前数据表的增量数据。
在本实施例中,所述属性信息具体可指所述当前数据表中各列所具有的字段信息。示例性地,假设当前数据表为所在数据仓库中的一个学生选课信息表,则可以获取到所述学生选课信息表的属性信息为学号、姓名、数据结构、汇编语言等表中各列所具有的字段信息。
S102、根据所述当前数据表中的属性信息查找关联的增量数据表,其中,所述增量数据表中包含当前处理周期内获取的当前增量数据。
在本实施例中,所述增量数据表具体也可以是位于目标数据仓库中的一个目标数据表。可以理解的是,所述增量数据表与所述当前数据表基于属性信息存在关联,即,可以理解为所述当前数据表中的至少一个列字段也相应的存在于所述增量数据表中,其中,所述至少一个列字段可称为增量数据表与所述当前数据表的关联字段。示例性地,在确定当前数据表为一个学生选课信息表时,假设增量数据表为一个学生基本信息表,且获取到该学生基本信息表中的属性信息有学号、姓名、性别、籍贯、出生年月等列字段信息,则可确定该学生基本信息表与所述学生选课信息表基于学号和/或姓名存在关联。
在本实施例中,对源数据仓库的数据表中更新数据的增量抽取是基于设定的时间周期进行的。本实施例将设定的时间周期看作一个处理周期,在一个处理周期内,可以将所述源数据仓库各源数据表中的更新数据抽取到目标数据仓库与各源数据表对应的目标数据表中,且可将所抽取的更新数据称为目标数据表中的增量数据。
需要说明的是,基于所述属性信息与所述当前数据表存在关联的数据表很多,但只有已经在当前处理周期内获得了当前增量数据的数据表才可作为与所述当前数据表关联的增量数据表,由此才能基于增量数据表的当前增量数据来确定所述当前数据表在当前处理周期内的增量数据。此外,由于所述增量数据表在源数据仓库中对应的源数据表有可能具备更新标识字段,所以本实施例对所述增量数据表获得当前增量数据采用的方法没有限定,可以基于现有的增量抽取方法,也可基于本实施例提供的处理方法。
S103、根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据。
在本实施例中,基于步骤S102获得所述当前数据表的增量数据表后,可以基于所述增量数据表中的当前增量数据来确定所述当前数据表在当前处理周期内的目标增量数据。具体地,首先可以确定与所述当前数据表存在建立关联时所基于的关联字段;然后可以确定所述关联字段在当前增量数据中对应的增量数据值;之后,可以基于关联字段对应的增量数据值在源数据仓库的源数据表中确定包含所述增量数据值的所有更新数据;最终,可以获取包含所述增量数据值的所有更新数据并作为目标增量数据写入所述当前数据表中,由此完成当前数据表对相应源数据表中当前处理周期内所产生更新数据的增量抽取。
本发明实施例一提供的一种数据的处理方法,首先获取当前数据表的属性信息;然后根据属性信息确定与当前数据表关联的增量数据表,其中,增量数据表中包含了当前处理周期内更新的增量数据;最后,基于增量数据表的增量数据确定了当前数据表中更新的增量数据。利用该方法,能够对不具备更新标识字段的数据库表中更新数据简单高效地进行跨数据仓库的增量抽取,与现有的数据的增量抽取方式相比,该处理方法具有更好的增量抽取性能,能够节省数据处理的处理时间。
实施例二
图2为本发明实施例二提供的一种数据的处理方法的流程示意图,本发明实施例二以上述实施例为基础进行优化,在本实施例中,将根据所述当前数据表中的属性信息查找关联的增量数据表,具体优化为:根据所述当前数据表中的属性信息,确定所述当前数据表中的关联键;根据所述关联键确定与所述当前数据表相关联的增量数据表。
进一步地,将根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据,具体优化为:获取所述关联键在所述增量数据表的当前增量数据中对应的增量数据值并存储;根据所存储的增量数据值查找所述当前数据表中的目标增量数据。
如图2所示,本发明实施例二提供的一种数据的处理方法,包括如下操作:
S201、获取当前数据表的属性信息。
示例性地,获取当前数据表中各列的字段信息。
S202、根据所述当前数据表中的属性信息,确定所述当前数据表中的关联键。
在本实施例中,所述关联键具体可理解为能够与当前数据表所在数据仓库中其他数据表建立表间引用关系的列字段,例如,当前数据表中存在一个“学号”的列字段,当前数据表所在数据仓库的其他数据表中也有存在“学号”这个列字段的关联数据表,则可认为“学号”为所述当前数据表与所述关联数据表的关联键。
S203、根据所述关联键确定与所述当前数据表相关联的增量数据表。
在本实施例中,可以在当前数据表所在数据仓库中确定其他数据表的属性信息,由此可以确定出包含所述关联键的关联数据表,并可认为所述关联数据表与所述当前数据表存在表间引用关系,之后,需要进一步确定所述关联数据表是否已获取到当前处理周期内对应的当前增量数据,若存在,则可将所述关联数据表作为所述增量数据表,即,所述增量数据表中包含当前处理周期内获取的当前增量数据。
进一步地,所述当前数据表和所述增量数据表位于大数据平台的数据仓库中。
一般地,源数据仓库通常用于存储用户在实际应用中产生的数据信息,该数据信息随着实际应用中数据的变化而发生变化,仅用于记录用户最新产生的数据信息,而无法记录之前的历史数据,因此,设定了特定的目标数据仓库来记录源数据仓库中各数据表对应的历史数据信息。然而,随着数据信息量的不断增加,传统的目标数据仓库已不能记录海量的历史数据信息,由此产生了大数据平台的数据仓库,以用于记录和积累海量的历史数据信息,并用于分析和挖掘历史数据信息中的有用信息。
在本实施例中,为了积累更多的历史数据信息,就在大数据平台上设置了数据仓库,并将所述大数据平台的数据仓库作为本实施例中的目标数据仓库。可以确定的是,所述当前数据表以及所述增量数据表均位于所述大数据平台的数据仓库中。
S204、获取所述关联键在所述增量数据表的当前增量数据中对应的增量数据值并存储。
在本实施例中,基于步骤S203确定的增量数据表包含了当前处理周期内获取的当前增量数据,可以基于所述增量数据表的当前增量数据来确定所述当前数据表中的目标增量数据。具体地,首先可以基于步骤S204在所述增量数据表中确定所述关联键在所述增量数据表的当前增量数据中对应的增量数据值,并可以对所确定的增量数据值进行存储。
进一步地,所述获取所述关联键在所述增量数据表的当前增量数据中对应的增量数据值并存储,包括:通过设定的数据库查询语句查找所述关联键在所述增量数据表的当前增量数据中对应的增量数据值;根据所述增量数据值的数据量大小确定所述增量数据值的存储方式,并按照所述存储方式存储所述增量数据值。
在本实施例中,确定所述增量数据表在当前处理周期内对应的当前增量数据以及确定所述关联键之后,可以设定与所述关联键相关的数据库查询语句获取当前增量数据中与所述关联键对应的增量数据值,其中,所述数据库查询语句具体可理解为基于结构化查询语言(Structured Query Language,SQL)编写的查询语句。
一般地,对于所获取的所述增量数据值可以直接缓存在运行内存中,用于后续的处理操作,然而,由于本实施例中所述增量数据表位于所述大数据平台的数据仓库,所获得增量数据值的数据量有可能很大,如果直接将数据量较大的增量数据值缓存在运行内存中,有可能影响运算性能,此时可以考虑将所述增量数据值存放在本地文件中,在之后处理中可以从本地文件中调用所述增量数据值。因此,本实施例可以基于所述增量数据值的数据量大小来确定存储方式,以使数据处理保持良好的运算性能。
在本实施例中,基于所述增量数据值的数据量大小确定存储方式时,本实施例不限定数据量大小与存储方式的对应关系,可以由技术人员在实际应用中根据具体地应用具体设定。示例性地,对传统数据仓库进行数据处理时,如果获取的增量数据值的数据量大小为10M,则可确定其存储方式为本地存储,而对大数据平台上的数据仓库进行数据处理时,若数据量大小也为10M,则由于大数据平台中为分布式处理,因此仍可考虑将所述增量数据值直接缓存到运行内存中。
S205、根据所存储的增量数据值查找所述当前数据表中的目标增量数据。
在本实施例中,所述当前数据表的目标增量数据为所述源数据仓库中对应源数据表在当前处理周期内的更新数据,因此,需要从所述源数据据表中获取当前处理周期内的更新数据。本实施例可以基于所述增量数据值从源数据仓库对应于当前数据表的源数据表中获取与所述增量数据值关联的更新数据,以作为所述当前数据表的目标增量数据。
在本实施例中,基于所存储的增量数据值来确定所述目标增量数据的原因在于:所存储的增量数据值为所述关联键在所述增量数据表中对应的增量数据值,由于所述关联键也属于所述当前数据表,所以关联键对应的增量数据值也可视为关联键在当前数据表中对应的增量数据值。因此,在确定所述当前数据表关联键对应的增量数据值后,就可以基于该关联键的增量数据值确定当前数据表中其他列字段对应的更新数据。
进一步地,所述根据所存储的增量数据值查找所述当前数据表中的目标增量数据,包括:根据所存储的增量数据值生成查询请求,并发送所述查询请求至源数据仓库;获取所述源数据仓库的源数据表中与所述查询请求对应的更新数据,其中,所述源数据表对应于所述当前数据表;按照预先指定的路径将所述更新数据作为目标增量数据写入所述当前数据表。
在本实施例中,可以获取基于SQL编写的包含所述增量数据值的查询请求,之后需要发送所述查询请求给所述源数据仓库,源数据仓库获取所述查询请求后可对所述当前数据表对应的源数据表进行查询,并从所述源数据表中确定包含所述增量数据值的更新数据,最后当前数据表所在数据仓库可以获取到源数据表中确定的更新数据。在本实施例中,在获取到所述更新数据之后,可以基于所述当前数据表在相应数据仓库中的具体位置路径将所述更新数据作为目标增量数据写入所述当前数据表。
进一步地,所述大数据平台的数据仓库基于集成在大数据平台中的信息交互组件与其他数据仓库进行信息交互。
在本实施例中,在基于所述查询请求确定所述当前数据表的目标增量数据时,需要源数据仓库与目标数据仓库进行信息交互,对于大数据平台的数据仓库而言,可以基于集成在大数据平台中的信息交互组件来实现与其他数据仓库的信息交互。示例性地,所述信息交互组件可以是大数据平台常用的开源组件,如Sqoop组件,也可以是技术人员基于信息交互的要求编写的并集成在大数据平台中的交互组件。
本发明实施例二提供的一种数据的处理方法,具体化了增量数据表的获取过程,还具体化了基于增量数据表确定目标增量数据的过程,同时将当前数据表所在的数据仓库优化为大数据平台的数据仓库,由此来存储更多的历史数据,以用于分析挖掘更有价值的数据信息。利用该方法,能够将源数据仓库不具备更新标识字段的数据库表中的更新数据简单高效地增量抽取到大数据平台的数据仓库中,与现有的数据的增量抽取方式相比,该处理方法具有更好的增量抽取性能,能够节省数据处理的处理时间。
实施例三
图3为本发明实施例三提供的一种数据的处理方法的优选实施例的流程示意图。本发明实施例的应用背景为:作为目标数据仓库的大数据平台下的数据仓库无法接触生产系统,仅能从与生产系统相连的源数据仓库中提供历史数据,此外,源数据仓库中包括了基本客户信息表、网站客户表、线下客户表以及贵宾客户表等,其中,仅有基本客户信息表中具备更新标识字段,其余各数据表均不具备所述更新标识字段,且网站客户表、线下客户表以及贵宾客户表等均基于各自的关联键与基本客户信息表相关联。
基于上述表述,可以基于本实施例提供的数据的处理方法来实现源数据仓库各数据表中更新数据到目标数据仓库的增量抽取,且执行数据的处理方法的处理装置同目标数据仓库一样集成在所述大数据平台上。
如图3所示,本发明实施例提供的数据的处理方法的优选实施例,具体包括如下操作:
S301、确定基本客户信息表在当前处理周期内的当前增量数据。
示例性地,由于所述基本客户信息表具备更新标识字段,所以可以基于现有的增量抽取方法获取当前处理周期内的当前增量数据。
S302、确定目标数据仓库中的当前数据表,并确定所述当前数据表与基本客户信息表关联的关联键。
示例性地,可以在大数据平台的数据仓库中确定当前待处理的数据表,作为当前数据表,所述当前数据表可以是与网站客户表、线下客户表以及贵宾客户表等对应的目标数据表。在确定所述当前数据表后,可以确定所述基本客户信息表与所述当前数据表建立表间关系是依据的关联键。
S303、根据数据查询语句确定所述关联键在所述当前增量数据中对应的增量数据值并存储。
示例性地,在确定所述关联键后,可以获取基于SQL编写的数据查询语句,并根据所述数据查询语句在所述基本客户信息表的当前增量数据中对应的增量数据值,之后,根据所获取增量数据值的数据量大小确定存储方式,并基于所述存储方式存储所述增量数据值。
S304、根据所存储的增量数据值生成查询请求,并发送所述查询请求至源数据仓库。
示例性地,为了获取所述当前数据表的目标增量数据,可以生成包含所述增量数据值的查询请求,并将所述查询请求传递给大数据平台上的信息交互组件(如Sqoop组件),由该组件将所述查询请求发送至于客户生产系统相连的源数据仓库。
S305、获取所述查询请求在所述源数据仓库的源数据表中对应的更新数据,其中,所述源数据表对应于所述当前数据表。
示例性地,对于源数据仓库而言,源数据仓库接收到所述查询请求后,在对应于所述当前数据表的源数据表中查询包含所述增量数据值的更新数据,所述源数据仓库将所述更新数据基于所述信息交互组件发送给作为大数据平台下的数据仓库;对于大数据平台下的数据仓库而言,获取所述源数据仓库端发送的更新数据。
S306、基于指定路径将所述更新数据作为目标增量数据写入所述当前数据表。
示例性地,在获取所述更新数据后,可以将所述更新数据作为目标增量数据基于指定的具体路径写入所述当前数据表中。由此实现源数据仓库不具备更新标识字段数据表中更新数据到大数据平台下数据仓库的增量抽取。
本发明实施例三提供的一种数据的处理方法,具体描述了在设定应用背景下更新数据从源数据仓库到大数据平台下数据仓库的增量抽取。该处理方法与现有的数据的增量抽取方式相比,具有更好的增量抽取性能,能够节省数据处理的处理时间,从而实现了增量抽取的多样化。
实施例四
图4为本发明实施例四提供的一种数据的处理装置的结构框图。该处理装置适用于跨数据仓库增量抽取更新数据的情况,其中,该装置可由软件和/或硬件实现,并一般和用于存放增量数据的数据仓库集成在同一个服务平台上。如图4所示,该处理装置包括:信息获取模块41、关联表确定模块42以及目标数据确定模块43。
其中,信息获取模块41,用于获取当前数据表的属性信息;
关联表确定模块42,用于根据所述当前数据表中的属性信息查找关联的增量数据表,其中,所述增量数据表中包含当前处理周期内获取的当前增量数据;
目标数据确定模块43,用于根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据。
在本实施例中,该处理装置首先通过信息获取模块41获取当前数据表的属性信息;然后通过关联表确定模块42根据所述当前数据表中的属性信息查找关联的增量数据表;最后通过目标数据确定模块43根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据。
本发明实施例四提供的一种数据的处理装置,能够对不具备更新标识字段的数据库表中更新数据简单高效地进行跨数据仓库的增量抽取,与现有的数据的增量抽取装置相比,该处理装置具有更好的增量抽取性能,能够节省数据处理的处理时间。
进一步地,关联表确定模块42,具体用于:
根据所述当前数据表中的属性信息,确定所述当前数据表中的关联键;根据所述关联键确定与所述当前数据表相关联的增量数据表。
进一步地,目标数据确定模块43,具体包括:
数据值存储单元,用于获取所述关联键在所述增量数据表的当前增量数据中对应的增量数据值并存储;目标数据获取单元,用于根据所存储的增量数据值查找所述当前数据表中的目标增量数据。
进一步地,所述数据值存储单元,具体用于:
通过设定的数据库查询语句查找所述关联键在所述增量数据表的当前增量数据中对应的增量数据值;根据所述增量数据值的数据量大小确定所述增量数据值的存储方式,并按照所述存储方式存储所述增量数据值。
进一步地,所述目标数据获取单元,具体用于:
根据所存储的增量数据值生成查询请求,并发送所述查询请求至源数据仓库;获取所述源数据仓库的源数据表中与所述查询请求对应的更新数据,其中,所述源数据表对应于所述当前数据表;按照预先指定的路径将所述更新数据作为目标增量数据写入所述当前数据表。
在上述实施例的基础上,所述当前数据表和所述增量数据表位于大数据平台的数据仓库中。
进一步地,所述大数据平台的数据仓库基于集成在大数据平台中的信息交互组件与其他数据仓库进行信息交互。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据的处理方法,其特征在于,包括:
获取当前数据表的属性信息;
根据所述当前数据表中的属性信息查找关联的增量数据表,其中,所述增量数据表中包含当前处理周期内获取的当前增量数据;
根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据。
2.根据权利要求1所述的方法,其特征在于,根据所述当前数据表中的属性信息查找关联的增量数据表,具体包括:
根据所述当前数据表中的属性信息,确定所述当前数据表中的关联键;
根据所述关联键确定与所述当前数据表相关联的增量数据表。
3.根据权利要求2所述的方法,其特征在于,根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据,具体包括:
获取所述关联键在所述增量数据表的当前增量数据中对应的增量数据值并存储;
根据所存储的增量数据值查找所述当前数据表中的目标增量数据。
4.根据权利要求3所述的方法,其特征在于,所述获取所述关联键在所述增量数据表的当前增量数据中对应的增量数据值并存储,包括:
通过设定的数据库查询语句查找所述关联键在所述增量数据表的当前增量数据中对应的增量数据值;
根据所述增量数据值的数据量大小确定所述增量数据值的存储方式,并按照所述存储方式存储所述增量数据值。
5.根据权利要求3所述的方法,其特征在于,所述根据所存储的增量数据值查找所述当前数据表中的目标增量数据,包括:
根据所存储的增量数据值生成查询请求,并发送所述查询请求至源数据仓库;
获取所述源数据仓库的源数据表中与所述查询请求对应的更新数据,其中,所述源数据表对应于所述当前数据表;
按照预先指定的路径将所述更新数据作为目标增量数据写入所述当前数据表。
6.根据权利要求1-5任一所述的方法,其特征在于,所述当前数据表和所述增量数据表位于大数据平台的数据仓库中。
7.根据权利要求6所述的方法,其特征在于,所述大数据平台的数据仓库基于集成在大数据平台中的信息交互组件与其他数据仓库进行信息交互。
8.一种数据的处理装置,其特征在于,包括:
信息获取模块,用于获取当前数据表的属性信息;
关联表确定模块,用于根据所述当前数据表中的属性信息查找关联的增量数据表,其中,所述增量数据表中包含当前处理周期内获取的当前增量数据;
目标数据确定模块,用于根据所述增量数据表中的当前增量数据,确定所述当前数据表的目标增量数据。
9.根据权利要求8所述的装置,其特征在于,关联表确定模块,具体用于:
根据所述当前数据表中的属性信息,确定所述当前数据表中的关联键;
根据所述关联键确定与所述当前数据表相关联的增量数据表。
10.根据权利要求8所述的装置,其特征在于,目标数据确定模块,具体包括:
数据值存储单元,用于获取所述关联键在所述增量数据表的当前增量数据中对应的增量数据值并存储;
目标数据获取单元,用于根据所存储的增量数据值查找所述当前数据表中的目标增量数据。
CN201610808765.7A 2016-09-07 2016-09-07 一种数据的处理方法及装置 Active CN106407360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610808765.7A CN106407360B (zh) 2016-09-07 2016-09-07 一种数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610808765.7A CN106407360B (zh) 2016-09-07 2016-09-07 一种数据的处理方法及装置

Publications (2)

Publication Number Publication Date
CN106407360A true CN106407360A (zh) 2017-02-15
CN106407360B CN106407360B (zh) 2020-07-24

Family

ID=57998886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610808765.7A Active CN106407360B (zh) 2016-09-07 2016-09-07 一种数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN106407360B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951490A (zh) * 2017-03-14 2017-07-14 清华大学 一种实时更正数据的存储与缓存读取方法
CN109213817A (zh) * 2018-08-10 2019-01-15 杭州数梦工场科技有限公司 增量数据抽取方法、装置及服务器
CN109388671A (zh) * 2018-10-10 2019-02-26 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN111930821A (zh) * 2020-09-08 2020-11-13 平安国际智慧城市科技股份有限公司 一种一步式数据交换方法、装置、设备及存储介质
CN112612818A (zh) * 2020-12-21 2021-04-06 贝壳技术有限公司 一种数据处理方法及装置、计算设备和存储介质
WO2021102888A1 (zh) * 2019-11-29 2021-06-03 京东方科技集团股份有限公司 数据处理设备和方法、计算机可读存储介质
CN113468234A (zh) * 2021-05-31 2021-10-01 济南浪潮数据技术有限公司 一种监控数据处理方法、装置、系统及存储介质
WO2022147908A1 (zh) * 2021-01-05 2022-07-14 平安科技(深圳)有限公司 基于表关联的丢失数据回收方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841897A (zh) * 2011-06-23 2012-12-26 阿里巴巴集团控股有限公司 一种实现增量数据抽取的方法、装置及系统
CN103853820A (zh) * 2014-02-20 2014-06-11 北京用友政务软件有限公司 一种数据处理方法及系统
CN104572672A (zh) * 2013-10-15 2015-04-29 北大方正集团有限公司 异构数据库的同步方法和应用系统
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841897A (zh) * 2011-06-23 2012-12-26 阿里巴巴集团控股有限公司 一种实现增量数据抽取的方法、装置及系统
CN104572672A (zh) * 2013-10-15 2015-04-29 北大方正集团有限公司 异构数据库的同步方法和应用系统
CN103853820A (zh) * 2014-02-20 2014-06-11 北京用友政务软件有限公司 一种数据处理方法及系统
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951490A (zh) * 2017-03-14 2017-07-14 清华大学 一种实时更正数据的存储与缓存读取方法
CN109213817A (zh) * 2018-08-10 2019-01-15 杭州数梦工场科技有限公司 增量数据抽取方法、装置及服务器
CN109388671A (zh) * 2018-10-10 2019-02-26 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN109388671B (zh) * 2018-10-10 2022-02-11 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
WO2021102888A1 (zh) * 2019-11-29 2021-06-03 京东方科技集团股份有限公司 数据处理设备和方法、计算机可读存储介质
CN113196257A (zh) * 2019-11-29 2021-07-30 京东方科技集团股份有限公司 数据处理设备和方法、计算机可读存储介质
CN111930821A (zh) * 2020-09-08 2020-11-13 平安国际智慧城市科技股份有限公司 一种一步式数据交换方法、装置、设备及存储介质
CN112612818A (zh) * 2020-12-21 2021-04-06 贝壳技术有限公司 一种数据处理方法及装置、计算设备和存储介质
WO2022147908A1 (zh) * 2021-01-05 2022-07-14 平安科技(深圳)有限公司 基于表关联的丢失数据回收方法、装置、设备及介质
CN113468234A (zh) * 2021-05-31 2021-10-01 济南浪潮数据技术有限公司 一种监控数据处理方法、装置、系统及存储介质
CN113468234B (zh) * 2021-05-31 2023-12-22 济南浪潮数据技术有限公司 一种监控数据处理方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN106407360B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN106407360A (zh) 一种数据的处理方法及装置
US8140495B2 (en) Asynchronous database index maintenance
US11599535B2 (en) Query translation for searching complex structures of objects
US5802524A (en) Method and product for integrating an object-based search engine with a parametrically archived database
US8380750B2 (en) Searching and displaying data objects residing in data management systems
US20030195889A1 (en) Unified relational database model for data mining
US20130268567A1 (en) System And Method For Updating Slowly Changing Dimensions
US20090094236A1 (en) Selection of rows and values from indexes with updates
US20150234870A1 (en) Dynamic mapping of extensible datasets to relational database schemas
CN106649378A (zh) 一种数据同步方法及装置
US6691122B1 (en) Methods, systems, and computer program products for compiling information into information categories using an expert system
US20100299324A1 (en) Information service for facts extracted from differing sources on a wide area network
CN101158958B (zh) 基于MySQL存储引擎的融合查询方法
CN101136027B (zh) 用于数据库索引、搜索和数据检索的系统和方法
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN114116716A (zh) 一种层次数据检索方法、装置和设备
US20050021542A1 (en) Converting object structures for search engines
CN109542892A (zh) 一种实时数据库的关系化实现方法、装置及系统
CN110750969B (zh) 一种生成报表的方法及装置
CN104346331A (zh) Xml数据库的检索方法及系统
CN105095424A (zh) 一种实现医院his系统中药品的高并发检索方法
CN114090760B (zh) 表格问答的数据处理方法、电子设备及可读存储介质
CN107169003B (zh) 一种数据关联方法及装置
US20120303608A1 (en) Method and system for caching lexical mappings for rdf data
CN111126461A (zh) 基于机器学习模型解释的智慧审计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant