CN109597807A - 数仓表处理方法和装置 - Google Patents

数仓表处理方法和装置 Download PDF

Info

Publication number
CN109597807A
CN109597807A CN201811251804.3A CN201811251804A CN109597807A CN 109597807 A CN109597807 A CN 109597807A CN 201811251804 A CN201811251804 A CN 201811251804A CN 109597807 A CN109597807 A CN 109597807A
Authority
CN
China
Prior art keywords
number storehouse
segment
storehouse
data
expression formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811251804.3A
Other languages
English (en)
Inventor
杨浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811251804.3A priority Critical patent/CN109597807A/zh
Publication of CN109597807A publication Critical patent/CN109597807A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种数仓表处理方法和装置,采用第一数仓表中第一表段的布隆索引对第二数仓表中与第一表段对应的第二表段进行过滤,能够在进行连接查询之前有效从第二数仓表中过滤掉与第一数仓表中的表数据不匹配的表数据,从而提高第一数仓表和第二数仓表的连接查询效率,节约连接查询时间。

Description

数仓表处理方法和装置
技术领域
本说明书涉及数据处理技术领域,尤其涉及数仓表处理方法和装置。
背景技术
在离线数据清洗过程中经常面临着一个数仓表连接查询另一个数仓表的情况。为了便于表示,可以将作为连接查询基础的数仓表称为第一数仓表,将被连接查询的数仓表称为第二数仓表。在很多情况下,数仓表中的表数据较多,一个数仓表中的表数据往往可以达到几亿条,甚至几十亿条数据。在这种情况下,连接查询过程会小号大量资源,并且执行速度较慢。因此,有必要对数仓表的连接查询过程进行改进。
发明内容
基于此,本说明书提供了数仓表处理方法和装置。
根据本说明书实施例的第一方面,提供一种数仓表处理方法,所述方法包括:获取第一数仓表中第一表段的布隆索引;其中,所述布隆索引根据第一表段中各条表数据的连接表达式生成;获取第二数仓表中与所述第一表段对应的第二表段,并分别计算所述第二表段中各条表数据的连接表达式;其中,第一数仓表与第二数仓表的分段方式相同;在对第一数仓表和第二数仓表中匹配的表数据进行连接查询之前,根据所述第二表段对应的连接表达式和所述第一表段的布隆索引对所述第二表段中的表数据进行过滤,其中,匹配的表数据为连接表达式相同的表数据。
进一步地,所述方法还包括:根据所述第一数仓表中各条表数据的连接表达式分别对所述第一数仓表中的各条表数据进行分段。
进一步地,根据所述第一数仓表中各条表数据的连接表达式分别对所述第一数仓表中的各条表数据进行分段的步骤包括:获取所述第一数仓表中各条表数据的连接表达式之值的哈希值,并计算所述哈希值与表段总数的余数;根据所述余数分别对所述第一数仓表中的各条表数据进行分段。
进一步地,在获取第二数仓表中与所述第一表段对应的第二表段之前,所述方法还包括:根据所述第一数仓表中各条表数据的第一连接表达式生成所述第一数仓表的布隆索引;获取第二数仓表中各条表数据的连接表达式;根据所述第二数仓表对应的连接表达式和所述第一数仓表的布隆索引对所述第二数仓表中的表数据进行过滤。
进一步地,在将对应的表数据从所述第二表段中过滤掉之后,所述方法还包括:对所述第一数仓表和第二数仓表进行连接查询。
进一步地,在对所述第一数仓表和第二数仓表进行连接查询之前,所述方法还包括:将所述第一数仓表写入内存,若内存不足,将所述第一数仓表换出到磁盘;和/或将所述第二数仓表写入内存,若内存不足,将所述第二数仓表换出到磁盘。
进一步地,当所述连接为内连接或者左连接时,所述第一数仓表为做表,所述第二数仓表为右表;当所述连接为右连接时,所述第二数仓表为做表,所述第一数仓表为右表。
根据本说明书实施例的第二方面,提供一种数仓表处理装置,所述装置包括:获取模块,用于获取第一数仓表中第一表段的布隆索引;其中,所述布隆索引根据第一表段中各条表数据的连接表达式生成;计算模块,用于获取第二数仓表中与所述第一表段对应的第二表段,并分别计算所述第二表段中各条表数据的连接表达式;其中,第一数仓表与第二数仓表的分段方式相同;过滤模块,用于在对第一数仓表和第二数仓表中匹配的表数据进行连接查询之前,根据所述第二表段对应的连接表达式和所述第一表段的布隆索引对所述第二表段中的表数据进行过滤,其中,匹配的表数据为连接表达式相同的表数据。
根据本说明书实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的方法。
根据本说明书实施例的第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。
根据本说明书实施例的第五方面,提供一种分布式处理系统,包括多个任一实施例所述的计算机设备,每台计算机设备用于对第二数仓表中的至少一个第二表段进行过滤。
应用本说明书实施例方案,由于布隆索引是根据第一表段中各条表数据的连接表达式生成的,并且当第二表段中的表数据与第一表段中的表数据相匹配时,对应表数据的连接表达式相同,因此,采用第一数仓表中第一表段的布隆索引对第二数仓表中与第一表段对应的第二表段进行过滤,能够在进行连接查询之前有效从第二数仓表中过滤掉与第一数仓表中的表数据不匹配的表数据,从而提高第一数仓表和第二数仓表的连接查询效率,节约连接查询时间。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本说明书一个实施例的数仓表处理方法流程图。
图2是本说明书一个实施例的第一阶段的数仓表处理流程示意图。
图3是本说明书一个实施例的第二阶段的数仓表处理流程示意图。
图4(a)和图4(b)分别是本说明书一个实施例的过滤前后的数仓表的示意图。
图5是本说明书一个实施例的数仓表处理装置的框图。
图6是本说明书一个实施例的用于实施本说明书实施例方法的计算机设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在连接查询过程中,一般涉及两个数仓表,为了方便描述,分别称为第一数仓表和第二数仓表,其中,第一数仓表可以指用来作为连接查询基础的数仓表,第二数仓表可以指被连接查询到第一数仓表的数仓表。连接查询过程一般可分为内连接、左外连接和右外连接,在内连接和左外连接中,第一数仓表可以指左表,第二数仓表指右表;在右外连接中,第一数仓表可以指右表,第二数仓表指左表。
如图1所示,本说明书实施例的数仓表处理方法可包括:
步骤102:获取第一数仓表中第一表段的布隆索引;其中,所述布隆索引根据第一表段中各条表数据的连接表达式生成;
步骤104:获取第二数仓表中与所述第一表段对应的第二表段,并分别计算所述第二表段中各条表数据的连接表达式;其中,第一数仓表与第二数仓表的分段方式相同;
步骤106:在对第一数仓表和第二数仓表中匹配的表数据进行连接查询之前,根据所述第二表段对应的连接表达式和所述第一表段的布隆索引对所述第二表段中的表数据进行过滤,其中,匹配的表数据为连接表达式相同的表数据。
在本实施例中,第一数仓表可以预先分为若干个第一表段,每个第一表段包括第一数仓表的若干条数据。对于每个第一表段可按照相同的方式处理。以下针对其中一个第一表段的处理方式进行说明。
首先,采用该第一表段中各条表数据的连接表达式生成该第一表段的布隆索引。可以首先计算第一表段中各条表数据的连接表达式之值,然后计算每个连接表达式之值的键(key),将各个key加入到集合中,该集合即为第一表段的布隆索引。可以将集合添加到一个文件中,以备后续使用。
然后,可以获取第二数仓表中与所述第一表段对应的第二表段。第二数仓表可以预先分为若干个第二表段,每个第二表段包括第二数仓表的若干条数据。应当说明的是,第二数仓表的分段方式应当与第一数仓表相同,以便尽可能地将两个表段中不匹配的表数据过滤掉。
在一个实施例中,可以根据所述第一数仓表中各条表数据的连接表达式分别对所述第一数仓表中的各条表数据进行分段。例如,可以获取所述第一数仓表中各条表数据的连接表达式之值的哈希值,并计算所述哈希值与表段总数的余数;根据所述余数分别对所述第一数仓表中的各条表数据进行分段。当然,也可以采用其他方式对所述第一数仓表中的各条表数据进行分段。
在一个实施例中,在获取第二数仓表中与所述第一表段对应的第二表段之前,还可以根据所述第一数仓表中各条表数据的第一连接表达式生成所述第一数仓表的布隆索引;获取第二数仓表中各条表数据的连接表达式;根据所述第二数仓表对应的连接表达式和所述第一数仓表的布隆索引对所述第二数仓表中的表数据进行过滤。
上述过程可划分为两个阶段进行处理,分别如图2和图3所示。图2示出的是第一阶段的数据过滤过程。在本阶段,先读取第一数仓表(表1)中所有需要参与计算的数据,根据第一数仓表的连接表达式之值Op(leftOp)生成布隆索引,并将布隆索引写入文件。还可以将第一数仓表中所有数据按照Op(leftOp)的哈希值除以预设的表段总数n取余得到各条表数据应该存储的段位置后分段存储。本步骤在生成布隆索引的步骤之前或者之后均可。然后,可以读取布隆索引文件,针对第二数仓表(表2)中每一行表数据,判断第二数仓表的连接表达式之值Op(rightOp)是否在布隆索引中,若不在则将该条表数据从第二数仓表中过滤掉,继续读取下一条表数据;否则执行下一步。将第二数仓表中所有数据按照Op(rightOp)的哈希值除以表段总数n取余得到各条表数据应该存储的段位置后分段存储。
图3示出的是第二阶段的数据过滤过程。在本阶段,可以并行对前述n个表段中的数据进行处理。对于第一数仓表中的第i(1≤i≤n)个表段pi,首先拉取pi中的所有数据,针对pi中所有的Op(leftOp)生成布隆索引,并放入内存。然后,可将pi中的表数据写入映射表map中,键=Op(leftOp),值=row(row为该表数据在pi中的行数),若存储不下,则将其换出到文件中。对于第二数仓表中的第i(1≤i≤n)个表段qi,过滤Op(rightOp)不在布隆索引中的所有数据,然后将剩余的表数据的写入和表1同一个map中,若内存不足,则将qi中的全部数据换出到磁盘。最后,根据键值合并内存和磁盘数据,迭代返回连接查询结果。
通过整个数仓表的布隆索引对整个数仓表进行过滤,从整个数仓表中滤除无用数据,再按照前述方法对表段进行过滤,无需将所有数据按照一个固定表达式分段写文件,降低了数据清洗成本,同时提高了数据过滤效果。
另一方面,如果第一数仓表和第二数仓表均在开始存储时就分别通过各自的连接表达式之值的哈希值取模分段存储,那么加载计算时不需要生成一个大而全的布隆索引,只需要针对每一段生成一个布隆索引,全局同时生成分段数个布隆索引就可以了,不需要做两段布隆索引。
由于整个数仓表的布隆索引对应的集合太大,可能导致布隆索引误判,把不满足连接表达式的部分数据也放过。在采用整个数仓表的布隆索引对数仓表进行过滤之后,又采用单独的表段的布隆索引进行过滤,由于表段的布隆索引只针对其中一段数据,布隆索引大大减少,可以将之前误判放过的数据过滤掉大部分,节约内存空间,加快计算流程。
在将对应的表数据从所述第二表段中过滤掉之后,可以对所述第一数仓表和第二数仓表进行连接查询。由于布隆索引是根据第一表段中各条表数据的连接表达式生成的,并且当第二表段中的表数据与第一表段中的表数据相匹配时,对应表数据的连接表达式相同,因此,采用第一数仓表中第一表段的布隆索引对第二数仓表中与第一表段对应的第二表段进行过滤,能够在进行连接查询之前有效从第二数仓表中过滤掉与第一数仓表中的表数据不匹配的表数据,从而提高第一数仓表和第二数仓表的连接查询效率,节约连接查询时间。
过滤前后的数仓表分别如图4(a)和图4(b)所示。通过比较可以看出,本方案通过两级的过滤体系,在最终计算前分阶段淘汰掉大部分的无关数据,优化了内存的使用,从而可以减少连接查询计算的工作量,提升系统的稳定性,加快任务的执行速度。
在一个实施例中,还可以将所述第一数仓表写入内存,若内存不足,将所述第一数仓表换出到磁盘;和/或将所述第二数仓表写入内存,若内存不足,将所述第二数仓表换出到磁盘。
以上实施例中的各种技术特征可以任意进行组合,只要特征之间的组合不存在冲突或矛盾,但是限于篇幅,未进行一一描述,因此上述实施方式中的各种技术特征的任意进行组合也属于本说明书公开的范围。
如图5所示,是本说明书一个实施例的数仓表处理装置的框图。所述装置可包括:
获取模块502,用于获取第一数仓表中第一表段的布隆索引;其中,所述布隆索引根据第一表段中各条表数据的连接表达式生成;
计算模块504,用于获取第二数仓表中与所述第一表段对应的第二表段,并分别计算所述第二表段中各条表数据的连接表达式;其中,第一数仓表与第二数仓表的分段方式相同;
过滤模块506,用于在对第一数仓表和第二数仓表中匹配的表数据进行连接查询之前,根据所述第二表段对应的连接表达式和所述第一表段的布隆索引对所述第二表段中的表数据进行过滤,其中,匹配的表数据为连接表达式相同的表数据。
上述装置中各个模块的功能和作用的实现过程具体详情见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本说明书装置所在计算机设备的一种硬件结构图,除了图6所示的处理器602、内存604、网络接口606、以及非易失性存储器608之外,实施例中装置所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应地,本说明书实施例还提供一种计算机存储介质,所述存储介质中存储有程序,所述程序被处理器执行时实现上述任一实施例中的方法。
相应地,本说明书实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例中的方法。
本说明书实施例中的方法可由分布式处理系统执行。分布式处理系统可包括上述多台计算机设备,每台计算机设备可以处理一段或者多段数仓表,在分布式处理系统中启动n个任务,以处理上述n个表段,各个任务可以并行执行。将各台计算机设备的数据汇总,即可对整个数仓表进行过滤,进而得到整个数仓表的连接查询结果。
本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员在考虑说明书及实践这里公开的说明书后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (11)

1.一种数仓表处理方法,所述方法包括:
获取第一数仓表中第一表段的布隆索引;其中,所述布隆索引根据第一表段中各条表数据的连接表达式生成;
获取第二数仓表中与所述第一表段对应的第二表段,并分别计算所述第二表段中各条表数据的连接表达式;其中,第一数仓表与第二数仓表的分段方式相同;
在对第一数仓表和第二数仓表中匹配的表数据进行连接查询之前,根据所述第二表段对应的连接表达式和所述第一表段的布隆索引对所述第二表段中的表数据进行过滤,其中,匹配的表数据为连接表达式相同的表数据。
2.根据权利要求1所述的方法,所述方法还包括:
根据所述第一数仓表中各条表数据的连接表达式分别对所述第一数仓表中的各条表数据进行分段。
3.根据权利要求2所述的方法,根据所述第一数仓表中各条表数据的连接表达式分别对所述第一数仓表中的各条表数据进行分段的步骤包括:
获取所述第一数仓表中各条表数据的连接表达式之值的哈希值,并计算所述哈希值与表段总数的余数;
根据所述余数分别对所述第一数仓表中的各条表数据进行分段。
4.根据权利要求3所述的方法,在获取第二数仓表中与所述第一表段对应的第二表段之前,所述方法还包括:
根据所述第一数仓表中各条表数据的第一连接表达式生成所述第一数仓表的布隆索引;
获取第二数仓表中各条表数据的连接表达式;
根据所述第二数仓表对应的连接表达式和所述第一数仓表的布隆索引对所述第二数仓表中的表数据进行过滤。
5.根据权利要求1至4任意一项所述的方法,在将对应的表数据从所述第二表段中过滤掉之后,所述方法还包括:
对所述第一数仓表和第二数仓表进行连接查询。
6.根据权利要求5所述的方法,在对所述第一数仓表和第二数仓表进行连接查询之前,所述方法还包括:
将所述第一数仓表写入内存,若内存不足,将所述第一数仓表换出到磁盘;和/或
将所述第二数仓表写入内存,若内存不足,将所述第二数仓表换出到磁盘。
7.根据权利要求5所述的方法,当所述连接为内连接或者左连接时,所述第一数仓表为做表,所述第二数仓表为右表;当所述连接为右连接时,所述第二数仓表为做表,所述第一数仓表为右表。
8.一种数仓表处理装置,所述装置包括:
获取模块,用于获取第一数仓表中第一表段的布隆索引;其中,所述布隆索引根据第一表段中各条表数据的连接表达式生成;
计算模块,用于获取第二数仓表中与所述第一表段对应的第二表段,并分别计算所述第二表段中各条表数据的连接表达式;其中,第一数仓表与第二数仓表的分段方式相同;
过滤模块,用于在对第一数仓表和第二数仓表中匹配的表数据进行连接查询之前,根据所述第二表段对应的连接表达式和所述第一表段的布隆索引对所述第二表段中的表数据进行过滤,其中,匹配的表数据为连接表达式相同的表数据。
9.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至7任意一项所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7任意一项所述的方法。
11.一种分布式处理系统,包括多个权利要求10所述的计算机设备,每台计算机设备用于对第二数仓表中的至少一个第二表段进行过滤。
CN201811251804.3A 2018-10-25 2018-10-25 数仓表处理方法和装置 Pending CN109597807A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811251804.3A CN109597807A (zh) 2018-10-25 2018-10-25 数仓表处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811251804.3A CN109597807A (zh) 2018-10-25 2018-10-25 数仓表处理方法和装置

Publications (1)

Publication Number Publication Date
CN109597807A true CN109597807A (zh) 2019-04-09

Family

ID=65958078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811251804.3A Pending CN109597807A (zh) 2018-10-25 2018-10-25 数仓表处理方法和装置

Country Status (1)

Country Link
CN (1) CN109597807A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309737A (zh) * 2020-03-11 2020-06-19 支付宝(杭州)信息技术有限公司 名单查询方法、装置及设备
CN111475492A (zh) * 2020-05-14 2020-07-31 支付宝(杭州)信息技术有限公司 数据处理方法以及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678550A (zh) * 2013-09-09 2014-03-26 南京邮电大学 一种基于动态索引结构的海量数据实时查询方法
CN104572727A (zh) * 2013-10-22 2015-04-29 阿里巴巴集团控股有限公司 一种数据查询方法及装置
CN105718455A (zh) * 2014-12-01 2016-06-29 阿里巴巴集团控股有限公司 一种数据查询方法及装置
CN105760419A (zh) * 2015-01-07 2016-07-13 国际商业机器公司 用于连接处理的方法和系统
CN106372190A (zh) * 2016-08-31 2017-02-01 华北电力大学(保定) 实时olap查询方法和装置
CN106445944A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 一种数据查询请求的处理方法、装置及电子设备
CN108287840A (zh) * 2017-01-09 2018-07-17 北京大学 一种基于矩阵哈希的数据存储和查询方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678550A (zh) * 2013-09-09 2014-03-26 南京邮电大学 一种基于动态索引结构的海量数据实时查询方法
CN104572727A (zh) * 2013-10-22 2015-04-29 阿里巴巴集团控股有限公司 一种数据查询方法及装置
CN105718455A (zh) * 2014-12-01 2016-06-29 阿里巴巴集团控股有限公司 一种数据查询方法及装置
CN105760419A (zh) * 2015-01-07 2016-07-13 国际商业机器公司 用于连接处理的方法和系统
CN106445944A (zh) * 2015-08-06 2017-02-22 阿里巴巴集团控股有限公司 一种数据查询请求的处理方法、装置及电子设备
CN106372190A (zh) * 2016-08-31 2017-02-01 华北电力大学(保定) 实时olap查询方法和装置
CN108287840A (zh) * 2017-01-09 2018-07-17 北京大学 一种基于矩阵哈希的数据存储和查询方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309737A (zh) * 2020-03-11 2020-06-19 支付宝(杭州)信息技术有限公司 名单查询方法、装置及设备
CN111475492A (zh) * 2020-05-14 2020-07-31 支付宝(杭州)信息技术有限公司 数据处理方法以及装置

Similar Documents

Publication Publication Date Title
CN106844477B (zh) 区块链系统、区块查找方法和区块链后向同步方法
US20110295855A1 (en) Graph-Processing Techniques for a MapReduce Engine
CN108140050B (zh) 一种使用布隆过滤器过滤文件的方法及装置
CN106156070B (zh) 一种查询方法、文件合并方法与相关装置
US10002142B2 (en) Method and apparatus for generating schema of non-relational database
CN112287182A (zh) 图数据存储、处理方法、装置及计算机存储介质
CN105630803B (zh) 文档型数据库建立索引的方法和装置
EP3079077A1 (en) Graph data query method and device
CN106960020B (zh) 一种创建索引表的方法及设备
TWI673617B (zh) 使用者背景資訊的收集方法及裝置
CN105224534A (zh) 一种请求响应的方法及装置
CN104268295A (zh) 一种数据查询方法及装置
CN105426375A (zh) 一种关系网络的计算方法及装置
CN105391594A (zh) 识别特征账号的方法及装置
CN109597807A (zh) 数仓表处理方法和装置
CN107451204B (zh) 一种数据查询方法、装置及设备
CN104765754A (zh) 数据存储方法及装置
CN105653546B (zh) 一种目标主题的检索方法和系统
US10210281B2 (en) Method and system for obtaining knowledge point implicit relationship
CN105574041A (zh) 一种数据重组方法和装置
CN104537016B (zh) 一种确定文件所在分区的方法及装置
US10169418B2 (en) Deriving a multi-pass matching algorithm for data de-duplication
CN109582834A (zh) 数据风险预测方法及装置
CN104298614A (zh) 数据块在存储设备中存储方法和存储设备
CN111259062B (zh) 一种能够保证分布式数据库全表查询语句结果集顺序的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200927

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200927

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190409