CN115470223A - 一种基于两层时间标识的数据湖数据增量消费方法 - Google Patents
一种基于两层时间标识的数据湖数据增量消费方法 Download PDFInfo
- Publication number
- CN115470223A CN115470223A CN202211070114.4A CN202211070114A CN115470223A CN 115470223 A CN115470223 A CN 115470223A CN 202211070114 A CN202211070114 A CN 202211070114A CN 115470223 A CN115470223 A CN 115470223A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- lake
- batch
- timestamp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 6
- 238000013500 data storage Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013523 data management Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2308—Concurrency control
- G06F16/2315—Optimistic concurrency control
- G06F16/2322—Optimistic concurrency control using timestamps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于两层时间标识的数据湖数据增量消费方法,涉及数据湖技术领域,包括数据写入数据湖和查询数据湖中的数据两个阶段;在数据写入数据湖阶段,需要:创建增量表,启动时间服务器生成时间戳来作为写入数据的时间标识,生成多个空文件,将有时间标识的数据写入空文件,并在文件名称中增设时间戳;在查询数据湖中的数据阶段,需要:指定待消费的增量表、起始消费的时间戳、每次消费的时间范围,判断增量表是否支持增量查询,在支持时解析SQL语句,生成Job,获取时间戳字段,进而过滤增量表,获取满足要求的文件存储路径。本发明可以快速定位数据的存储路径,实现数据的增量查询,解决数据进入数据湖后无法进行增量消费的缺陷。
Description
技术领域
本发明涉及数据湖技术领域,具体的说是一种基于两层时间标识的数据湖数据增量消费方法。
背景技术
数据管理技术发展到现在主要有三个阶段:数据仓库、数据湖以及现阶段提出来的湖仓一体。
数据仓库主要依托传统数据库,实现数据的存储、计算和访问,主要是用来做BI(全称Business Intelligence,商业智能,又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值)和报表等功能,数据仓库主要特点是:数据体系严格,格式标准、数据治理相对容易,面向特定引擎容易获得高度优化,缺点是仅能支持结构化数据、集群扩展性较差。
数据湖发展至今大约有不到10年的时间,目前主要依托于Hadoop生态,用于构建可以存储结构化、半结构化和非结构化的数据,可以面向异构数据的科学探索和价值挖掘,但是数据比较灵活,数据治理难度较大,导致数据利用程度较低。
为融合两者的优势,现阶段提出了湖仓一体大数据架构,数据湖吸收数据仓库的优势,打通二者之前的数据壁垒,提供一个从数据入湖到数据存储、计算、治理再到数据服务、机器学习等引用的支持,形成一个完整的闭环体系,真正做到一次入湖,多次利用的大数据解决方案。
当前,湖仓一体平台最主要的一个特点是支持流批融合的计算场景,要做到流计算场景的应用,就需要平台支持增量的数据写入和消费。Hadoop是当前大数据主流的生态框架,基于Hadoop衍生了Hive、HBase、Spark等大数据存储和计算的优秀框架。基于Hadoop生态构建数据湖是目前主流的大数据技术趋势。但是,目前的数据湖的架构存在一个重要的功能缺陷:数据湖中的数据不支持增量消费。比如通过Hive、Spark等查询Hadoop中的增量数据,需要对分区、全表进行过滤,这实际上是和全量查询计算没有太大的区别,时间复杂度都是0(n),这就代表着数据越大,查询消耗的时间就越长。而对于增量来说,数据写入数据湖的速率是基本不变的,因此想要做到增量消费,那么它的时间复杂度的目标就是O(1)。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种基于两层时间标识的数据湖数据增量消费方法,解决数据进入数据湖后无法进行增量消费的缺陷。
本发明的一种基于两层时间标识的数据湖数据增量消费方法,解决上述技术问题采用的技术方案如下:
一种基于两层时间标识的数据湖数据增量消费方法,该方法包括数据写入数据湖和查询数据湖中的数据两个阶段;
(1)在数据写入数据湖阶段,
(1.1)根据数据的表结构信息,在“metastore”中创建增量表,“metastore”为元数据服务,
(1.2)获取本批次数据,启动一个线程作为时间服务器,客户端通过时间服务器操作系统的本地时间,生成一个时间戳Ti,时间戳Ti作为本批次数据写入数据湖的时间标识,
(1.3)预估本批次数据包含的数据量,创建Y个文件,
(1.4)根据文件个数划分本批次数据,并对应写入到Y个文件中,数据写入文件的过程中,在文件的页脚写入数据统计信息,所述数据统计信息包括该文件包含的数据量、列存储的最大值信息和最小值信息,在文件的页眉写入布隆索引,
(1.5)本批次数据全部写入数据湖后,将本批次数据的写入作为Log记录到commit文件中;
(2)在查询数据湖中的数据阶段,
(2.1)通过执行set方法指定需要消费的增量表、起始消费的时间戳T0、每次消费的时间范围between_time,
(2.2)判断步骤(2.1)中被指定的增量表是否支持增量查询,若支持,则继续执行步骤(2.3),
(2.3)解析SQL语句,生成Job,在Job中获取时间戳字段“_commit_time_”的值,即起始消费的时间戳T0,
(2.4)通过时间戳T0过滤当前增量表,获取满足大于时间戳T0的文件的存储路径,多个文件的存储路径形成文件lists[]数组,将文件lists[]数组返回给Job,以生成执行的task任务。
可选的,执行步骤(1.1)创建的增量表包括表的名字、表的字段、表的存储格式以及表的实际存储位置。
可选的,执行步骤(1.1)创建增量表时,需要增加一个时间戳字段“_commit_time_”,需要执行数据的存储格式为Parquet格式,需要提供唯一字段作为表的主键信息,支持UUID默认模式。
可选的,执行步骤(1.2)将生成的时间戳Ti作为本批次数据写入数据湖的时间标识后,
客户端首先调用API接口,获取数据湖的上批次数据写入数据湖的时间戳Ti-1,
随后对比本批次数据的时间戳Ti和上批次数据的时间戳Ti-1,
(a)如果时间戳Ti小于时间戳Ti-1,则表示时间服务器有异常,或者,并发写入数据导致时间出现冲突,此时,客户端会将本批次数据写入失败队列,随后抛出异常给前台,提示客户端处理异常后,再继续本批次数据的写入,
(b)如果时间戳Ti大于时间戳Ti-1,则直接将时间戳Ti作为本批次数据写入数据湖的时间标识。
进一步可选的,执行步骤(1.3),创建Y个文件的具体流程为:
预估本批次需要写入数据湖的数据量为X,每条数据占用的存储空间为m,设定每个文件的阈值threshold,那么,需要创建的文件个数为Y=mX/threshold。
优选的,生成的文件为Parquet格式,命名规则为:随机符串+时间戳+本次写入文件数量序列。
进一步可选的,执行步骤(1.4),在文件的页眉写入布隆索引的具体操作为:
首先,基于该文件中写入的数据量,获取该文件的实际阈值,
然后,根据该文件的实际阈值确定需要多少个bit位来存储布隆索引,
再然后,对每一行的UUID通过多次hash算法计算出多个位置的结果标志,将标识根据bit标志位写入bit存储中,
最后,在写入每一行数据时,给这条记录数据增加时间戳字段“_commit_time_”并赋值为Ti。
进一步可选的,Log的内容包含:本批次共写入多少数据,新创建了哪些文件,哪些文件被合并导致旧文件失效,以及本批次写入的时间戳Ti。
优选的,时间戳的格式为yyyymmddhhmmss。
进一步可选的,执行步骤(2.3),在Job中获取时间戳字段“_commit_time_”的值,即起始消费的时间戳T0,具体流程为:
(2.3.1)解析SQL语句,生成Job,通过语法分析器获取Conditions,判断语法是否符合增量查询的格式,若符合,则继续执行(2.3.2);
(2.3.2)获取时间戳字段_commit_time_,通过关键字从hash表中获取增量查询的起始时间标识T0;
(2.3.3)判断时间标识T0是否符合时间戳的格式,若符合,则返回起始消费的时间戳T0;
(2.3.4)获取执行set时配置参数中的时间范围between_time,基于起始消费的时间戳T0,生成结束时间戳Tend。
本发明的一种基于两层时间标识的数据湖数据增量消费方法,与现有技术相比具有的有益效果是:
本发明在将数据写入数据湖时给不同批次的数据增加时间标识,在将同一批次的数据写入数据湖的文件时又在文件名称中增加时间标识,这两次时间标识的增加可以快速定位数据的存储路径,实现数据的增量查询,满足实时计算的业务需求,解决数据进入数据湖后无法进行增量消费的缺陷,将时间复杂度由0(n)降到O(1)。
附图说明
附图1是本发明数据写入数据湖阶段的流程示意图;
附图2是本发明查询数据湖中的数据的流程示意图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
本实施例提出一种基于两层时间标识的数据湖数据增量消费方法,该方法包括数据写入数据湖和查询数据湖中的数据两个阶段。
(1)结合附图1,在数据写入数据湖阶段:
(1.1)根据数据的表结构信息,在“metastore”中创建增量表,“metastore”为元数据服务。
创建的增量表包括表的名字、表的字段、表的存储格式以及表的实际存储位置。
创建增量表时,需要增加一个时间戳字段“_commit_time_”,需要执行数据的存储格式为Parquet格式,需要提供唯一字段作为表的主键信息,支持UUID默认模式。
(1.2)获取本批次数据,启动一个线程作为时间服务器,客户端通过时间服务器操作系统的本地时间,生成一个格式为yyyymmddhhmmss的时间戳Ti,时间戳Ti作为本批次数据写入数据湖的时间标识,随后,客户端调用API接口,获取数据湖的上批次数据写入数据湖的时间戳Ti-1,并进一步对比本批次数据的时间戳Ti和上批次数据的时间戳Ti-1,
(a)如果时间戳Ti小于时间戳Ti-1,则表示时间服务器有异常,或者,并发写入数据导致时间出现冲突,此时,客户端会将本批次数据写入失败队列,随后抛出异常给前台,提示客户端处理异常后,再继续本批次数据的写入,
(b)如果时间戳Ti大于时间戳Ti-1,则直接将时间戳Ti作为本批次数据写入数据湖的时间标识。
(1.3)预估本批次数据包含的数据量,生成Y个Parquet格式的文件,具体流程为:
预估本批次需要写入数据湖的数据量为X,每条数据占用的存储空间为m,
设定每个文件的阈值threshold,
那么,需要创建的文件个数为Y=mX/threshold。
将文件的命名规则设定为:随机符串+时间戳+本次写入文件数量序列,比如说123e4567-e89b-12d3-a456-426655440000_20211102171312789_2.parquet,这就是满足文件命名规则的文件名称。
(1.4)根据文件个数划分本批次数据,并对应写入到Y个文件中。
数据写入文件的过程中,
在文件的页脚写入数据统计信息,数据统计信息包括该文件包含的数据量、列存储的最大值信息和最小值信息;
在文件的页眉写入布隆索引,具体操作为:
首先,基于该文件中写入的数据量,获取该文件的实际阈值,
然后,根据该文件的实际阈值确定需要多少个bit位来存储布隆索引,
再然后,对每一行的UUID通过多次hash算法计算出多个位置的结果标志,将标识根据bit标志位写入bit存储中,
最后,在写入每一行数据时,给这条记录数据增加时间戳字段“_commit_time_”并赋值为Ti。
(1.5)本批次数据全部写入数据湖后,将本批次数据的写入作为Log记录到commit文件中。Log的内容包含:本批次共写入多少数据,新创建了哪些文件,哪些文件被合并导致旧文件失效,以及本批次写入的时间戳Ti。
(2)结合附图2,在查询数据湖中的数据阶段:
(2.1)通过执行set方法指定需要消费的增量表、起始消费的时间戳T0、每次消费的时间范围between_time。执行set方法设定格式为:support.increment.table=database.tablename。
(2.2)判断步骤(2.1)中被指定的增量表是否支持增量查询,若支持,则继续执行步骤(2.3)。
(2.3)解析SQL语句,生成Job,在Job中获取时间戳字段“_commit_time_”的值,即起始消费的时间戳T0,具体流程为:
(2.3.1)解析SQL语句,生成Job,通过语法分析器获取Conditions,判断语法是否符合增量查询的格式,若符合,则继续执行(2.3.2);
(2.3.2)获取时间戳字段_commit_time_,通过关键字从hash表中获取增量查询的起始时间标识T0;
(2.3.3)判断时间标识T0是否符合时间戳的格式,若符合,则返回起始消费的时间戳T0;
(2.3.4)获取执行set时配置参数中的时间范围between_time,基于起始消费的时间戳T0,生成结束时间戳Tend。
(2.4)通过时间戳T0过滤当前增量表,获取满足大于时间戳T0的文件的存储路径,多个文件的存储路径形成文件lists[]数组,将文件lists[]数组返回给Job,以生成执行的task任务。
综上可知,采用本发明的一种基于两层时间标识的数据湖数据增量消费方法,可以快速定位数据的存储路径,实现数据的增量查询,满足实时计算的业务需求,解决数据进入数据湖后无法进行增量消费的缺陷,将时间复杂度由0(n)降到O(1)。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。
Claims (10)
1.一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,所述方法包括数据写入数据湖和查询数据湖中的数据两个阶段;
(1)在数据写入数据湖阶段,
(1.1)根据数据的表结构信息,在“metastore”中创建增量表,
(1.2)获取本批次数据,启动一个线程作为时间服务器,客户端通过时间服务器操作系统的本地时间,生成一个时间戳Ti,时间戳Ti作为本批次数据写入数据湖的时间标识,
(1.3)预估本批次数据包含的数据量,创建Y个文件,
(1.4)根据文件个数划分本批次数据,并对应写入到Y个文件中,数据写入文件的过程中,在文件的页脚写入数据统计信息,所述数据统计信息包括该文件包含的数据量、列存储的最大值信息和最小值信息,在文件的页眉写入布隆索引,
(1.5)本批次数据全部写入数据湖后,将本批次数据的写入作为Log记录到commit文件中;
(2)在查询数据湖中的数据阶段,
(2.1)通过执行set方法指定需要消费的增量表、起始消费的时间戳T0、每次消费的时间范围between_time,
(2.2)判断步骤(2.1)中被指定的增量表是否支持增量查询,若支持,则继续执行步骤(2.3),
(2.3)解析SQL语句,生成Job,在Job中获取时间戳字段“_commit_time_”的值,即起始消费的时间戳T0,
(2.4)通过时间戳T0过滤当前增量表,获取满足大于时间戳T0的文件的存储路径,多个文件的存储路径形成文件lists[]数组,将文件lists[]数组返回给Job,以生成执行的task任务。
2.根据权利要求1所述的一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,执行步骤(1.1)创建的增量表包括表的名字、表的字段、表的存储格式以及表的实际存储位置。
3.根据权利要求2所述的一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,执行步骤(1.1)创建增量表时,需要增加一个时间戳字段“_commit_time_”,需要执行数据的存储格式为Parquet格式,需要提供唯一字段作为表的主键信息,支持UUID默认模式。
4.根据权利要求1或3所述的一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,执行步骤(1.2)将生成的时间戳Ti作为本批次数据写入数据湖的时间标识后,
客户端首先调用API接口,获取数据湖的上批次数据写入数据湖的时间戳Ti-1,随后对比本批次数据的时间戳Ti和上批次数据的时间戳Ti-1,
(a)如果时间戳Ti小于时间戳Ti-1,则表示时间服务器有异常,或者,并发写入数据导致时间出现冲突,此时,客户端会将本批次数据写入失败队列,随后抛出异常给前台,提示客户端处理异常后,再继续本批次数据的写入,
(b)如果时间戳Ti大于时间戳Ti-1,则直接将时间戳Ti作为本批次数据写入数据湖的时间标识。
5.根据权利要求3所述的一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,执行步骤(1.3),创建Y个文件的具体流程为:
预估本批次需要写入数据湖的数据量为X,每条数据占用的存储空间为m,设定每个文件的阈值threshold,那么,需要创建的文件个数为Y=mX/threshold。
6.根据权利要求5所述的一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,生成的文件为Parquet格式,命名规则为:随机符串+时间戳+本次写入文件数量序列。
7.根据权利要求3所述的一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,执行步骤(1.4),在文件的页眉写入布隆索引的具体操作为:
首先,基于该文件中写入的数据量,获取该文件的实际阈值,
然后,根据该文件的实际阈值确定需要多少个bit位来存储布隆索引,
再然后,对每一行的UUID通过多次hash算法计算出多个位置的结果标志,将标识根据bit标志位写入bit存储中,
最后,在写入每一行数据时,给这条记录数据增加时间戳字段“_commit_time_”并赋值为Ti。
8.根据权利要求1所述的一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,Log的内容包含:本批次共写入多少数据,新创建了哪些文件,哪些文件被合并导致旧文件失效,以及本批次写入的时间戳Ti。
9.根据权利要求1所述的一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,时间戳的格式为yyyymmddhhmmss。
10.根据权利要求9所述的一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,执行步骤(2.3),在Job中获取时间戳字段“_commit_time_”的值,即起始消费的时间戳T0,具体流程为:
(2.3.1)解析SQL语句,生成Job,通过语法分析器获取Conditions,判断语法是否符合增量查询的格式,若符合,则继续执行(2.3.2);
(2.3.2)获取时间戳字段_commit_time_,通过关键字从hash表中获取增量查询的起始时间标识T0;
(2.3.3)判断时间标识T0是否符合时间戳的格式,若符合,则返回起始消费的时间戳T0;
(2.3.4)获取执行set时配置参数中的时间范围between_time,基于起始消费的时间戳T0,生成结束时间戳Tend。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211070114.4A CN115470223A (zh) | 2022-09-02 | 2022-09-02 | 一种基于两层时间标识的数据湖数据增量消费方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211070114.4A CN115470223A (zh) | 2022-09-02 | 2022-09-02 | 一种基于两层时间标识的数据湖数据增量消费方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470223A true CN115470223A (zh) | 2022-12-13 |
Family
ID=84369681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211070114.4A Pending CN115470223A (zh) | 2022-09-02 | 2022-09-02 | 一种基于两层时间标识的数据湖数据增量消费方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470223A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251214A (zh) * | 2023-11-17 | 2023-12-19 | 北京偶数科技有限公司 | 基于分布式数据库Apache Hudi表格式数据操作指令的执行方法 |
-
2022
- 2022-09-02 CN CN202211070114.4A patent/CN115470223A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251214A (zh) * | 2023-11-17 | 2023-12-19 | 北京偶数科技有限公司 | 基于分布式数据库Apache Hudi表格式数据操作指令的执行方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112445889A (zh) | 存储数据、检索数据的方法及相关设备 | |
CN105373541A (zh) | 数据库的数据操作请求的处理方法和系统 | |
JP6982049B2 (ja) | インデックスを管理するための方法、装置、設備及び記憶媒体 | |
US20120173540A1 (en) | Accelerating Database Queries Comprising Positional Text Conditions Plus Bitmap-Based Conditions | |
US20110179013A1 (en) | Search Log Online Analytic Processing | |
CN115470223A (zh) | 一种基于两层时间标识的数据湖数据增量消费方法 | |
CN117194907A (zh) | 数据中台的低价值数据主题识别方法 | |
US8548980B2 (en) | Accelerating queries based on exact knowledge of specific rows satisfying local conditions | |
EP3005161A1 (en) | Datasets profiling tools, methods, and systems | |
CN114896250B (zh) | 一种键值分离的键值存储引擎索引优化方法及装置 | |
CN109213760B (zh) | 非关系数据存储的高负载业务存储及检索方法 | |
CN116450607A (zh) | 数据处理方法、设备及存储介质 | |
CN116028514A (zh) | 数据更新方法及装置 | |
CN114218277A (zh) | 一种关系数据库的高效查询方法和装置 | |
CN115098503A (zh) | 空值数据处理方法、装置、计算机设备以及存储介质 | |
CN109241098B (zh) | 一种分布式数据库的查询优化方法 | |
JP4279346B2 (ja) | データベース管理装置及びプログラム | |
JP2004192657A (ja) | 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体 | |
CN115168409B (zh) | 数据库分表的数据查询方法、装置和计算机设备 | |
CN114880322B (zh) | 一种金融数据列式存储方法、系统、设备及存储介质 | |
CN116055589B (zh) | 数据管理方法、装置及计算机设备 | |
CN118152357A (zh) | 数据湖的数据存储方法及装置、存储介质及电子设备 | |
CN115729899A (zh) | 基于分布式文件系统流式数据实时更新插入合并处理方法 | |
CN117194372A (zh) | 数据迁移方法、装置、电子设备及存储介质 | |
CN118051524A (zh) | 数据库索引优化方法、装置、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |