CN114706861A - 一种在列存储引擎中按列动态分组存储的方法 - Google Patents

一种在列存储引擎中按列动态分组存储的方法 Download PDF

Info

Publication number
CN114706861A
CN114706861A CN202210638950.1A CN202210638950A CN114706861A CN 114706861 A CN114706861 A CN 114706861A CN 202210638950 A CN202210638950 A CN 202210638950A CN 114706861 A CN114706861 A CN 114706861A
Authority
CN
China
Prior art keywords
column
data
bsi
columns
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210638950.1A
Other languages
English (en)
Other versions
CN114706861B (zh
Inventor
赵春泽
李卓印
李宇豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Nankai University General Data Technologies Co ltd
Original Assignee
Tianjin Nankai University General Data Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Nankai University General Data Technologies Co ltd filed Critical Tianjin Nankai University General Data Technologies Co ltd
Priority to CN202210638950.1A priority Critical patent/CN114706861B/zh
Publication of CN114706861A publication Critical patent/CN114706861A/zh
Application granted granted Critical
Publication of CN114706861B publication Critical patent/CN114706861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种在列存储引擎中按列动态分组存储的方法,将数据表中所有列数据按照预设的行数切分成若干个DC行,按照顺序进行编号,同时生成对应的描述信息BSI。将描述信息存储到元数据中;数据按照列分组定义进行切分,分别存储到不同的数据文件中;读取数据时,存储单元首先预加载数据表的元数据信息,基于元数据找到对应的数据文件,读取对应的数据块。本发明所述的一种在列存储引擎中按列动态分组存储的方法,在通过列分组在写入数据时规避写放大问题,在读取数据时解决读放大问题,进而提升列存数据库的读写性能。

Description

一种在列存储引擎中按列动态分组存储的方法
技术领域
本发明属于数据分组存储领域,尤其是涉及一种在列存储引擎中按列动态分组存储的方法。
背景技术
在GBase云原生数据库中,为了实现共享存储、弹性扩容、存算分离等功能点,系统架构选择对象存储作为存储媒介。但是对象存储具有网络访问延时高,只支持一次性写入、不支持追加写和修改等缺点,给需要高效读写访问的数据库系统带来了挑战。传统列存数据库的数据存储一般采用两种模式,第一种模式是每列单独存储,第二种模式是所有列共同存储。第一种单列模式的优点是只读取目标列的数据文件,缺点是多列数据查询时需要数据重建,写数据存在写放大问题(例如,一个表有100列,插入一条数据,就会产生100个小数据文件)。第二种多列共存模式的优点是同一行数据存储在一个文件中,有利于整行数据读取,缺点是无法避免读取不必要的列,存在读放大问题(例如,一个表有100列,只读取1列数据,就需要遍历所有数据文件)。
发明内容
有鉴于此,本发明旨在提出一种在列存储引擎中按列动态分组存储的方法,以解决数据库每列单独存储时出现多列数据查询时写放大,多列共存存储时出现读放大的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一方面,本申请提出一种在列存储引擎中按列动态分组存储的方法,具体方法如下,
S1、在数据库中创建表语句中加入列分组定义,列分组定义基于用户业务采用谱聚类算法实现列分组;
S2、数据写入数据库表,并统计写入的数据行数;
S3、当写入的行数达到预设的数据块DC划分行数,将数据表中所有列数据按照预设的数据块DC划分行数切分成若干个数据块DC,按照顺序进行编号,同时生成对应的描述信息BSI,所述BSI包括DC编号、DC存储位置,并根据数据行号和DC预设行数设置BSI编号;所述DC为列数据按照预设的行数切分成若干个数据块,单个数据块称为DC,所述BSI为每一个数据块具对应的描述信息;
S4、将表中各列编号相同的DC组成一个DC行,表中各列编号相同的BSI组成一个BSI行,DC行与BSI行一一对应;
S5、将每组固定数量的BSI行对应存储到一个数据元数据PFile中;
S6、将每组固定数量的DC行,按照列分组定义进行列切分,分别存储到对应的数据文件PCFile中,在BSI中记录DC存储的PCFile地址;
S7、存储单元预加载数据表的元数据PFile文件,生成各列的BSI列表;
S8、根据数据行号计算得到BSI编号,进而找到对应的PCFile,读取对应的DC数据。
进一步的,若用户业务需求后续更新调整,历史数据与新数据处理方法如下:
对于历史数据,历史数据不需要根据新的列分组重写,读取时也不依赖S1中根据列分组定义进行的列分组;
对于新数据,具体方法如下:
基于更新的用户业务需求,采用谱聚类算法重新获得新的列分组定义;
执行步骤S2-S6,新数据按照新的列分组定义写入新的数据文件;
执行步骤S7-S8,进行新数据读取。
进一步的,步骤S1中,列分组定义基于用户业务采用谱聚类算法实现列分组,具体方法如下:
S11、获取用户查询语句,对应用户每条查询语句建立一个语句查询涉及到的相关列集合;
S12、统计每列分别与其余各列出现在同一相关列集合中的次数,统计出列与列之间的聚合程度,两条列同时出现在一条查询语句中,定义为列与列相关,记录为1次;
S13、基于聚合程度,将列与列之间相关次数较多的列划分为一组,相关次数较少的组断开两组,从而将列划分为不同的分组。
进一步的,步骤S2中,根据数据行号和DC预设行数设置BSI编号,具体方法为,BSI编号为数据行号除以DC预设的行数后取整。
进一步的,步骤S5中,BSI中存储内容包括BSI编号、PCFile地址、DC数据大小、DC在PCFile中的偏移地址。
第二方面,本申请还提出一种电子设备,包括处理器以及与处理器通信连接,且用于存储所述处理器可执行指令的存储器,所述处理器用于执行上述的一种在列存储引擎中按列动态分组存储的方法。
第三方面本申请还提出一种服务器,包括至少一个处理器,以及与所述处理器通信连接的存储器,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,以使所述至少一个处理器执行上述的一种在列存储引擎中按列动态分组存储的方法。
第四方面,本申请还提出一种存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种在列存储引擎中按列动态分组存储的方法。
相对于现有技术,本发明所述的一种在列存储引擎中按列动态分组存储的方法具有以下有益效果:
本发明所述的一种在列存储引擎中按列动态分组存储的方法,将数据表中所有列数据按照预设的行数切分成若干个DC行,按照顺序进行编号,同时生成对应的描述信息BSI,通过列分组,在写入数据时规避写放大问题;将描述信息存储到元数据中;数据按照列分组定义进行切分,分别存储到不同的数据文件中;读取数据时,存储单元首先预加载数据表的元数据信息,基于元数据找到对应的数据文件,读取对应的数据块,保证查询只读取有效数据,避免读放大。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的一种在列存储引擎中按列动态分组存储的方法示意图;
图2为本发明实施例所述的列和列之间的关系转换示意图;
图3为本发明实施例所述的数据写入流程示意图;
图4为本发明实施例所述的数据读取流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
如图1、图3、图4所示,一种在列存储引擎中按列动态分组存储的方法,具体方法如下,
S1、在数据库中创建表语句中加入列分组定义,列分组定义基于用户业务采用谱聚类算法实现;
在数据库中创建表语句中加入列分组定义,用于定义哪些列属于一个组。基于聚合程度划分若干分组,采用谱聚类算法实现。
S2、数据写入数据库表,并统计写入的数据行数;
S3、当写入的行数达到预设的数据块DC划分行数,将数据表中所有列数据按照预设的数据块DC划分行数切分成若干个数据块DC,按照顺序进行编号,同时生成对应的描述信息BSI,所述BSI包括DC编号、DC存储位置,并根据数据行号和DC预设行数设置BSI编号;
S4、将表中各列编号相同的DC组成一个DC行,表中各列编号相同的BSI组成一个BSI行;
S5、将每组固定数量的BSI行对应存储到一个数据元数据PFile中;
S6、将每组固定数量的DC行,按照列分组定义进行切分,分别存储到对应的数据文件PCFile中,在BSI中记录DC存储的PCFile地址;
S7、存储单元预加载数据表的元数据PFile文件,生成各列的BSI列表;
S8、根据数据行号计算得到BSI编号,进而找到对应的PCFile,读取对应的DC数据。
首先在数据库中创建表语句中加入列分组定义,用于定义哪些列属于一个组。之后,数据库接收用户的插入数据任务,计算单元处理后,发给存储单元,存储单元将列数据按照分组定义存储在不同的数据文件中,减少写文件数量,降低写放大风险。同时将元数据存储在元数据文件中。最后,数据库接收用户的查询数据任务,计算单元根据查询列向存储单元请求读取列数据,存储单元根据请求列首先加载所有元数据信息,基于元数据信息读取数据文件返回列数据,保证查询只读取有效数据,避免读放大。
如图3、图4所示,若用户业务需求后续更新调整,历史数据与新数据处理方法如下:
对于历史数据,历史数据不需要根据新的列分组重写,读取时也不依赖S1表结构中的列分组定义;
对于新数据,具体方法如下:
基于更新的用户业务需求,采用谱聚类算法重新获得新的列分组定义;
执行步骤S2-S6,新数据按照新的列分组定义写入新的数据文件;
执行步骤S7-S8,进行新数据读取。
如图1、图2所示,步骤S1中,列分组定义基于用户业务采用谱聚类算法实现,具体方法如下:
S11、获取用户查询语句,对应用户每条查询语句建立一个语句查询涉及到的相关列集合;
S12、统计每列分别与其余各列出现在同一相关列集合中的次数,统计出列与列之间的聚合程度,两条列同时出现在一条查询语句中,定义为列与列相关,记录为1次;
S13、基于聚合程度,将列与列之间相关次数较多的列划分为一组,相关次数较少的组断开两组,从而将列划分为不同的分组。
例如,设定一个数据表表1有5列,分别有列1、列2、列3、列4和列5。用户作业链设有的所有查询语句与表1相关的查询业务包含的相关列集合如下:
{列1,列2,列3},{列1,列2,列3},{列1,列2,列3},{列1,列2,列3},{列1,列2,列3},{列1,列4,列5},{列4,列5},{列4,列5},{列4,列5},{列4,列5}。
根据上述相关列集合,统计列和列的相关次数,记录表格如下所示。
列1 列2 列3 列4 列5
列1 - 5 5 1 1
列2 5 - 5 0 0
列3 5 5 - 0 0
列4 1 0 0 - 5
列5 1 0 0 0 -
将列和列之间的关系转换为图2,即所有的列看做空间中的点,点点之间用边相连,边的权重值表示列与列的相关次数。距离较远的两个点,它们之间边的权重值较低,距离较近的两点之间边的权重值较高。
对图2进行切图形成多个子图,目标是要让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高。即子图间距离尽量较远,子图内部尽量相似。这样就完成了将列划分为不同分组的过程,列1与列4之间的相关次数较少(边权重小),进行切分,最终得到分组为:组1{列1,列2,列3},组2{列4,列5}。
步骤S2中,根据数据行号和DC预设行数设置BSI编号,具体方法为,BSI编号为数据行号除以DC预设的行数后取整。
步骤S5中,BSI中存储内容包括BSI编号、PCFile地址、DC数据大小、DC在PCFile中的偏移地址。
BSI与DC一一对应,可以通过BSI找到DC。
第二方面,本申请还提出一种电子设备,包括处理器以及与处理器通信连接,且用于存储所述处理器可执行指令的存储器,所述处理器用于执行上述权利要求1-5任一所述的一种在列存储引擎中按列动态分组存储的方法。
第三方面,本申请还提出一种服务器,包括至少一个处理器,以及与所述处理器通信连接的存储器,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,以使所述至少一个处理器执行如权利要求1-5任一所述的一种在列存储引擎中按列动态分组存储的方法。
第四方面,本申请还提出一种计算机可读取存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种在列存储引擎中按列动态分组存储的方法。
GBase云原生数据库:GBASE公司开发的云原生数据库。Coordinator: GBase云原生数据库中的协调节点,用户访问的入口,负责解析用户发送的命令,并下发到具体执行节点。DC:列数据按照预设的行数切分成若干个数据块,单个数据块称为DC。BSI:每一个数据块具有对应的描述信息,称为BSI。BSI中存储了编号、PCFile地址、DC大小、及DC在PCFile中的偏移地址,可以通过BSI找到DC。PFile:存储BSI的元数据文件称为PFile。PCFile:存储DC的数据文件称为PCFile。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种在列存储引擎中按列动态分组存储的方法,其特征在于,具体方法如下,
S1、在数据库中创建表语句中加入列分组定义,列分组定义基于用户业务采用谱聚类算法实现列分组;
S2、数据写入数据库表,并统计写入的数据行数;
S3、当写入的行数达到预设的数据块DC划分行数,将数据表中所有列数据按照预设的数据块DC划分行数切分成若干个数据块DC,按照顺序进行编号,同时生成对应的描述信息BSI,所述BSI包括DC编号、DC存储位置,并根据数据行号和DC预设行数设置BSI编号;所述DC为列数据按照预设的行数切分成若干个数据块,单个数据块称为DC,所述BSI为每一个数据块具对应的描述信息;
S4、将表中各列编号相同的DC组成一个DC行,表中各列编号相同的BSI组成一个BSI行,DC行与BSI行一一对应;
S5、将每组固定数量的BSI行对应存储到一个数据元数据PFile中;
S6、将每组固定数量的DC行,按照列分组定义进行列切分,分别存储到对应的数据文件PCFile中,在BSI中记录DC存储的PCFile地址;
S7、存储单元预加载数据表的元数据PFile文件,生成各列的BSI列表;
S8、根据数据行号计算得到BSI编号,进而找到对应的PCFile,读取对应的DC数据。
2.根据权利要求1所述的一种在列存储引擎中按列动态分组存储的方法,其特征在于:若用户业务需求后续更新调整,历史数据与新数据处理方法如下:
对于历史数据,历史数据不需要根据新的列分组重写,读取时也不依赖S1中根据列分组定义进行的列分组;
对于新数据,具体方法如下:
基于更新的用户业务需求,采用谱聚类算法重新获得新的列分组定义;
执行步骤S2-S6,新数据按照新的列分组定义写入新的数据文件;
执行步骤S7-S8,进行新数据读取。
3.根据权利要求1所述的一种在列存储引擎中按列动态分组存储的方法,其特征在于:步骤S1中,列分组定义基于用户业务采用谱聚类算法实现列分组,具体方法如下:
S11、获取用户查询语句,对应用户每条查询语句建立一个语句查询涉及到的相关列集合;
S12、统计每列分别与其余各列出现在同一相关列集合中的次数,统计出列与列之间的聚合程度,两条列同时出现在一条查询语句中,定义为列与列相关,记录为1次;
S13、基于聚合程度,将列与列之间相关次数较多的列划分为一组,相关次数较少的组断开两组,从而将列划分为不同的分组。
4.根据权利要求1所述的一种在列存储引擎中按列动态分组存储的方法,其特征在于:步骤S2中,根据数据行号和DC预设行数设置BSI编号,具体方法为,BSI编号为数据行号除以DC预设的行数后取整。
5.根据权利要求1所述的一种在列存储引擎中按列动态分组存储的方法,其特征在于:步骤S5中,BSI中存储内容包括BSI编号、PCFile地址、DC数据大小、DC在PCFile中的偏移地址。
6.一种电子设备,包括处理器以及与处理器通信连接,且用于存储所述处理器可执行指令的存储器,其特征在于:所述处理器用于执行上述权利要求1-5任一所述的一种在列存储引擎中按列动态分组存储的方法。
7.一种服务器,其特征在于:包括至少一个处理器,以及与所述处理器通信连接的存储器,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,以使所述至少一个处理器执行如权利要求1-5任一所述的一种在列存储引擎中按列动态分组存储的方法。
8.一种计算机可读取存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种在列存储引擎中按列动态分组存储的方法。
CN202210638950.1A 2022-06-08 2022-06-08 一种在列存储引擎中按列动态分组存储的方法 Active CN114706861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210638950.1A CN114706861B (zh) 2022-06-08 2022-06-08 一种在列存储引擎中按列动态分组存储的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210638950.1A CN114706861B (zh) 2022-06-08 2022-06-08 一种在列存储引擎中按列动态分组存储的方法

Publications (2)

Publication Number Publication Date
CN114706861A true CN114706861A (zh) 2022-07-05
CN114706861B CN114706861B (zh) 2022-09-16

Family

ID=82177706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210638950.1A Active CN114706861B (zh) 2022-06-08 2022-06-08 一种在列存储引擎中按列动态分组存储的方法

Country Status (1)

Country Link
CN (1) CN114706861B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840539A (zh) * 2023-01-31 2023-03-24 天津南大通用数据技术股份有限公司 数据处理方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102239472A (zh) * 2008-09-05 2011-11-09 Arc景象有限责任公司 在支持查询的同时高效地存储日志数据
CN103345518A (zh) * 2013-07-11 2013-10-09 清华大学 基于数据块的自适应数据存储管理方法及系统
CN106874437A (zh) * 2017-02-04 2017-06-20 中国人民大学 面向数据库一体机的内存数据仓库行列存储转换实现方法
CN108090125A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种非查询式的重复数据删除方法及装置
CN110321329A (zh) * 2019-06-18 2019-10-11 中盈优创资讯科技有限公司 基于大数据的数据处理方法及装置
CN110362572A (zh) * 2019-06-25 2019-10-22 浙江邦盛科技有限公司 一种基于列式存储的时序数据库系统
CN111428074A (zh) * 2020-03-20 2020-07-17 腾讯科技(深圳)有限公司 音频样本生成方法、装置、计算机设备及存储介质
US20200242079A1 (en) * 2019-01-25 2020-07-30 International Business Machines Corporation Methods and systems for metadata tag inheritance for data tiering
US20200242077A1 (en) * 2019-01-25 2020-07-30 International Business Machines Corporation Methods and Systems for Metadata Tag Inheritance Between Multiple Storage Systems
US20200242078A1 (en) * 2019-01-25 2020-07-30 International Business Machines Corporation Methods and systems for metadata tag inheritance between multiple file systems within a storage system
CN111984696A (zh) * 2020-07-23 2020-11-24 深圳市赢时胜信息技术股份有限公司 一种新型数据库和方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102239472A (zh) * 2008-09-05 2011-11-09 Arc景象有限责任公司 在支持查询的同时高效地存储日志数据
CN103345518A (zh) * 2013-07-11 2013-10-09 清华大学 基于数据块的自适应数据存储管理方法及系统
CN106874437A (zh) * 2017-02-04 2017-06-20 中国人民大学 面向数据库一体机的内存数据仓库行列存储转换实现方法
CN108090125A (zh) * 2017-11-14 2018-05-29 西北工业大学 一种非查询式的重复数据删除方法及装置
US20200242079A1 (en) * 2019-01-25 2020-07-30 International Business Machines Corporation Methods and systems for metadata tag inheritance for data tiering
US20200242077A1 (en) * 2019-01-25 2020-07-30 International Business Machines Corporation Methods and Systems for Metadata Tag Inheritance Between Multiple Storage Systems
US20200242078A1 (en) * 2019-01-25 2020-07-30 International Business Machines Corporation Methods and systems for metadata tag inheritance between multiple file systems within a storage system
CN110321329A (zh) * 2019-06-18 2019-10-11 中盈优创资讯科技有限公司 基于大数据的数据处理方法及装置
CN110362572A (zh) * 2019-06-25 2019-10-22 浙江邦盛科技有限公司 一种基于列式存储的时序数据库系统
CN111428074A (zh) * 2020-03-20 2020-07-17 腾讯科技(深圳)有限公司 音频样本生成方法、装置、计算机设备及存储介质
CN111984696A (zh) * 2020-07-23 2020-11-24 深圳市赢时胜信息技术股份有限公司 一种新型数据库和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840539A (zh) * 2023-01-31 2023-03-24 天津南大通用数据技术股份有限公司 数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114706861B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
US8442988B2 (en) Adaptive cell-specific dictionaries for frequency-partitioned multi-dimensional data
US10528553B2 (en) System and method for optimizing queries
US8583657B2 (en) Method and apparatus for using a hash-partitioned index to access a table that is not partitioned or partitioned independently of the hash partitioned index
EP2570912A1 (en) Storage method and device based on data content identification
US7263520B2 (en) Fast aggregation of compressed data using full table scans
US8051058B2 (en) System for estimating cardinality in a database system
CN107391544B (zh) 列式存储数据的处理方法、装置、设备及计算机储存介质
CN114706861B (zh) 一种在列存储引擎中按列动态分组存储的方法
US20200210531A9 (en) Data indexing method, data querying method and electronic device
US20090248725A1 (en) Compressability estimation of non-unique indexes in a database management system
US20230289369A1 (en) Data Processing Method and System for Cloud Platform, and Electronic Apparatus and Storage Medium
CN113505580A (zh) 表格文件的解析方法和装置
CN108959587B (zh) 基于列存储的数据更新方法、装置、服务器及存储介质
US20210286795A1 (en) Database index and database query processing method, apparatus, and device
US10997218B2 (en) Method and system for managing associations between entity records
CN114238389A (zh) 数据库查询优化方法、装置、电子设备、介质和程序产品
CN108280123B (zh) 一种HBase的列聚合方法
CN102117305A (zh) 查询数据的系统、方法和数据管理系统
CN106326295B (zh) 语义数据的存储方法及装置
CN113360551B (zh) 一种靶场中时序数据的存储与快速统计方法及系统
CN113641681B (zh) 一种空间自适应的海量数据查询方法
CN114996270A (zh) 一种查询分页数据的方法和装置
CN110704433B (zh) 列式存储数据的brin索引构建方法、数据检索方法及装置
CN114564501A (zh) 一种数据库数据存储、查询方法、装置、设备及介质
CN108984720B (zh) 基于列存储的数据查询方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant