CN107256233A - 一种数据存储方法和装置 - Google Patents

一种数据存储方法和装置 Download PDF

Info

Publication number
CN107256233A
CN107256233A CN201710343493.2A CN201710343493A CN107256233A CN 107256233 A CN107256233 A CN 107256233A CN 201710343493 A CN201710343493 A CN 201710343493A CN 107256233 A CN107256233 A CN 107256233A
Authority
CN
China
Prior art keywords
row
page
data
inquiry request
row block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710343493.2A
Other languages
English (en)
Other versions
CN107256233B (zh
Inventor
李振炜
李远策
陈永强
翟鑫达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201710343493.2A priority Critical patent/CN107256233B/zh
Publication of CN107256233A publication Critical patent/CN107256233A/zh
Application granted granted Critical
Publication of CN107256233B publication Critical patent/CN107256233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/24569Query processing with adaptation to specific hardware, e.g. adapted for using GPUs or SSDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • G06F3/0676Magnetic disk device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据存储方法和装置。其中方法包括:预设磁盘中的各页可存储的行的数量为N,N为自然数;对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,其中每一个页中存储该列中的N行数据;在接收到数据查询请求时,根据所述查询请求对应的列,确定待查询的列块,根据所述查询请求命中的对应列中的行,确定该列块中的目标页;将该目标页中的数据读取到内存中,根据所述数据查询请求进行查询。该技术方案通过对列式存储的改进,实现了在确定待查询数据所在行的情况下,快速定位到数据地址,避免读取和遍历大量不必要的数据,加快了查询速度。

Description

一种数据存储方法和装置
技术领域
本发明涉及计算机技术领域,具体涉及一种数据存储方法和装置。
背景技术
在大数据场景下,列式存储相对于行式存储有着显著的优势。然而目前存在的问题是:即使能够确定待查询数据在数据表中处于第几行,我们也并不知道该行的数据的具体位置。而许多列式存储文件对磁盘的空间占用大,如果对其进行遍历,不可避免地会读取大量无用数据,导致查询速度慢,效率低,资源占用高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据存储方法和装置。
依据本发明的一个方面,提供了一种数据存储方法,包括:
预设磁盘中的各页可存储的行的数量为N,N为自然数;
对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,其中每一个页中存储该列中的N行数据;
在接收到数据查询请求时,根据所述查询请求对应的列,确定待查询的列块,根据所述查询请求命中的对应列中的行,确定该列块中的目标页;
将该目标页中的数据读取到内存中,根据所述数据查询请求进行查询。
可选地,该方法还包括:
为各列块生成统计信息,并与各列块对应保存;
所述统计信息包括如下的一种或多种:该列块中的各页对磁盘空间的占用情况,该列块中的各页在磁盘中的偏移量,该列块中各页中存储的数据在原数据表中的行数范围。
可选地,该方法还包括:
为各列块中的各页按顺序进行编号;
所述该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。
可选地,所述根据所述查询请求命中的对应列中的行,确定该列块中的目标页包括:
根据所述查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息,确定所述查询请求命中的对应列中的行所在的页。
可选地,所述查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。
依据本发明的另一方面,提供了一种数据存储装置,包括:
存储单元,适于预设磁盘中的各页可存储的行的数量为N,N为自然数;对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,其中每一个页中存储该列中的N行数据;
查询单元,适于在接收到数据查询请求时,根据所述查询请求对应的列,确定待查询的列块,根据所述查询请求命中的对应列中的行,确定该列块中的目标页;将该目标页中的数据读取到内存中,根据所述数据查询请求进行查询。
可选地,所述存储单元,还适于为各列块生成统计信息,并与各列块对应保存;所述统计信息包括如下的一种或多种:该列块中的各页对磁盘空间的占用情况,该列块中的各页在磁盘中的偏移量,该列块中各页中存储的数据在原数据表中的行数范围。
可选地,所述存储单元,还适于为各列块中的各页按顺序进行编号;所述该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。
可选地,所述查询单元,适于根据所述查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息,确定所述查询请求命中的对应列中的行所在的页。
可选地,所述查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。
由上述可知,本发明的技术方案,为磁盘中的各页预设其能够存储的行的数量N,对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,使每一个页存储该列中的N行数据。这样在接收到查询请求时,可以首先根据查询请求对应的列,确定待查询的列块,然后根据查询请求命中的对应列中的行,确定该列块中的目标页,直接读取该目标页中的数据读取到内存中来完成查询。该技术方案通过对列式存储的改进,实现了在确定待查询数据所在行的情况下,快速定位到数据地址,避免读取和遍历大量不必要的数据,加快了查询速度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种数据存储方法的流程示意图;
图2示出了现有技术中Parquet文件格式在磁盘上的分布示意图;
图3示出了根据本发明一个实施例的一种数据存储装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种数据存储方法的流程示意图,如图1所示,该方法包括:
步骤S110,预设磁盘中的各页可存储的行的数量为N,N为自然数。
页(Page)是一个逻辑概念,对数据库而言,页是在磁盘上保存物理记录的单位,也是一个I/O操作(读/写操作)的基本单位。
步骤S120,对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,其中每一个页中存储该列中的N行数据。
例如,Parquet是一种性能较好的列式存储格式。在这种情况下,每个列的存储对应一个列块(column chunk),每个列块包含多个页(page0,page1……),多个列块可以包含在行组(Row Group)中。图2示出了现有技术中Parquet文件格式在磁盘上的分布示意图。通常而言,每个页的大小是固定的,例如每个页占用25KB。然而,由于列中存储数据的类型不同,导致每个页中存储的行数不能确定,也就导致了,即使能够确定待查询数据在数据表中处于第几行,我们也并不知道该行在哪个页中。这就需要对该列块中的所有页进行遍历,在大数据场景下,这是十分费时并且浪费资源的。而在本实施例中,并不为每个页固定大小,而是使其能够存储的行的数量是固定的。由于数据表中的一行数据是包含一个或多个列的,采取上述方式带来的好处还在于,同一行中的不同列的数据,所在的页的编号是相同的。
举例而言,数据表中姓名一列是string型数据,年龄一列为int型数据。由于数据的宽度不同,如果按照现有技术进行存储,那么一页中存储多少行数据是不可知的,并且同一行数据所在的页的编号也不一定相同。而采用本实施例中的方法,如果每页存储10万行数据,姓名一列的数据存储在column chunk a中,年龄一列的数据存储在column chunk b中,那么第1-10万行数据都存储在相应column chunk的page0中,第100001-第20万行数据都存储在相应column chunk的page1中,以此类推。
步骤S130,在接收到数据查询请求时,根据查询请求对应的列,确定待查询的列块,根据查询请求命中的对应列中的行,确定该列块中的目标页。
步骤S140,将该目标页中的数据读取到内存中,根据数据查询请求进行查询。
可见,图1所示的方法,为磁盘中的各页预设其能够存储的行的数量N,对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,使每一个页存储该列中的N行数据。这样在接收到查询请求时,可以首先根据查询请求对应的列,确定待查询的列块,然后根据查询请求命中的对应列中的行,确定该列块中的目标页,直接读取该目标页中的数据读取到内存中来完成查询。该技术方案通过对列式存储的改进,实现了在确定待查询数据所在行的情况下,快速定位到包含数据的列式存储文件,避免读取和遍历大量不必要的数据,加快了查询速度。
在本发明的一个实施例中,图1所示的方法还包括:为各列块生成统计信息,并与各列块对应保存;统计信息包括如下的一种或多种:该列块中的各页对磁盘空间的占用情况,该列块中的各页在磁盘中的偏移量,该列块中各页中存储的数据在原数据表中的行数范围。
上述统计信息可以有助于在接收到查询请求时实现快速读取相应的页。在本发明的一个实施例中,上述方法还包括:为各列块中的各页按顺序进行编号;该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。
例如上文所举出的第1-10万行数据都存储在相应column chunk的page0中,第100001-第20万行数据都存储在相应column chunk的page1中,就是可以根据各页的编号和每页存储10万行数据确定的。
在本发明的一个实施例中,上述方法中,根据查询请求命中的对应列中的行,确定该列块中的目标页包括:根据查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息,确定查询请求命中的对应列中的行所在的页。
例如,已经确定了待查询的年龄数据在原数据表的第15万行,那么根据统计信息可以确定,读取column chunk b的page1。而如果采用现有技术中的存储方式,需要读取column chunk b的所有page。相较于现有技术,查询效率有至少20%的提升。
在本发明的一个实施例中,上述方法中,查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。也即是说,统计信息不等同于目标数据表的索引。
图3示出了根据本发明一个实施例的一种数据存储装置的结构示意图,如图3所示,数据存储装置300包括:
存储单元310,适于预设磁盘中的各页可存储的行的数量为N,N为自然数;对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,其中每一个页中存储该列中的N行数据。
页(Page)是一个逻辑概念,对数据库而言,页是在磁盘上保存物理记录的单位,也是一个I/O操作(读/写操作)的基本单位。Parquet是一种性能较好的列式存储格式。在这种情况下,每个列的存储对应一个列块(column chunk),每个列块包含多个页(page0,page1……),多个列块可以包含在行组(Row Group)中。通常而言,每个页的大小是固定的,例如每个页占用25KB。然而,由于列中存储数据的类型不同,导致每个页中存储的行数不能确定,也就导致了,即使能够确定待查询数据在数据表中处于第几行,我们也并不知道该行在哪个页中。这就需要对该列块中的所有页进行遍历,在大数据场景下,这是十分费时并且浪费资源的。而在本实施例中,并不为每个页固定大小,而是使其能够存储的行的数量是固定的。由于数据表中的一行数据是包含一个或多个列的,采取上述方式带来的好处还在于,同一行中的不同列的数据,所在的页的编号是相同的。
举例而言,数据表中姓名一列是string型数据,年龄一列为int型数据。由于数据的宽度不同,如果按照现有技术进行存储,那么一页中存储多少行数据是不可知的,并且同一行数据所在的页的编号也不一定相同。而采用本实施例中的方法,如果每页存储10万行数据,姓名一列的数据存储在column chunk a中,年龄一列的数据存储在column chunk b中,那么第1-10万行数据都存储在相应column chunk的page0中,第100001-第20万行数据都存储在相应column chunk的page1中,以此类推。
查询单元320,适于在接收到数据查询请求时,根据查询请求对应的列,确定待查询的列块,根据查询请求命中的对应列中的行,确定该列块中的目标页;将该目标页中的数据读取到内存中,根据数据查询请求进行查询。
可见,图3所示的装置,通过各单元的相互配合,为磁盘中的各页预设其能够存储的行的数量N,对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,使每一个页存储该列中的N行数据。这样在接收到查询请求时,可以首先根据查询请求对应的列,确定待查询的列块,然后根据查询请求命中的对应列中的行,确定该列块中的目标页,直接读取该目标页中的数据读取到内存中来完成查询。该技术方案通过对列式存储的改进,实现了在确定待查询数据所在行的情况下,快速定位到包含数据的列式存储文件,避免读取和遍历大量不必要的数据,加快了查询速度。
在本发明的一个实施例中,上述装置中,存储单元310,还适于为各列块生成统计信息,并与各列块对应保存;统计信息包括如下的一种或多种:该列块中的各页对磁盘空间的占用情况,该列块中的各页在磁盘中的偏移量,该列块中各页中存储的数据在原数据表中的行数范围。
上述统计信息可以有助于在接收到查询请求时实现快速读取相应的页。在本发明的一个实施例中,上述装置中,存储单元310,还适于为各列块中的各页按顺序进行编号;该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。
例如上文所举出的第1-10万行数据都存储在相应column chunk的page0中,第100001-第20万行数据都存储在相应column chunk的page1中,就是可以根据各页的编号和每页存储10万行数据确定的。
在本发明的一个实施例中,上述装置中,查询单元320,适于根据查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息,确定查询请求命中的对应列中的行所在的页。
例如,已经确定了待查询的年龄数据在原数据表的第15万行,那么根据统计信息可以确定,读取column chunk b的page1。而如果采用现有技术中的存储方式,需要读取column chunk b的所有page。相较于现有技术,查询效率有至少20%的提升。
在本发明的一个实施例中,上述装置中,查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。也即是说,统计信息不等同于目标数据表的索引。
综上所述,本发明的技术方案,为磁盘中的各页预设其能够存储的行的数量N,对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,使每一个页存储该列中的N行数据。这样在接收到查询请求时,可以首先根据查询请求对应的列,确定待查询的列块,然后根据查询请求命中的对应列中的行,确定该列块中的目标页,直接读取该目标页中的数据读取到内存中来完成查询。该技术方案通过对列式存储的改进,实现了在确定待查询数据所在行的情况下,快速定位到包含数据的列式存储文件,避免读取和遍历大量不必要的数据,加快了查询速度。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据存储装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种数据存储方法,其中,该方法包括:
预设磁盘中的各页可存储的行的数量为N,N为自然数;
对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,其中每一个页中存储该列中的N行数据;
在接收到数据查询请求时,根据所述查询请求对应的列,确定待查询的列块,根据所述查询请求命中的对应列中的行,确定该列块中的目标页;
将该目标页中的数据读取到内存中,根据所述数据查询请求进行查询。
2.如权利要求1所述的方法,其中,该方法还包括:
为各列块生成统计信息,并与各列块对应保存;
所述统计信息包括如下的一种或多种:该列块中的各页对磁盘空间的占用情况,该列块中的各页在磁盘中的偏移量,该列块中各页中存储的数据在原数据表中的行数范围。
3.如权利要求2所述的方法,其中,该方法还包括:
为各列块中的各页按顺序进行编号;
所述该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。
4.如权利要求2或3所述的方法,其中,所述根据所述查询请求命中的对应列中的行,确定该列块中的目标页包括:
根据所述查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息,确定所述查询请求命中的对应列中的行所在的页。
5.如权利要求4所述的方法,其中,所述查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。
6.一种数据存储装置,其中,该装置包括:
存储单元,适于预设磁盘中的各页可存储的行的数量为N,N为自然数;对于数据表中待存储的每一列,为其分配一个包含一组页的列块,并将该列中的数据按顺序存储到该列块中的各页中,其中每一个页中存储该列中的N行数据;
查询单元,适于在接收到数据查询请求时,根据所述查询请求对应的列,确定待查询的列块,根据所述查询请求命中的对应列中的行,确定该列块中的目标页;将该目标页中的数据读取到内存中,根据所述数据查询请求进行查询。
7.如权利要求6所述的装置,其中,
所述存储单元,还适于为各列块生成统计信息,并与各列块对应保存;所述统计信息包括如下的一种或多种:该列块中的各页对磁盘空间的占用情况,该列块中的各页在磁盘中的偏移量,该列块中各页中存储的数据在原数据表中的行数范围。
8.如权利要求7所述的装置,其中,
所述存储单元,还适于为各列块中的各页按顺序进行编号;所述该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。
9.如权利要求7或8所述的装置,其中,
所述查询单元,适于根据所述查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息,确定所述查询请求命中的对应列中的行所在的页。
10.如权利要求9所述的装置,其中,所述查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。
CN201710343493.2A 2017-05-16 2017-05-16 一种数据存储方法和装置 Active CN107256233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710343493.2A CN107256233B (zh) 2017-05-16 2017-05-16 一种数据存储方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710343493.2A CN107256233B (zh) 2017-05-16 2017-05-16 一种数据存储方法和装置

Publications (2)

Publication Number Publication Date
CN107256233A true CN107256233A (zh) 2017-10-17
CN107256233B CN107256233B (zh) 2021-01-12

Family

ID=60027406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710343493.2A Active CN107256233B (zh) 2017-05-16 2017-05-16 一种数据存储方法和装置

Country Status (1)

Country Link
CN (1) CN107256233B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871022A (zh) * 2017-12-20 2018-04-03 清华大学 一种时序数据列式存储、查询方法及系统
CN109684293A (zh) * 2018-12-14 2019-04-26 中国人民银行清算总中心 混合文件存储方法及装置
CN110196847A (zh) * 2018-08-16 2019-09-03 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN111427885A (zh) * 2020-03-03 2020-07-17 中科驭数(北京)科技有限公司 基于查找表的数据库管理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102541751A (zh) * 2010-11-18 2012-07-04 微软公司 用于数据去重复的可缩放块存储
US20150161209A1 (en) * 2005-12-19 2015-06-11 Google Inc. Hierarchy of Servers for Query Processing of Column Chunks in a Distributed Column Chunk Data Store
CN105426115A (zh) * 2014-09-12 2016-03-23 图丰公司 数据存储访问和检索方法及数据存储和访问系统
CN106354434A (zh) * 2016-08-31 2017-01-25 中国人民大学 日志数据的存储方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161209A1 (en) * 2005-12-19 2015-06-11 Google Inc. Hierarchy of Servers for Query Processing of Column Chunks in a Distributed Column Chunk Data Store
CN102541751A (zh) * 2010-11-18 2012-07-04 微软公司 用于数据去重复的可缩放块存储
CN105426115A (zh) * 2014-09-12 2016-03-23 图丰公司 数据存储访问和检索方法及数据存储和访问系统
CN106354434A (zh) * 2016-08-31 2017-01-25 中国人民大学 日志数据的存储方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MEI WANG等: "A Data Reusing Strategy Based on Column-Stores", 《2013 IEEE 11TH INTERNATIONAL CONFERENCE ON DEPENDABLE, AUTONOMIC AND SECURE COMPUTING》 *
邢玉钢等: "基于列式存储的闪存数据库查询优化策略", 《计算机技术与发展》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871022A (zh) * 2017-12-20 2018-04-03 清华大学 一种时序数据列式存储、查询方法及系统
WO2019120240A1 (zh) * 2017-12-20 2019-06-27 清华大学 一种时序数据列式存储、查询方法及系统
US11704328B2 (en) 2017-12-20 2023-07-18 Tsinghua University Columnar storage and query method and system for time series data
CN110196847A (zh) * 2018-08-16 2019-09-03 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
US11636083B2 (en) 2018-08-16 2023-04-25 Tencent Technology (Shenzhen) Company Limited Data processing method and apparatus, storage medium and electronic device
CN109684293A (zh) * 2018-12-14 2019-04-26 中国人民银行清算总中心 混合文件存储方法及装置
CN111427885A (zh) * 2020-03-03 2020-07-17 中科驭数(北京)科技有限公司 基于查找表的数据库管理方法和装置

Also Published As

Publication number Publication date
CN107256233B (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN107256233A (zh) 一种数据存储方法和装置
JP2010503117A (ja) 動的フラグメントマッピング
US11074242B2 (en) Bulk data insertion in analytical databases
CN103914483B (zh) 文件存储方法、装置及文件读取方法、装置
CN103714096A (zh) 基于Lucene的倒排索引系统构建、数据处理方法及装置
CN107305586A (zh) 索引生成方法、索引生成装置及搜索方法
CN102033948A (zh) 一种数据更新方法和装置
KR102179855B1 (ko) 중복 웹 페이지 제거 방법 및 장치
JP6820918B2 (ja) データ処理のための方法および装置
CN103500224B (zh) 一种数据写入方法及装置、数据读取方法及装置
CN105653258A (zh) 一种代码处理方法及装置
CN105204920A (zh) 一种基于映射聚合的分布式计算作业的实现方法及装置
US20070239663A1 (en) Parallel processing of count distinct values
JP2018538596A5 (zh)
JP2019087249A5 (zh)
CN107451204B (zh) 一种数据查询方法、装置及设备
JPH09245043A (ja) 情報検索装置
CN105389394A (zh) 基于多个数据库集群的数据请求处理方法及装置
CN110109866A (zh) 一种文件系统目录的管理方法及设备
JPWO2016185542A1 (ja) 計算機システム、アクセラレータ及びデータベースの処理方法
CN117235069A (zh) 索引创建方法、数据查询方法、装置、设备及存储介质
JP6438295B2 (ja) ハイパーグラフソルバーのためのグラフ入力の自動編集
CN111190895A (zh) 列式存储数据的组织方法、装置及存储介质
CN111831622A (zh) 数据索引生成方法、装置、电子设备和可读存储介质
CN107515916A (zh) 数据查询的性能优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant