CN107256233A

CN107256233A - 一种数据存储方法和装置

Info

Publication number: CN107256233A
Application number: CN201710343493.2A
Authority: CN
Inventors: 李振炜; 李远策; 陈永强; 翟鑫达
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2017-10-17
Anticipated expiration: 2037-05-16
Also published as: CN107256233B

Abstract

本发明公开了一种数据存储方法和装置。其中方法包括：预设磁盘中的各页可存储的行的数量为N，N为自然数；对于数据表中待存储的每一列，为其分配一个包含一组页的列块，并将该列中的数据按顺序存储到该列块中的各页中，其中每一个页中存储该列中的N行数据；在接收到数据查询请求时，根据所述查询请求对应的列，确定待查询的列块，根据所述查询请求命中的对应列中的行，确定该列块中的目标页；将该目标页中的数据读取到内存中，根据所述数据查询请求进行查询。该技术方案通过对列式存储的改进，实现了在确定待查询数据所在行的情况下，快速定位到数据地址，避免读取和遍历大量不必要的数据，加快了查询速度。

Description

一种数据存储方法和装置

技术领域

本发明涉及计算机技术领域，具体涉及一种数据存储方法和装置。

背景技术

在大数据场景下，列式存储相对于行式存储有着显著的优势。然而目前存在的问题是：即使能够确定待查询数据在数据表中处于第几行，我们也并不知道该行的数据的具体位置。而许多列式存储文件对磁盘的空间占用大，如果对其进行遍历，不可避免地会读取大量无用数据，导致查询速度慢，效率低，资源占用高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据存储方法和装置。

依据本发明的一个方面，提供了一种数据存储方法，包括：

预设磁盘中的各页可存储的行的数量为N，N为自然数；

对于数据表中待存储的每一列，为其分配一个包含一组页的列块，并将该列中的数据按顺序存储到该列块中的各页中，其中每一个页中存储该列中的N行数据；

在接收到数据查询请求时，根据所述查询请求对应的列，确定待查询的列块，根据所述查询请求命中的对应列中的行，确定该列块中的目标页；

将该目标页中的数据读取到内存中，根据所述数据查询请求进行查询。

可选地，该方法还包括：

为各列块生成统计信息，并与各列块对应保存；

所述统计信息包括如下的一种或多种：该列块中的各页对磁盘空间的占用情况，该列块中的各页在磁盘中的偏移量，该列块中各页中存储的数据在原数据表中的行数范围。

可选地，该方法还包括：

为各列块中的各页按顺序进行编号；

所述该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。

可选地，所述根据所述查询请求命中的对应列中的行，确定该列块中的目标页包括：

根据所述查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息，确定所述查询请求命中的对应列中的行所在的页。

可选地，所述查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。

依据本发明的另一方面，提供了一种数据存储装置，包括：

存储单元，适于预设磁盘中的各页可存储的行的数量为N，N为自然数；对于数据表中待存储的每一列，为其分配一个包含一组页的列块，并将该列中的数据按顺序存储到该列块中的各页中，其中每一个页中存储该列中的N行数据；

查询单元，适于在接收到数据查询请求时，根据所述查询请求对应的列，确定待查询的列块，根据所述查询请求命中的对应列中的行，确定该列块中的目标页；将该目标页中的数据读取到内存中，根据所述数据查询请求进行查询。

可选地，所述存储单元，还适于为各列块生成统计信息，并与各列块对应保存；所述统计信息包括如下的一种或多种：该列块中的各页对磁盘空间的占用情况，该列块中的各页在磁盘中的偏移量，该列块中各页中存储的数据在原数据表中的行数范围。

可选地，所述存储单元，还适于为各列块中的各页按顺序进行编号；所述该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。

可选地，所述查询单元，适于根据所述查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息，确定所述查询请求命中的对应列中的行所在的页。

由上述可知，本发明的技术方案，为磁盘中的各页预设其能够存储的行的数量N，对于数据表中待存储的每一列，为其分配一个包含一组页的列块，并将该列中的数据按顺序存储到该列块中的各页中，使每一个页存储该列中的N行数据。这样在接收到查询请求时，可以首先根据查询请求对应的列，确定待查询的列块，然后根据查询请求命中的对应列中的行，确定该列块中的目标页，直接读取该目标页中的数据读取到内存中来完成查询。该技术方案通过对列式存储的改进，实现了在确定待查询数据所在行的情况下，快速定位到数据地址，避免读取和遍历大量不必要的数据，加快了查询速度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种数据存储方法的流程示意图；

图2示出了现有技术中Parquet文件格式在磁盘上的分布示意图；

图3示出了根据本发明一个实施例的一种数据存储装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种数据存储方法的流程示意图，如图1所示，该方法包括：

步骤S110，预设磁盘中的各页可存储的行的数量为N，N为自然数。

页(Page)是一个逻辑概念，对数据库而言，页是在磁盘上保存物理记录的单位，也是一个I/O操作(读/写操作)的基本单位。

步骤S120，对于数据表中待存储的每一列，为其分配一个包含一组页的列块，并将该列中的数据按顺序存储到该列块中的各页中，其中每一个页中存储该列中的N行数据。

例如，Parquet是一种性能较好的列式存储格式。在这种情况下，每个列的存储对应一个列块(column chunk)，每个列块包含多个页(page0，page1……)，多个列块可以包含在行组(Row Group)中。图2示出了现有技术中Parquet文件格式在磁盘上的分布示意图。通常而言，每个页的大小是固定的，例如每个页占用25KB。然而，由于列中存储数据的类型不同，导致每个页中存储的行数不能确定，也就导致了，即使能够确定待查询数据在数据表中处于第几行，我们也并不知道该行在哪个页中。这就需要对该列块中的所有页进行遍历，在大数据场景下，这是十分费时并且浪费资源的。而在本实施例中，并不为每个页固定大小，而是使其能够存储的行的数量是固定的。由于数据表中的一行数据是包含一个或多个列的，采取上述方式带来的好处还在于，同一行中的不同列的数据，所在的页的编号是相同的。

举例而言，数据表中姓名一列是string型数据，年龄一列为int型数据。由于数据的宽度不同，如果按照现有技术进行存储，那么一页中存储多少行数据是不可知的，并且同一行数据所在的页的编号也不一定相同。而采用本实施例中的方法，如果每页存储10万行数据，姓名一列的数据存储在column chunk a中，年龄一列的数据存储在column chunk b中，那么第1-10万行数据都存储在相应column chunk的page0中，第100001-第20万行数据都存储在相应column chunk的page1中，以此类推。

步骤S130，在接收到数据查询请求时，根据查询请求对应的列，确定待查询的列块，根据查询请求命中的对应列中的行，确定该列块中的目标页。

步骤S140，将该目标页中的数据读取到内存中，根据数据查询请求进行查询。

可见，图1所示的方法，为磁盘中的各页预设其能够存储的行的数量N，对于数据表中待存储的每一列，为其分配一个包含一组页的列块，并将该列中的数据按顺序存储到该列块中的各页中，使每一个页存储该列中的N行数据。这样在接收到查询请求时，可以首先根据查询请求对应的列，确定待查询的列块，然后根据查询请求命中的对应列中的行，确定该列块中的目标页，直接读取该目标页中的数据读取到内存中来完成查询。该技术方案通过对列式存储的改进，实现了在确定待查询数据所在行的情况下，快速定位到包含数据的列式存储文件，避免读取和遍历大量不必要的数据，加快了查询速度。

在本发明的一个实施例中，图1所示的方法还包括：为各列块生成统计信息，并与各列块对应保存；统计信息包括如下的一种或多种：该列块中的各页对磁盘空间的占用情况，该列块中的各页在磁盘中的偏移量，该列块中各页中存储的数据在原数据表中的行数范围。

上述统计信息可以有助于在接收到查询请求时实现快速读取相应的页。在本发明的一个实施例中，上述方法还包括：为各列块中的各页按顺序进行编号；该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。

例如上文所举出的第1-10万行数据都存储在相应column chunk的page0中，第100001-第20万行数据都存储在相应column chunk的page1中，就是可以根据各页的编号和每页存储10万行数据确定的。

在本发明的一个实施例中，上述方法中，根据查询请求命中的对应列中的行，确定该列块中的目标页包括：根据查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息，确定查询请求命中的对应列中的行所在的页。

例如，已经确定了待查询的年龄数据在原数据表的第15万行，那么根据统计信息可以确定，读取column chunk b的page1。而如果采用现有技术中的存储方式，需要读取column chunk b的所有page。相较于现有技术，查询效率有至少20％的提升。

在本发明的一个实施例中，上述方法中，查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。也即是说，统计信息不等同于目标数据表的索引。

图3示出了根据本发明一个实施例的一种数据存储装置的结构示意图，如图3所示，数据存储装置300包括：

存储单元310，适于预设磁盘中的各页可存储的行的数量为N，N为自然数；对于数据表中待存储的每一列，为其分配一个包含一组页的列块，并将该列中的数据按顺序存储到该列块中的各页中，其中每一个页中存储该列中的N行数据。

页(Page)是一个逻辑概念，对数据库而言，页是在磁盘上保存物理记录的单位，也是一个I/O操作(读/写操作)的基本单位。Parquet是一种性能较好的列式存储格式。在这种情况下，每个列的存储对应一个列块(column chunk)，每个列块包含多个页(page0，page1……)，多个列块可以包含在行组(Row Group)中。通常而言，每个页的大小是固定的，例如每个页占用25KB。然而，由于列中存储数据的类型不同，导致每个页中存储的行数不能确定，也就导致了，即使能够确定待查询数据在数据表中处于第几行，我们也并不知道该行在哪个页中。这就需要对该列块中的所有页进行遍历，在大数据场景下，这是十分费时并且浪费资源的。而在本实施例中，并不为每个页固定大小，而是使其能够存储的行的数量是固定的。由于数据表中的一行数据是包含一个或多个列的，采取上述方式带来的好处还在于，同一行中的不同列的数据，所在的页的编号是相同的。

查询单元320，适于在接收到数据查询请求时，根据查询请求对应的列，确定待查询的列块，根据查询请求命中的对应列中的行，确定该列块中的目标页；将该目标页中的数据读取到内存中，根据数据查询请求进行查询。

可见，图3所示的装置，通过各单元的相互配合，为磁盘中的各页预设其能够存储的行的数量N，对于数据表中待存储的每一列，为其分配一个包含一组页的列块，并将该列中的数据按顺序存储到该列块中的各页中，使每一个页存储该列中的N行数据。这样在接收到查询请求时，可以首先根据查询请求对应的列，确定待查询的列块，然后根据查询请求命中的对应列中的行，确定该列块中的目标页，直接读取该目标页中的数据读取到内存中来完成查询。该技术方案通过对列式存储的改进，实现了在确定待查询数据所在行的情况下，快速定位到包含数据的列式存储文件，避免读取和遍历大量不必要的数据，加快了查询速度。

在本发明的一个实施例中，上述装置中，存储单元310，还适于为各列块生成统计信息，并与各列块对应保存；统计信息包括如下的一种或多种：该列块中的各页对磁盘空间的占用情况，该列块中的各页在磁盘中的偏移量，该列块中各页中存储的数据在原数据表中的行数范围。

上述统计信息可以有助于在接收到查询请求时实现快速读取相应的页。在本发明的一个实施例中，上述装置中，存储单元310，还适于为各列块中的各页按顺序进行编号；该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。

在本发明的一个实施例中，上述装置中，查询单元320，适于根据查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息，确定查询请求命中的对应列中的行所在的页。

在本发明的一个实施例中，上述装置中，查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。也即是说，统计信息不等同于目标数据表的索引。

综上所述，本发明的技术方案，为磁盘中的各页预设其能够存储的行的数量N，对于数据表中待存储的每一列，为其分配一个包含一组页的列块，并将该列中的数据按顺序存储到该列块中的各页中，使每一个页存储该列中的N行数据。这样在接收到查询请求时，可以首先根据查询请求对应的列，确定待查询的列块，然后根据查询请求命中的对应列中的行，确定该列块中的目标页，直接读取该目标页中的数据读取到内存中来完成查询。该技术方案通过对列式存储的改进，实现了在确定待查询数据所在行的情况下，快速定位到包含数据的列式存储文件，避免读取和遍历大量不必要的数据，加快了查询速度。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据存储装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种数据存储方法，其中，该方法包括：

预设磁盘中的各页可存储的行的数量为N，N为自然数；

2.如权利要求1所述的方法，其中，该方法还包括：

为各列块生成统计信息，并与各列块对应保存；

3.如权利要求2所述的方法，其中，该方法还包括：

为各列块中的各页按顺序进行编号；

4.如权利要求2或3所述的方法，其中，所述根据所述查询请求命中的对应列中的行，确定该列块中的目标页包括：

5.如权利要求4所述的方法，其中，所述查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。

6.一种数据存储装置，其中，该装置包括：

7.如权利要求6所述的装置，其中，

所述存储单元，还适于为各列块生成统计信息，并与各列块对应保存；所述统计信息包括如下的一种或多种：该列块中的各页对磁盘空间的占用情况，该列块中的各页在磁盘中的偏移量，该列块中各页中存储的数据在原数据表中的行数范围。

8.如权利要求7所述的装置，其中，

所述存储单元，还适于为各列块中的各页按顺序进行编号；所述该列块中各页中存储的数据在原数据表中的行数范围是根据各页的编号和各页可存储的行的数量为N计算得到的。

9.如权利要求7或8所述的装置，其中，

所述查询单元，适于根据所述查询请求命中的对应列中的行在原数据表中的行数和待查询的列块的统计信息，确定所述查询请求命中的对应列中的行所在的页。

10.如权利要求9所述的装置，其中，所述查询请求命中的对应列中的行在原数据表中的行数是根据该查询请求对应的目标数据表的索引得到的。