CN104572711A

CN104572711A - 一种分布式文档形数据存取方法及装置

Info

Publication number: CN104572711A
Application number: CN201310492602.9A
Authority: CN
Inventors: 贾瑞; 王志平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-10-18
Filing date: 2013-10-18
Publication date: 2015-04-29

Abstract

本发明涉及一种分布式文档形数据存取方法及装置。在一个实施例中上述方法包括以下步骤：在云存储平台中存储多条键-值类形数据记录；将所述多条键-值类形数据记录的键分别存储在多个有序集合中；为所述多个有序集合内的键建立索引；根据所述索引获取指定范围的键；以及根据获取的键存取对应的值。上述的方法及装置具有更高的存取效率。

Description

一种分布式文档形数据存取方法及装置

技术领域

本发明涉及数据库技术，尤其涉及一种分布式文档形数据存取方法及装置。

背景技术

关系型数据库的典型实现主要被用于执行规模小而读写频繁，或者大批量极少写访问的事务，其在一些数据敏感的应用中表现了糟糕的性能，例如为巨量文档建立索引、高流量网站的网页服务，以及发送流式媒体等服务中。

为了解决现有关系型数据库的上述缺陷，现有技术中开发出NoSQL技术。NoSQL是对不同于传统的关系型数据库的数据库管理系统的统称。两者存在许多显著的不同点，其中最重要的是NoSQL不使用SQL作为查询语言。其数据存储可以不需要固定的表格模式，也经常会避免使用SQL的JOIN操作，一般有水平可扩展性的特征。

MongoDB是一种可扩展，高性能，开源的面向文档的数据库管理系统。MongoDB主要解决的是海量数据的访问效率问题，根据官方文档：数据量达到50GB以上的时候，访问速度是mysql的10倍以上。业界很多不是很复杂的web应用就是使用MongoDB。

使用MongoDB对大企业海量级数据应用是把双刃剑：使用成本低，可以快速搭建服务开始使用；但是由于对开源系统源码级别的不够深入（读懂这些代码也是一个很耗时有挑战的事情），后续的系统维护和个性化的需求极其难以满足，在出现问题时也难以得到开源项目团队的及时有力的支持。基于上述考虑，对于企业来说，其关键性业务使用开源的MongoDB带来的风险不可控也是不可以接受的。但是，如果自行开发自己的数据管理系统，人力，资源，时间花费都是巨大的。因此，需要一种一种分布式文档形数据存取方法能够及时满足大企业海量数据不断的需求。

发明内容

有鉴于此，有必要提供一种分布式文档形数据存取方法及装置，其具有更高的存取效率。

一种分布式文档形数据存取方法，包括：在云存储平台中存储多条键-值类形数据记录；将所述多条键-值类形数据记录的键分别存储在多个有序集合中；为所述多个有序集合内的键建立索引；根据所述索引获取指定范围的键；以及根据获取的键存取对应的值。

一种分布式文档形数据存取装置，包括：存储模块，用于在云存储平台中存储多条键-值类形数据记录；键处理模块，用于将所述多条键-值类形数据记录的键分别存储在多个有序集合中；索引模块，用于为所述多个有序集合内的键建立索引；获取模块，用于根据所述索引获取指定范围的键；以及存取模块，用于根据获取的键存取对应的值。

根据上述的分布式文档形数据存取方法及装置，通过将云存储平台中存储的多条记录的键排序，并拆分成一定的范围后打包至单个文件内，从而可以一次性获取指定范围内的键，进一步地，据此可以实现指定范围内的顺序存取。相比于逐一按照键进行存取具有更高的存取效率。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

图1是一种云存储平台的示意图。

图2是一种云存储服务器的结构框图。

图3是第一实施例提供的分布式文档形数据存取方法流程图。

图4为图3所示的方法的示意图。

图5为第二实施例提供的分布式文档形数据存取方法示意图。

图6是第三实施例提供的分布式文档形数据存取方法流程图。

图7是图6的方法其中一个步骤的详细流程图。

图8为第四实施例提供的分布式文档形数据存取装置的结构框图。

图9为第五实施例提供的分布式文档形数据存取装置的结构框图。

图10为第六实施例提供的分布式文档形数据存取装置的结构框图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如后。

本发明实施例涉及一种分布式文档形数据存取方法及装置。其用于在现有的云存储平台的基础上快速实现分布式文档形数据管理系统，从而可以高效的方式进行分布式文档形数据的存取。

图1为现有的云存储平台的示意图。如图1所示，现有的云存储平台本质上是一个无序的键-值（Key-Value）类型的分布式文件存储系统，其中键是唯一可用来获取对应的值的入口，而值可以是各种格式的文档。由于采用分布式物理存储，因此，具体的数据是被分散存储在多个物理存储节点中。云存储平台自身会维护索引用于记录及查询某条记录对应的物理存储信息，从而实现记录的存取。

可以理解，云存储平台本身可以是基于不同的存储介质实现，例如随机存储器、固态存储器以及硬盘。其中，随机存储器具有最快的存取速度，但其成本最高；硬盘存储速度最慢但成本最低，可以实现超大存储容量；而固态存储器性能以及成本均介于随机存储器与硬盘之间，在存取速度与成本之间相对达成一个平衡。

图2示出了云存储服务器的一个实施例的结构框图。如图2所示，服务器100包括存储器102、一个或多个（图中仅示出一个）处理器104、以及网络单元106。可以理解，图2所示的结构仅为示意，服务器100还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

存储器102可用于存储应用程序以及模块，如本发明实施例中的分布式文档形数据存取方法及装置对应的程序指令/模块，以及用于存储数据，处理器104通过运行存储在存储器102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的分布式文档形数据存取方法及装置。

存储器102可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器102可进一步包括相对于处理器104远程设置的存储器，这些远程存储器可以通过网络连接至服务器100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

网络单元106用于与其他服务器或者客户端进行通讯，例如，网络单元106可为有线或者无线网络接口卡。

图3为本发明第一实施例提供的分布式文档形数据存取方法的流程图。如图3所示，上述方法包括以下步骤：

步骤S110、在云存储平台中存储多条键-值类形数据记录。

上述的键-值类型数据记录是指一个键-值对，其中的值例如可以为各种格式的文档。而键是用来从云存储平台获取一条记录的唯一标识。在云存储平台中存储记录的过程即是将数据提交至云存储服务器进行存储的过程。此过程在现有技术中属于常见的过程，在此不再赘述。

步骤S120、将所述多条键-值类形数据记录的键分别存储在多个有序集合中。

如上所述，键是用来从云存储平台获取一条记录的唯一标识，因此要获取多项记录的话，需要首先获取该多项记录的键。本实施例的方法中，将所有的键值按一定的规则进行排序，并在排序后将所有的键划分为多个有序的集合。如此，对比参阅图1与图4，每个集合对应着一定的键的范围。此外，每个集合可以打包在一个独立的文件中。这个包括多个键的文件同样可以存储在上述的云存储平台中。

步骤S130、为所述多个有序集合内的键建立索引。

在步骤S120后，还为所述多个有序集合内的键建立索引，用于查询每个集合对应的键的范围。

步骤S140、根据所述索引获取指定范围的键。

经过上述的步骤，若要存取键在一定范围内的记录，则可通过上述的索引查询键所在的集合，通过打包的文件可一次性获取指定范围内的键。

步骤S150、根据获取的键存取对应的值。

在获取到指定范围内的键后，即可逐一通过云存储平台存储对应的值。

本实施例的分布式文档形数据存取方法中，通过将云存储平台中存储的多条记录的键排序，并拆分成一定的范围后打包至单个文件内，从而可以一次性获取指定范围内的键，进一步地，据此可以实现指定范围内的顺序存取。相比于逐一按照键进行存取具有更高的存取效率。

图5为本发明第二实施例提供的分布式文档形数据存取方法的流程图。本实施例的方法与第一实施例相似，其不同之处在于，参阅图5，在步骤S110中，将元数据、基数据、及流水分别存储在不同存储介质的云存储平台中。

可以理解，基于存取效率的考虑，在云存储平台中，可以采用数据分片技术，即将长度超过预定大小的拆分成固定大小的分片。依据具体的需要，上述在固定分片大小可以变化，在本实施例中，上述的固定分片大小例如可为4兆字节（MB）。由于进行数据分片，因此必须记录每个分片在原文件中的位置信息以及每个数据分片被存储位置信息。例如，一个数据分片是存储在硬盘介质的云存储平台中还是，固态存储器介质的云存储平台中，以及该数据分片对应的记录的键等。这些信息即为上述的元数据（图5中所示的“数据分片[M,N)”），而数据分片本身对应的记录（图5中所示的“基准数据集[M,N)”以及“增量数据集”）即为上述的基数据。此外，流水（图5中所示的“增量数据”）是指数据的修改记录，上述的修改包括增加、删除以及更新内容。

参阅图5，本实施例中，元数据存储在随机存储器中，所述基数据存储在硬盘中，所述流水存储在固态存储器中。元数据、基数据、流水分别选择不同存储介质的云存储平台，在性能和存储量之间达到一个平衡，减轻了系统设计的复杂性。

此外，数据所在的存储介质及平台还会相互转化。例如，在本实施例中，每间隔预定的时间，根据所述流水更新所述基数据及元数据；以及在完成更新后删除相应的流水。由此，基准数据集中的记录可以被修改或被删除而变成新的基准数据集，而根据流水新增的记录，即被存储在图5所示的“增量数据集”中了。

根据本实施例的分布式文档形数据存取方法，元数据、基数据、流水分别选择不同存储介质的云存储平台，在性能和存储量之间达到一个平衡，减轻了系统设计的复杂性。

图6为本发明第三实施例提供的分布式文档形数据存取方法的流程图。本实施例的方法与第二实施例相似，其不同之处在于，参阅图6，还包括批量数据导入步骤S160。

进一步地，参阅图7，步骤S160包括：

步骤S310、获取需要导入的批量数据。需要导入的批量数据可由其他的系统提供。

步骤S320、将所述批量数据预先组织成预定的格式。上述的预定的格式例如是将其进行数据分片处理。

步骤S330、将所述预定的格式的数据存储在所述云存储平台中并直接修改所述索引以完成所述批量数据的导入。

上述的修改索引例如是修改如图5所示的元数据，以及更新如图4所示的键的集合。

大量数据入库业界一般是一条条直接写进去或者支持批量写，但批量写的本质仍然是将记录一条条写进去。本实施例的方案中，将要入库的数据组织成云存储平台的数据格式，然后直接修改索引，在1000亿的数据量的情况下比传统的入库方式快了10倍以上。通过这种方式，极大的降低了业务对系统服务能力的要求和资源消耗，避免大量复杂的研究开发工作。

图8为第四实施例提供的分布式文档形数据存取装置的结构框图。如图8所示，上述的装置包括：存储模块41、键处理模块42、索引模块43、获取模块44、以及存取模块45。

存储模块41用于在云存储平台中存储多条键-值类形数据记录。上述的键-值类型数据记录是指一个键-值对，其中的值例如可以为各种格式的文档。而键是用来从云存储平台获取一条记录的唯一标识。在云存储平台中存储记录的过程即是将数据提交至云存储服务器进行存储的过程。

键处理模块42用于将所述多条键-值类形数据记录的键分别存储在多个有序集合中。如上所述，键是用来从云存储平台获取一条记录的唯一标识，因此要获取多项记录的话，需要首先获取该多项记录的键。本实施例的方法中，将所有的键值按一定的规则进行排序，并在排序后将所有的键划分为多个有序的集合。如此，对比参阅图1与图4，每个集合对应着一定的键的范围。此外，每个集合可以打包在一个独立的文件中。这个包括多个键的文件同样可以存储在上述的云存储平台中。

索引模块43用于为所述多个有序集合内的键建立索引；上述的索引用于查询每个集合对应的键的范围。

获取模块44用于根据所述索引获取指定范围的键。若要存取键在一定范围内的记录，则可通过上述的索引查询键所在的集合，通过打包的文件可一次性获取指定范围内的键。

存取模块45用于根据获取的键存取对应的值。在获取到指定范围内的键后，即可逐一通过云存储平台存储对应的值。

本实施例的分布式文档形数据存取装置中，通过将云存储平台中存储的多条记录的键排序，并拆分成一定的范围后打包至单个文件内，从而可以一次性获取指定范围内的键，进一步地，据此可以实现指定范围内的顺序存取。相比于逐一按照键进行存取具有更高的存取效率。

此外，该存储模块41还可用于：将元数据、基数据、及流水分别存储在不同存储介质的云存储平台中。

参阅图5，存储模块41可将元数据存储在随机存储器中，所述基数据存储在硬盘中，所述流水存储在固态存储器中。元数据、基数据、流水分别选择不同存储介质的云存储平台，在性能和存储量之间达到一个平衡，减轻了系统设计的复杂性。

图9为第五实施例提供的分布式文档形数据存取装置的结构框图。如图9所示，其与第四实施例的装置相似，其不同之处在于，还包括更新模块46，用于根据所述流水更新所述基数据及元数据；以及在完成更新后删除相应的流水。

例如，在本实施例中，每间隔预定的时间，根据所述流水更新所述基数据及元数据；以及在完成更新后删除相应的流水。由此，基准数据集中的记录可以被修改或被删除而变成新的基准数据集，而根据流水新增的记录，即被存储在图5所示的“增量数据集”中了。

根据本实施例的分布式文档形数据存取装置，可定期将存储在固态存储器中的数据转移至硬盘中，从而可减少固态存储器的存储量，降低存储成本。

图9为第五实施例提供的分布式文档形数据存取装置的结构框图。如图9所示，其与第四实施例的装置相似，其不同之处在于，还包括批量导入模块47，用于获取需要导入的批量数据；将所述批量数据预先组织成预定的格式；将所述预定的格式的数据存储在所述云存储平台中并直接修改所述索引以完成所述批量数据的导入。

需要导入的批量数据可由其他的系统提供。上述的预定的格式例如是将其进行数据分片处理。上述的修改索引例如是修改如图5所示的元数据，以及更新如图4所示的键的集合。

此外，本发明实施例还提供一种计算机可读存储介质，其内存储有计算机可执行指令，上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让计算机或者类似的运算装置完成上述的分布式文档形数据存取方法及装置。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种分布式文档形数据存取方法，其特征在于，包括：

在云存储平台中存储多条键-值类形数据记录；

将所述多条键-值类形数据记录的键分别存储在多个有序集合中；

为所述多个有序集合内的键建立索引；

根据所述索引获取指定范围的键；以及

根据获取的键存取对应的值。

2.如权利要求1所述的式文档形数据存取方法，其特征在于，在云存储平台中存储多条键-值类形数据记录包括：将元数据、基数据、及流水分别存储在不同存储介质的云存储平台中。

3.如权利要求2所述的式文档形数据存取方法，其特征在于，所述元数据存储在随机存储器中，所述基数据存储在硬盘中，所述流水存储在固态存储器中。

4.如权利要求2所述的式文档形数据存取方法，其特征在于，还包括：根据所述流水更新所述基数据及元数据；以及在完成更新后删除相应的流水。

5.如权利要求1所述的式文档形数据存取方法，其特征在于，还包括：

获取需要导入的批量数据；

将所述批量数据预先组织成预定的格式；

将所述预定的格式的数据存储在所述云存储平台中并直接修改所述索引以完成所述批量数据的导入。

6.一种分布式文档形数据存取装置，其特征在于，包括：

存储模块，用于在云存储平台中存储多条键-值类形数据记录；

键处理模块，用于将所述多条键-值类形数据记录的键分别存储在多个有序集合中；

索引模块，用于为所述多个有序集合内的键建立索引；

获取模块，用于根据所述索引获取指定范围的键；以及

存取模块，用于根据获取的键存取对应的值。

7.如权利要求6所述的式文档形数据存取装置，其特征在于，该存储模块用于：将元数据、基数据、及流水分别存储在不同存储介质的云存储平台中。

8.如权利要求7所述的式文档形数据存取装置，其特征在于，该存储模块用于：将所述元数据存储在随机存储器中，所述基数据存储在硬盘中，所述流水存储在固态存储器中。

9.如权利要求7所述的式文档形数据存取装置，其特征在于，还包括：更新模块，用于根据所述流水更新所述基数据及元数据；以及在完成更新后删除相应的流水。

10.如权利要求6所述的式文档形数据存取装置，其特征在于，还包括批量导入模块，用于：

获取需要导入的批量数据；

将所述批量数据预先组织成预定的格式；