CN102402586A

CN102402586A - 一种分布式数据存储方法

Info

Publication number: CN102402586A
Application number: CN2011103277046A
Authority: CN
Inventors: 刘翔; 管燕卿; 黄有富; 彭平源
Original assignee: SHENZHEN HQEW CO Ltd
Current assignee: SHENZHEN HQEW CO Ltd
Priority date: 2011-10-24
Filing date: 2011-10-24
Publication date: 2012-04-04

Abstract

本发明公开了一种分布式数据存储方法，于服务器端进行数据库水平拆分，所述数据库水平拆分设置有多个节点，其通过以下三种数据操作方式中任意一种或几种方式组合进行对数据信息进行拆分，上述三种数据操作方式具体为：数值范围拆分，Hash拆分，xml文件中保存数据库及表的配置拆分。该方法能降低单台机器的负载，提高海量存储速率，最大限度的降低宕机造成的损失。

Description

一种分布式数据存储方法

技术领域

本发明涉及一种数据存储，尤其涉及一种分布式数据存储方法。

背景技术

随着互联网应用的广泛普及，海量数据的存储和访问成了系统设计的瓶颈问题。对于大型的互联网应用，每天庞大的网站访问无疑对数据库造成了相当高的负载。严峻考验系统的稳定性和扩展性。通过数据拆分减轻单台数据库压力，来提高数据库性能，横向扩展数据层已经成为架构研发人员首选的方式。水平拆分数据库，可以降低单台机器的负载，同时最大限度的降低了宕机造成的损失。

有鉴于此，提供一种水平拆分数据库，降低单台机器的负载，提高海量存储速率，最大限度的降低宕机造成损失的分布式数据存储方法成为必要。

发明内容

本发明的目的是提供一种水平拆分数据库，降低单台机器的负载，提高海量存储速率，最大限度的降低宕机造成损失的分布式数据存储方法。

为了实现上述目的，本发明提供一种分布式数据存储方法，于服务器端进行数据库水平拆分，所述数据库水平拆分设置有多个节点，其通过以下三种数据操作方式中任意一种或几种方式组合进行对数据信息进行拆分，上述三种数据操作方式具体为：数值范围拆分，Hash拆分，xml文件中保存数据库及表的配置拆分。

进一步的，所述数值范围拆分包括以下步骤：

A)通过客户端向服务器端发送数据；

B)通过服务器端发出指令分别在各节点进行数据检索；

C)从各节点返回检索到的非空记录或返回空记录；

D)通过服务器端进行数据整理返回客户端。

进一步的，所述Hash拆分包括以下步骤：

A)通过客户端向服务器端发送数据；

B)在服务器端对数据记录中最后一条记录的编号进行Hash取模，并返回计算值；

C)通过计算值确认访问节点，对数据进行操作；

进一步的，所述xml文件中保存数据库及表的配置拆分包括以下步骤：

A)在服务端建立xml，并将全部节点均编序为一个循环队列；

B)通过客户端向服务器端发送数据；

C)在服务器端对xml中的记录进行检索，并返回检索信息包括一条非空记录或者一条空记录；

当返回空记录时：先后对第一个节点和xml均进行对客户端的数据操作；在xml中对客户端的数据进行操作，同时记录对相关节点操作信息；

当返回非空记录时：判断上一次操作的节点，并对循环队列中下一个操作节点进行操作；对xml中的记录进行操作，同时更新对相关节点操作信息。

进一步的，在服务器端将数据库横向扩展数据层负荷分担至多台负荷分担电脑的数据节点。

与现在技术相比，本发明提供的用于一种水平拆分数据库，降低单台机器的负载，提高海量存储速率，最大限度的降低当机造成损失的分布式数据存储方法具有重要意义。

附图说明

附图用于提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的一种分布式数据存储方法的结构示意图；

图2为读数据流程图；

图3为存数据流程图。

具体实施方式

下面结合附图详细说明发明，其作为本说明书的一部分，通过实例来说明发明的原理，发明的其他方面，特征及其优点通过该详细说明将会变得一目了然。

如图1-3中任意附图所示，为了实现上述目的，本发明提供一种分布式数据存储方法，于服务器端2进行数据库水平拆分，上述数据库水平拆分设置有多个节点，其通过以下三种数据操作方式中任意一种或几种方式组合进行对数据信息进行拆分，上述三种数据操作方式具体为：数值范围拆分，Hash拆分，xml文件中保存数据库及表的配置拆分。

将服务器端2各数据库拆分为多个节点，各节点通过数值范围拆分，Hash拆分，xml文件中保存数据库及表的配置拆分的三种数据操作方式中任意一种或几种方式组合进行对数据信息进行拆分。通过对数据的水平拆分并将大量的数据处理分解到各节点，有效提高数据库整体数据处理速率的同时，还可以降低单台机器的负载，同时最大限度的降低了了宕机造成的损失。

进一步的，如图2所示，上述数值范围拆分包括以下步骤：

A)通过客户端1向服务器端2发送数据；

B)通过服务器端2发出指令分别在各节点进行数据检索；

C)从各节点返回检索到的非空记录或返回空记录；

D)通过服务器端2进行数据整理返回客户端1。

作为在数据范围拆分中，假如将200条数据分布在两个数据节点a21和节点b22中，按ID数据序列如，在ID为1、3、5、7......的奇数数据保存在节点a21中，ID为2、4、6、8......的偶数数据保存在节点b中。如果要获取ID为1的数据，则在两个节点中分别执行以下语句。

执行如下语句：Select*from Table where ID＝1。

此时，在节点a21返回ID为1的记录，数据库B返回空记录。这时合并节点a21和节点b22返回的记录，就可以得到正确的结果。

又如，执行如下语句：Select top 10*from Table order by ID。

此时，节点a21将返回10条数据，节点b22也返回10条数据，合并节点a21和节点b22返回的记录，得到20条记录数据表，此时，须要筛选正确的10条记录。

即，还需要对返回的记录执行如下语句：Select*from Table order by ID。

节点a21和节点b22返回的所有的记录，再次执行排序和top取值。通过对节点a和节点b分别返回的10条记录合并后、排序、移除的操作，得到最终正确结果。

在查询数据时需要处理的关键字还有如：最大值(max)，最小值(min)，求和(count)，求平均(avg)等运算，同数据节点上的查询，可以转化成对单一数据库查询等效的结果。而这些处理归纳起来，只有合并，排序，移除这三种情况，其实这和Map(映射)/Reduce(简化)思想非常的类似，无论多么复杂的动作，最终归结都可以通过几个简单的并合后、排序、移除的操作完成。在海量数据的存储和访问中，多个节点同时将分解的数据进行检索，返回到同一个数据处理记录表中，排序和取值，使多个数据节点共同分担负荷，可以提高服务器速率，减小运算时间，减小宕机机率。

进一步的，如图3所示，上述Hash拆分包括以下步骤：

A)通过客户端1向服务器端2发送数据；

B)在服务器端2对数据记录中最后一条记录的ID进行Hash取模，并返回计算值；

C)通过计算值确认访问节点，对数据进行操作。

对服务器数据记录中最后一条记录的ID进行Hash取值，用一种特定的取值方式进行取模(如：用当前设置的节点数进行取模)，如需将一个数据表拆分成5个数据节点，我们就用5这个数字对最后一条记录的ID进行hash取值和取模运算，也就是ID％5，当返回1时候，对应DBa32；当返回2时，对应DBb33；当返回3时，对应DBc34；当返回4时，对应DBd35，当返回0时，对应DBe36，这样可以做到非常均匀的将数据分配到5个DB中。

进一步的，如图3所示，上述xml文件中保存数据库及表的配置拆分包括以下步骤：

A)在服务端建立xml31，并将全部节点均编序为一个循环队列；

B)通过客户端1向服务器端2发送数据；

C)在服务器端2对xml31中的记录进行检索，并返回检索信息包括一条非空记录或者一条空记录；

当返回空记录时：对第一个节点32和xml31均进行对客户端1的数据操作；在xml中对客户端1的数据进行操作，同时记录对相关节点操作信息；

当返回非空记录时：判断上一次操作的节点，并对循环队列中下一个操作节点进行操作；对xml31中的记录进行操作，同时更新对相关节点操作信息。

在服务器端2建立一个DB文件xml31，这个DB单独保存ID到DB的映射关系，每次访问数据库的时候都要先查询一次这个数据库，以得到具体的记录信息，然后进行所需要的数据操作。

进一步的，在服务器端2将数据库横向扩展数据层负荷分担至多台负荷分担电脑的数据节点。水平拆分数据库，可以降低单台机器的负载，同时最大限度的降低了了当机造成的损失。

上面只是一些简单的数据处理，面对一些复杂的数据处理，要在数据处理的过程中，进行数据节点之间的数据交换才能完成的。因此要实现一个完全能够处理SQL语句的分布式数据库，需要在数据库的内核部分进行改动。在实现这个组件时，时间是有限的，进行内核部分的改造不现实，所以我采取了中间件的方式，来实现了这个分布式数据库。与现在技术相比，本发明提供的用于一种水平拆分数据库，降低单台机器的负载，提高海量存储速率，最大限度的降低当机造成损失的分布式数据存储方法具有重要意义。

以上所揭示的仅为发明的较佳实例而已，当然不能以此来限定发明之权利范围，因此依发明申请专利范围所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种分布式数据存储方法，其特征在于：于服务器端进行数据库水平拆分，所述数据库水平拆分设置有多个节点，其通过以下三种数据操作方式中任意一种或几种方式组合进行对数据信息进行拆分，上述三种数据操作方式具体为：数值范围拆分，Hash拆分，xml文件中保存数据库及表的配置拆分。

2.根据权利要求1所述的一种分布式数据存储方法，其特征在于：所述数值范围拆分包括以下步骤：

A)通过客户端向服务器端发送数据；

B)通过服务器端发出指令分别在各节点进行数据检索；

C)从各节点返回检索到的非空记录或返回空记录；

D)通过服务器端进行数据整理返回客户端。

3.根据权利要求1所述的一种分布式数据存储方法，其特征在于：所述Hash拆分包括以下步骤：

A)通过客户端向服务器端发送数据；

C)通过计算值确认访问节点，对数据进行操作。

4.根据权利要求1所述的一种分布式数据存储方法，其特征在于：所述xml文件中保存数据库及表的配置拆分包括以下步骤：

A)在服务端建立xml，并将全部节点均编序为一个循环队列；

B)通过客户端向服务器端发送数据；

当返回空记录时：

对第一个节点和xml均进行对客户端的数据操作；

在xml中对客户端的数据进行操作，同时记录对相关节点操作信息；

当返回非空记录时：

判断上一次操作的节点，并对循环队列中下一个操作节点进行操作；

对xml中的记录进行操作，同时更新对相关节点操作信息。

5.根据权利要求1所述的一种分布式数据存储方法，其特征在于：在服务器端将数据库横向扩展数据层负荷分担至多台负荷分担电脑的数据节点。