CN106202212A

CN106202212A - 一种基于数据服务器集群实现数据拆分的方法及系统

Info

Publication number: CN106202212A
Application number: CN201610489171.4A
Authority: CN
Inventors: 徐长龙; 王崇; 任文越
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2016-12-07

Abstract

本发明实施例提供一种基于数据服务器集群实现数据拆分的方法及系统，该数据服务器集群中的数据服务器节点呈树状层级分布，所述方法包括：当某层级的某一数据服务器节点出现访问量高于设定的访问量阈值时，于所述数据服务器节点下添加预设取值范围内取值为索引的子数据服务器节点，作为该数据服务器节点的下一层级；将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。上述技术方案具有如下有益效果：通过树的层级扩展能力将单点数据服务器进行进一步的拆分扩展，满足了出现访问量过高的数据服务器的拆分扩展需要，相对于一致性Hash算法实现拆分的数据集群整体来说，无需整体迁移数据。

Description

一种基于数据服务器集群实现数据拆分的方法及系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于数据服务器集群实现数据拆分的方法及系统。

背景技术

随着业务发展，互联网数据流量会逐年增加。现有技术常通过集群横向扩展来提高后端数据服务的承载能力。

常见的前端负载均衡只是简单的“随机”发放。而后端的数据服务器需要进行横向纵向拆分以此缓解单机服务器负载。出于数据一致性的要求对数据服务器集群的数据变更操作是不能“随机”分配，对于数据查找要有一一对应的映射。主要原因是对于更新如果要做到一致性必须保证更新操作是在一个顺序的单线程的情况下进行。只有如此才能保证在：多线程、多进程，多核CPU，多服务、多服务器的环境下更新的数据能够得到正确的结果。

所以每条数据在一个集群内只能在一个唯一的线程上做更新操作。

数据服务器的操作主要有：增加数据、更新数据、删除数据、查询数据。其中增加、更新、删除都是需要单线程顺序执行的。所以拆分数据服务器的时候是将数据进行加工运算，通过算法计算结果判断当前数据存储在哪个服务器内。

理想情况下使用算法可以将数据平均的分配到同组服务器内，如群组内有三台服务器9000条数据，那么每台服务器通过算法会分配每台服务器有3000条数据左右，然而事实上是很多情况下无法保证这个分配是均衡的。很有可能是1000，2000，6000.主要是因为数据参考字段本身就不是均衡导致的。当然数据拆分还有其他方式，比如按日期、按其他维度进行划分，实际规则大同小异，这里将不再叙述。

目前业内最常见的数据分配算法是一致性Hash(哈希)算法，他是利用一个有限数值集合。取值范围是0～2的32次方，如果这个集合内有10台服务器，那么就将这个集合按取值范围分成10个节点。当将一个数据某字段作为参考字段，如使用户的id作为原始参考字段对他进行Hash将其转换成一个整数。通过这个整数的值的大小找出此数据在那个服务器的管辖范围内，获取这个对应的服务器的连接将数据写入，理论上这个算法实现了请求映射和数据均等分配的全部功能。但是这个算法是有很多缺点，当服务器的个数产生变化，会导致每台服务器都会有一部分映射的数据需要迁移到临近的服务器上，这个过程极端情况下，需要遍历每台机器的数据重新计算数据的所属，如果数据量很大，几个小时都做不完。在此期间数据服务只能停机才能保证数据的一致性，停机对于互联网公司来说是不可接受的。这个映射方式对于扩展过于僵硬。

当然也有其他方案，比如使用手工配置记录每个服务器的数据取值范围，通过手动划分取值范围来迁移部分数据，但是此法过于繁琐，容易出错。

发明内容

本发明实施例提供一种基于数据服务器集群实现数据拆分的方法及系统，以通过树的层级扩展能力将单点数据服务器进行进一步的拆分扩展，满足出现访问量高于设定的访问量阈值的数据服务器的拆分扩展需要。

一方面，本发明实施例提供了一种基于数据服务器集群实现数据拆分的方法，该数据服务器集群中的数据服务器节点呈树状层级分布，所述方法包括：

当某层级的某一数据服务器节点出现访问量高于设定的访问量阈值时，于所述数据服务器节点下添加预设取值范围内取值为索引的子数据服务器节点，作为该数据服务器节点的下一层级；

将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。

另一方面，本发明实施例提供了一种基于数据服务器集群实现数据拆分的系统，该数据服务器集群中的数据服务器节点呈树状层级分布，当某层级的某一数据服务器节点出现访问量高于设定的访问量阈值时，于所述数据服务器节点下添加预设取值范围内取值为索引的子数据服务器节点，作为该数据服务器节点的下一层级；将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。

上述技术方案具有如下有益效果：通过树的层级扩展能力将单点数据服务器进行进一步的拆分扩展，满足了出现访问量过高的数据服务器的拆分扩展需要，相对于一致性Hash算法实现拆分的数据集群整体来说，无需整体迁移数据。数据服务器拆分只需增加树的层级即可将单台热点数据服务器拆分成多台数据服务器，如果多台数据服务器仍旧有个别热点，还可以对此热点数据服务器进一步拆分，此方法迁移数据量少，迁移速度快，迁移方式十分简单，使用主从同步即可完成数据迁移无需停机维护。影响小，同层级节点某个数据服务器的拆分对于同级数据服务器没有任何影响。一般四层(10^4＝10000个节点)的Radix树可以满足目前所有行业的扩展需要。运算速度快，如果拆分参考字段使用的是数值，会比Hash计算快很多。无需数据方向代理，同Hash算法一样，仅需同步客户端数据配置，即可完成数据负载均衡路由功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于数据服务器集群实现数据拆分的方法流程图；

图2为本发明实施例一种基于数据服务器集群实现数据拆分的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例一种基于数据服务器集群实现数据拆分的方法流程图，该数据服务器集群中的数据服务器节点呈树状层级分布，所述方法包括：

101、当某层级的某一数据服务器节点出现访问量高于设定的访问量阈值时，于所述数据服务器节点下添加预设取值范围内取值为索引的子数据服务器节点，作为该数据服务器节点的下一层级；

102、将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。

优选地，所述数据服务器集群中的数据服务器节点呈基数树Radix结构分布，或呈字典树Trie结构分布。

优选地，所述预设取值范围为如下之一：0-9，a-z，A-Z，ASCII值范围。取值范围说明，目前单子节ASCII码可见值为0～255，适宜计算机作为标识的字符为0～9，A～Z，a～z，大小写“a”、“A”是不同的，具体的索引取值范围取决于拆分数据的参考字段，如果是数值则为0～9，若为字符串则为a～z，A～Z。

优选地，所述将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储，包括：利用最大匹配算法，将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。

优选地，所述方法还包括：将数据拆分后的最大匹配路径反馈给用户，以便用户通过所述最大匹配路径找到对应的数据服务器配置，从而利用该数据服务器配置找到对应的数据服务器获取数据。

对应于上述方法实施例，如图2所示，为本发明实施例一种基于数据服务器集群实现数据拆分的系统结构示意图，该数据服务器集群中的数据服务器节点呈树状层级分布，当某层级的某一数据服务器节点出现访问量高于设定的访问量阈值时，于所述数据服务器节点下添加预设取值范围内取值为索引的子数据服务器节点，作为该数据服务器节点的下一层级；将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。

优选地，所述预设取值范围为如下之一：0-9，a-z，A-Z，ASCII值范围。

优选地，出现访问量高于设定的访问量阈值的所述数据服务器节点进一步利用最大匹配算法，将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。

优选地，出现访问量高于设定的访问量阈值的所述数据服务器节点进一步将数据拆分后的最大匹配路径反馈给用户，以便用户通过所述最大匹配路径找到对应的数据服务器配置，从而利用该数据服务器配置找到对应的数据服务器获取数据。

本发明实施例上述技术方案具有如下有益效果：现有技术一般通过一致性Hash拆分，一旦个别数据服务器单点过载需要扩展的时候，集群内所有相关数据服务器都需要迁移，这对于互联网意味着需要停止对外数据服务停机几小时才能够完成，十分不便。本发明实施例通过树的层级扩展能力将单点数据服务器进行进一步的拆分扩展，满足了出现访问量过高的数据服务器的拆分扩展需要，相对于一致性Hash算法实现拆分的数据集群整体来说，无需整体迁移数据。数据服务器拆分只需增加树的层级即可将单台热点数据服务器拆分成多台数据服务器，如果多台数据服务器仍旧有个别热点，还可以对此热点数据服务器进一步拆分，此方法迁移数据量少，迁移速度快，迁移方式十分简单，使用主从同步即可完成数据迁移无需停机维护。影响小，同层级节点某个数据服务器的拆分对于同级数据服务器没有任何影响。一般四层(10^4＝10000个节点)的Radix树可以满足目前所有行业的扩展需要。运算速度快，如果拆分参考字段使用的是数值，会比Hash计算快很多。无需数据方向代理，同Hash算法一样，仅需同步客户端数据配置，即可完成数据负载均衡路由功能。将数据拆分后的最大匹配路径反馈给用户，以便用户通过所述最大匹配路径找到对应的数据服务器配置，从而利用该数据服务器配置找到对应的数据服务器获取数据。

以下通过应用实例对本发明实施例上述技术方案进行详细描述：

本发明应用实例是使用Radix树的前缀搜索能力对一致性Hash方式进行替换，使用Radix(Trie)树的层级扩展能力将单点数据服务器进行进一步的拆分扩展。

如图2所示，比如数据服务器集群中的数据服务器节点呈基数树Radix结构分布，同层内会枚举所有出现的字符串，目前采用的是数值作为路标，所以每层的节点都会是0～9取值范围。第一层右边1及后面的节点展示的树形可以和左边子节点一样，每个层的节点下面可以加节点，也可以没有子节点。

在计算机中0和1的判断速度是最快的，而树结构分布就是除Hash外更快的查找数据方式之一。Radix是一种前缀树通过他可以高效的实现最大匹配算法。如参考数据字段的结尾是4132的数据，首先对字符串进行翻转成2314，从左到右按层查找树找到第一层对应节点索引“2”，继续从“2”节点的子节点中查找“3”节点，最后再查询“3”节点的子节点中是否有“1”节点，如果有则继续查找下去，没有则将最大匹配的路径返回给用户。通过最终节点可以找到要找到的“231”对应映射的配置。

使用最大匹配算法主要是为了快速的找到最大匹配的路径，如树只有一层那么使用类似之前的算法只需一步就能找到数据所在数据服务器(路径取值范围在0～9)，而当前层某数据服务器如果压力很大，可以在压力大的节点下级添加子节点将请求再一次拆分。

如原来只有一层树，当一层树某“2”节点访问高于设定的访问量阈值需要扩充的时候，将“2”节点下添加0～9为索引的子节点，并将“2”节点代表的数据拆分到新加的3台数据服务器内，那么下级的取值范围可以划分为0～3数据放到第一台数据服务器，4～6放到第二台数据服务器，7～9放到第三台数据服务器，这样实际迁移数据的数据服务器只有顶层“2”节点的数据服务器数据，对于同层数据服务器并没有任何影响。而查找数据归属的最大匹配的时候路径就会变成(1，20～29，3，4，5，6，7，8，9，0)取值作为最大匹配路径。

本发明实施例通过树的层级扩展能力将单点数据服务器进行进一步的拆分扩展，满足了出现访问量高于设定的访问量阈值的数据服务器的拆分扩展需要。数据服务器拆分只需增加树的层级即可将单台热点数据服务器拆分成多台数据服务器，如果多台数据服务器仍旧有个别热点，还可以对此热点数据服务器进一步拆分，此方法迁移数据量少，迁移速度快，迁移方式十分简单，使用主从同步即可完成数据迁移无需停机维护。影响小，同层级节点某个数据服务器的拆分对于同级数据服务器没有任何影响。一般四层(10^4＝10000个节点)的Radix树可以满足目前所有行业的扩展需要。运算速度快，如果拆分参考字段使用的是数值，会比Hash计算快很多。无需数据方向代理，同Hash算法一样，仅需同步客户端数据配置，即可完成数据负载均衡路由功能。将数据拆分后的最大匹配路径反馈给用户，以便用户通过所述最大匹配路径找到对应的数据服务器配置，从而利用该数据服务器配置找到对应的数据服务器获取数据。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据服务器集群实现数据拆分的方法，其特征在于，该数据服务器集群中的数据服务器节点呈树状层级分布，所述方法包括：

2.如权利要求1所述基于数据服务器集群实现数据拆分的方法，其特征在于，所述数据服务器集群中的数据服务器节点呈基数树Radix结构分布，或呈字典树Trie结构分布。

3.如权利要求1所述基于数据服务器集群实现数据拆分的方法，其特征在于，所述预设取值范围为如下之一：0-9，a-z，A-Z，ASCII值范围。

4.如权利要求1所述基于数据服务器集群实现数据拆分的方法，其特征在于，所述将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储，包括：

利用最大匹配算法，将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。

5.如权利要求4所述基于数据服务器集群实现数据拆分的方法，其特征在于，所述方法还包括：

将数据拆分后的最大匹配路径反馈给用户，以便用户通过所述最大匹配路径找到对应的数据服务器配置，从而利用该数据服务器配置找到对应的数据服务器获取数据。

6.一种基于数据服务器集群实现数据拆分的系统，其特征在于，该数据服务器集群中的数据服务器节点呈树状层级分布，当某层级的某一数据服务器节点出现访问量高于设定的访问量阈值时，于所述数据服务器节点下添加预设取值范围内取值为索引的子数据服务器节点，作为该数据服务器节点的下一层级；将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。

7.如权利要求6所述基于数据服务器集群实现数据拆分的系统，其特征在于，所述数据服务器集群中的数据服务器节点呈基数树Radix结构分布，或呈字典树Trie结构分布。

8.如权利要求6所述基于数据服务器集群实现数据拆分的系统，其特征在于，所述预设取值范围为如下之一：0-9，a-z，A-Z，ASCII值范围。

9.如权利要求6所述基于数据服务器集群实现数据拆分的系统，其特征在于，出现访问量高于设定的访问量阈值的所述数据服务器节点进一步利用最大匹配算法，将所述数据服务器节点存储的数据拆分到新增加的下一层级的子数据服务器节点中进行存储。

10.如权利要求9所述基于数据服务器集群实现数据拆分的系统，其特征在于，出现访问量高于设定的访问量阈值的所述数据服务器节点进一步将数据拆分后的最大匹配路径反馈给用户，以便用户通过所述最大匹配路径找到对应的数据服务器配置，从而利用该数据服务器配置找到对应的数据服务器获取数据。