CN104112025A

CN104112025A - 处理节点计算能力感知的虚拟资产数据划分方法

Info

Publication number: CN104112025A
Application number: CN201410374849.5A
Authority: CN
Inventors: 邓璐; 贾焰; 韩伟红; 李树栋; 李虎; 刘�东; 全拥
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2014-08-01
Filing date: 2014-08-01
Publication date: 2014-10-22

Abstract

本发明公开一种处理节点计算能力感知的虚拟资产数据划分方法，包括以下步骤一、机器间的处理：在分布式一致性hash算法的基础之上，加入权值，Q_i＝Q*a_i/A；步骤二、机器内部的处理：根据划分的目的，设定数据的相关属性，在同一机器节点内存放具有相关属性的数据；将具有相同标识属性的虚拟资产数据平台邻近存放。与已有技术相比，本发明申请将考虑了机器性能，唯一标识相关，平台相关的处理分布方法应用到了虚拟资产海量信息的存储当中，大大地降低了查询的时间，提高了查询效率。

Description

处理节点计算能力感知的虚拟资产数据划分方法

技术领域

本技术涉及海量虚拟资产信息数据的存储分配，具体涉及一种处理节点计算能力感知的虚拟资产数据划分方法。

背景技术

hash算法[1]或者说为hash函数，是任何可以将各种长度的二进制值映射为固定长度的二进制值的算法。由hash算法返回的值也叫做hash值，hash码，hash校验和或者简单hash。hash对于检测数据对象(例如消息)中的修改很有用。此外，好的hash算法使得构造两个相互独立且具有相同hash的输入不能通过计算方法实现。

一致性hash算法[2]是一种特殊的hash算法，当调整hash表大小时，平均只有K/n个数据需要被重新映射，其中K是数据量的大小，n是缓冲的大小。相对地，在大多数其它hash表中，缓冲数组的变化基本上导致其中所有数据都需要重新映射。

分布式一致性hash算法[3]就是在一致性hash算法的基础之上增加了虚拟节点的考虑。其目的就是把hash的结果尽可能平均地分布到所有的缓冲中去，这样可以使得所有的缓冲空间都得到利用。

前述第一种方法在处理数据分布式时会导致机器扩展性发生严重缺陷，当增加或者删除机器的时候，几乎所有数据都需要重新映射，计算量大。第二种方法可以缓解上述情况，但仍有多数数据需要重新映射，计算量也很大。第三种方法可以很好地减少计算量，但是它没有考虑机器之间的差异，过分地平均可能导致系统的延迟。

[1]Jarvinen K,Tommiska M,Skytta J.Hardware implementationanalysis of the MD5hash algorithm[C].2005.

[2]JiaKui Zhao,PingFei Zhu,LiangHuai,Yang.Effective DataLocalization Using Consistent Hashing in Cloud Time-Series Databases[J].Applied Mechanics and Materials,2013,347:2246-2251

[3]一致性哈希改进[EB/OL].

http://blog.163.com/lin_guoqian126/blog/static/1693687432012151010409/.

发明内容

针对现有技术的不足，本发明的方法是考虑机器性能和信息特点的虚拟资产的处理分布。主要包括机器间的处理和机器内部的处理，步骤如下：

一、机器间的处理：在分布式一致性hash算法的基础之上，加入权值

Q_i＝Q*a_i/A

其中A表示所有机器节点实际的资源总数，

ai表示机器节点i资源能力，

Qi表示节点机器i实际存储的数据量，

Q表示总的数据量

二、机器内部的处理

根据划分的目的，设定数据的相关属性，在同一机器节点内存放具有相关属性的数据；

将具有相同标识属性的虚拟资产数据平台邻近存放。

与已有技术相比，本专利申请将考虑了机器性能，唯一标识相关，平台相关的处理分布方法应用到了虚拟资产海量信息的存储当中，大大地降低了查询的时间，提高了查询效率。

附图说明

图1为本发明整体分布逻辑图

图2为本发明节点间划分虚拟节点例子

图3为加权改进hash算法中增加结点的示例

图4为4加权改进hash算法中减少结点的示例

图5为同一机器节点，不同唯一标识下数据分布示例

图6为同一个唯一标识，不同平台下数据分布示例

具体实施方式

下面通过具体实施方式来进一步说明本发明的技术方案：

本发明是考虑机器性能和信息特点的虚拟资产的处理分布。主要包括机器间的处理和机器内部的处理。整体设计如图1所示。

1、机器间的处理

加权改进hash算法就是已有的分布式一致性hash算法的基础之上，加入了权值：考虑了机器节点的实际性能(以资源来衡量)。

定义1(权值确定)：A表示所有机器节点实际的资源总数，ai表示机器节点i资源能力，Qi表示节点机器i实际存储的数据量，Q表示总的数据量，则

Qi＝Q*ai/A

假设现在采用分布式一致性hash算法，它的hash环被划分为16个虚拟节点，初始状态有A、B、C、D这4个机器节点，现在说明一下机器节点变化带来的影响。根据考虑权值的理论：由于它们的资源能力不同，所以它们存储的虚拟节点数目也应该不相同。图2左是不考虑资源能力的虚拟节点数目分配情况，假设A、B、C、D四个机器节点的资源能力所占比例，也就是权值分别为2/16，2/16，4/16，8/16，则虚拟节点分配情况如图2右所示：

下面考虑增加机器节点时的情形，假设增加机器节点E，能力比例由4个节点A、B、C、D的2/16，2/16，4/16，8/16，变为增加之后5个节点A、B、C、D、E的1/16，1/16，2/16，4/16，8/16，将A、B、C、D减少的结点都分配给节点E，是在尽量保证A、B、C、D现有节点变化最小的原则下重新分配，分配的情况如图3所示，图3左是初始状态的情况，图3右是增加结点E的情况。

再考虑减少节点状态，在原来A、B、C、D4个结点的情形下，减少节点D，能力比例由4个节点A、B、C、D的2/16，2/16，4/16，8/16变为减少节点后3个结点A、B、C的2/8，2/8，4/8，虚拟结点的分配情况也会随着做相应的改变，由于所有的虚拟结点大小是相同的，所以将原来属于D的虚拟结点，按照比例1：1：2分配给节点A、B、C，分配结果如图4所示，图4左是初始状态的情况，图4右是减少结点D的情况。

2、机器内部的处理

前面所说的是每个机器节点所应存储的合理数据量大小，现在说明一下机器内的处理。

根据划分的目的，同一机器节点内存放的数据应该相关，这样查找的时候就不需要有太大的跨度，这样可以节省查询时间。以Cassandra数据库为例，来考虑不同唯一标识(Column Family存储)的数据在同一机器节点的存放，对于唯一标识的调用，基本上不存在范围查找，如果仅仅按照唯一标识顺序排列，会浪费次序之间的优势。所以在这里，采用按照用户所在地这个属性来存储，因为在同一个城市或者相近城市的用户们会经常交流，他们之间的联系更大，出现异常情况的可能性较大。如：在唯一标识：5789047294S的地点是杭州中国，而唯一标识3451654890H的地点也是杭州中国，为了加强管控，就可以把这两个唯一标识下的信息邻近存放，来加快查找的效率。如图5所示，图5左是不考虑唯一标识相关情况的存储，图5右是考虑唯一标识相关情况的存储。

接着来考虑同一个唯一标识(Column Family存储)下，不同平台(Key存储)下信息的分配情况。对于同一用户，很有可能在不同平台下存储相同属性的资产，如：在游戏平台“七杀”中拥有“刀”这个属性的虚拟资产，而在游戏平台“天龙八部”中拥有同样属性的资产，就可以把这两个平台邻近存放，来加快查找的效率。如图6所示，图6左是不考虑资产相关情况的存储，图6右是考虑资产相关情况的存储。

以上是对本发明进行了示例性的描述，显然本发明的实现并不受上述方式的限制，只要采用了本发明技术方案进行的各种改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围内。

Claims

1.一种处理节点计算能力感知的虚拟资产数据划分方法，其特征在于，包括以下步骤：