CN104112025A - 处理节点计算能力感知的虚拟资产数据划分方法 - Google Patents

处理节点计算能力感知的虚拟资产数据划分方法 Download PDF

Info

Publication number
CN104112025A
CN104112025A CN201410374849.5A CN201410374849A CN104112025A CN 104112025 A CN104112025 A CN 104112025A CN 201410374849 A CN201410374849 A CN 201410374849A CN 104112025 A CN104112025 A CN 104112025A
Authority
CN
China
Prior art keywords
node
processing
data
machine
virtual asset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410374849.5A
Other languages
English (en)
Inventor
邓璐
贾焰
韩伟红
李树栋
李虎
刘�东
全拥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201410374849.5A priority Critical patent/CN104112025A/zh
Publication of CN104112025A publication Critical patent/CN104112025A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种处理节点计算能力感知的虚拟资产数据划分方法,包括以下步骤一、机器间的处理:在分布式一致性hash算法的基础之上,加入权值,Qi=Q*ai/A;步骤二、机器内部的处理:根据划分的目的,设定数据的相关属性,在同一机器节点内存放具有相关属性的数据;将具有相同标识属性的虚拟资产数据平台邻近存放。与已有技术相比,本发明申请将考虑了机器性能,唯一标识相关,平台相关的处理分布方法应用到了虚拟资产海量信息的存储当中,大大地降低了查询的时间,提高了查询效率。

Description

处理节点计算能力感知的虚拟资产数据划分方法
技术领域
本技术涉及海量虚拟资产信息数据的存储分配,具体涉及一种处理节点计算能力感知的虚拟资产数据划分方法。
背景技术
hash算法[1]或者说为hash函数,是任何可以将各种长度的二进制值映射为固定长度的二进制值的算法。由hash算法返回的值也叫做hash值,hash码,hash校验和或者简单hash。hash对于检测数据对象(例如消息)中的修改很有用。此外,好的hash算法使得构造两个相互独立且具有相同hash的输入不能通过计算方法实现。
一致性hash算法[2]是一种特殊的hash算法,当调整hash表大小时,平均只有K/n个数据需要被重新映射,其中K是数据量的大小,n是缓冲的大小。相对地,在大多数其它hash表中,缓冲数组的变化基本上导致其中所有数据都需要重新映射。
分布式一致性hash算法[3]就是在一致性hash算法的基础之上增加了虚拟节点的考虑。其目的就是把hash的结果尽可能平均地分布到所有的缓冲中去,这样可以使得所有的缓冲空间都得到利用。
前述第一种方法在处理数据分布式时会导致机器扩展性发生严重缺陷,当增加或者删除机器的时候,几乎所有数据都需要重新映射,计算量大。第二种方法可以缓解上述情况,但仍有多数数据需要重新映射,计算量也很大。第三种方法可以很好地减少计算量,但是它没有考虑机器之间的差异,过分地平均可能导致系统的延迟。
[1]Jarvinen K,Tommiska M,Skytta J.Hardware implementationanalysis of the MD5hash algorithm[C].2005.
[2]JiaKui Zhao,PingFei Zhu,LiangHuai,Yang.Effective DataLocalization Using Consistent Hashing in Cloud Time-Series Databases[J].Applied Mechanics and Materials,2013,347:2246-2251
[3]一致性哈希改进[EB/OL].
http://blog.163.com/lin_guoqian126/blog/static/1693687432012151010409/.
发明内容
针对现有技术的不足,本发明的方法是考虑机器性能和信息特点的虚拟资产的处理分布。主要包括机器间的处理和机器内部的处理,步骤如下:
一、机器间的处理:在分布式一致性hash算法的基础之上,加入权值
Qi=Q*ai/A
其中A表示所有机器节点实际的资源总数,
ai表示机器节点i资源能力,
Qi表示节点机器i实际存储的数据量,
Q表示总的数据量
二、机器内部的处理
根据划分的目的,设定数据的相关属性,在同一机器节点内存放具有相关属性的数据;
将具有相同标识属性的虚拟资产数据平台邻近存放。
与已有技术相比,本专利申请将考虑了机器性能,唯一标识相关,平台相关的处理分布方法应用到了虚拟资产海量信息的存储当中,大大地降低了查询的时间,提高了查询效率。
附图说明
图1为本发明整体分布逻辑图
图2为本发明节点间划分虚拟节点例子
图3为加权改进hash算法中增加结点的示例
图4为4加权改进hash算法中减少结点的示例
图5为同一机器节点,不同唯一标识下数据分布示例
图6为同一个唯一标识,不同平台下数据分布示例
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案:
本发明是考虑机器性能和信息特点的虚拟资产的处理分布。主要包括机器间的处理和机器内部的处理。整体设计如图1所示。
1、机器间的处理
加权改进hash算法就是已有的分布式一致性hash算法的基础之上,加入了权值:考虑了机器节点的实际性能(以资源来衡量)。
定义1(权值确定):A表示所有机器节点实际的资源总数,ai表示机器节点i资源能力,Qi表示节点机器i实际存储的数据量,Q表示总的数据量,则
Qi=Q*ai/A
假设现在采用分布式一致性hash算法,它的hash环被划分为16个虚拟节点,初始状态有A、B、C、D这4个机器节点,现在说明一下机器节点变化带来的影响。根据考虑权值的理论:由于它们的资源能力不同,所以它们存储的虚拟节点数目也应该不相同。图2左是不考虑资源能力的虚拟节点数目分配情况,假设A、B、C、D四个机器节点的资源能力所占比例,也就是权值分别为2/16,2/16,4/16,8/16,则虚拟节点分配情况如图2右所示:
下面考虑增加机器节点时的情形,假设增加机器节点E,能力比例由4个节点A、B、C、D的2/16,2/16,4/16,8/16,变为增加之后5个节点A、B、C、D、E的1/16,1/16,2/16,4/16,8/16,将A、B、C、D减少的结点都分配给节点E,是在尽量保证A、B、C、D现有节点变化最小的原则下重新分配,分配的情况如图3所示,图3左是初始状态的情况,图3右是增加结点E的情况。
再考虑减少节点状态,在原来A、B、C、D4个结点的情形下,减少节点D,能力比例由4个节点A、B、C、D的2/16,2/16,4/16,8/16变为减少节点后3个结点A、B、C的2/8,2/8,4/8,虚拟结点的分配情况也会随着做相应的改变,由于所有的虚拟结点大小是相同的,所以将原来属于D的虚拟结点,按照比例1:1:2分配给节点A、B、C,分配结果如图4所示,图4左是初始状态的情况,图4右是减少结点D的情况。
2、机器内部的处理
前面所说的是每个机器节点所应存储的合理数据量大小,现在说明一下机器内的处理。
根据划分的目的,同一机器节点内存放的数据应该相关,这样查找的时候就不需要有太大的跨度,这样可以节省查询时间。以Cassandra数据库为例,来考虑不同唯一标识(Column Family存储)的数据在同一机器节点的存放,对于唯一标识的调用,基本上不存在范围查找,如果仅仅按照唯一标识顺序排列,会浪费次序之间的优势。所以在这里,采用按照用户所在地这个属性来存储,因为在同一个城市或者相近城市的用户们会经常交流,他们之间的联系更大,出现异常情况的可能性较大。如:在唯一标识:5789047294S的地点是杭州中国,而唯一标识3451654890H的地点也是杭州中国,为了加强管控,就可以把这两个唯一标识下的信息邻近存放,来加快查找的效率。如图5所示,图5左是不考虑唯一标识相关情况的存储,图5右是考虑唯一标识相关情况的存储。
接着来考虑同一个唯一标识(Column Family存储)下,不同平台(Key存储)下信息的分配情况。对于同一用户,很有可能在不同平台下存储相同属性的资产,如:在游戏平台“七杀”中拥有“刀”这个属性的虚拟资产,而在游戏平台“天龙八部”中拥有同样属性的资产,就可以把这两个平台邻近存放,来加快查找的效率。如图6所示,图6左是不考虑资产相关情况的存储,图6右是考虑资产相关情况的存储。
与已有技术相比,本专利申请将考虑了机器性能,唯一标识相关,平台相关的处理分布方法应用到了虚拟资产海量信息的存储当中,大大地降低了查询的时间,提高了查询效率。
以上是对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

Claims (1)

1.一种处理节点计算能力感知的虚拟资产数据划分方法,其特征在于,包括以下步骤:
一、机器间的处理:在分布式一致性hash算法的基础之上,加入权值
Qi=Q*ai/A
其中A表示所有机器节点实际的资源总数,
ai表示机器节点i资源能力,
Qi表示节点机器i实际存储的数据量,
Q表示总的数据量
二、机器内部的处理
根据划分的目的,设定数据的相关属性,在同一机器节点内存放具有相关属性的数据;
将具有相同标识属性的虚拟资产数据平台邻近存放。
CN201410374849.5A 2014-08-01 2014-08-01 处理节点计算能力感知的虚拟资产数据划分方法 Pending CN104112025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410374849.5A CN104112025A (zh) 2014-08-01 2014-08-01 处理节点计算能力感知的虚拟资产数据划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410374849.5A CN104112025A (zh) 2014-08-01 2014-08-01 处理节点计算能力感知的虚拟资产数据划分方法

Publications (1)

Publication Number Publication Date
CN104112025A true CN104112025A (zh) 2014-10-22

Family

ID=51708816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410374849.5A Pending CN104112025A (zh) 2014-08-01 2014-08-01 处理节点计算能力感知的虚拟资产数据划分方法

Country Status (1)

Country Link
CN (1) CN104112025A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106034144A (zh) * 2015-03-12 2016-10-19 中国人民解放军国防科学技术大学 一种基于负载均衡的虚拟资产数据存储方法
CN107145556A (zh) * 2017-04-28 2017-09-08 安徽博约信息科技股份有限公司 通用的分布式采集系统
CN109951394A (zh) * 2019-03-11 2019-06-28 中国银联股份有限公司 一种确定交易系统的虚拟节点数量的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090323931A1 (en) * 2002-12-31 2009-12-31 Broadcom Corporation Data Processing Hash Algorithm and Policy Management
CN102137014A (zh) * 2011-03-11 2011-07-27 华为技术有限公司 资源管理方法、系统和资源管理器
CN102521386A (zh) * 2011-12-22 2012-06-27 清华大学 基于集群存储的空间元数据分组方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090323931A1 (en) * 2002-12-31 2009-12-31 Broadcom Corporation Data Processing Hash Algorithm and Policy Management
CN102137014A (zh) * 2011-03-11 2011-07-27 华为技术有限公司 资源管理方法、系统和资源管理器
CN102521386A (zh) * 2011-12-22 2012-06-27 清华大学 基于集群存储的空间元数据分组方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106034144A (zh) * 2015-03-12 2016-10-19 中国人民解放军国防科学技术大学 一种基于负载均衡的虚拟资产数据存储方法
CN106034144B (zh) * 2015-03-12 2019-10-15 中国人民解放军国防科学技术大学 一种基于负载均衡的虚拟资产数据存储方法
CN107145556A (zh) * 2017-04-28 2017-09-08 安徽博约信息科技股份有限公司 通用的分布式采集系统
CN107145556B (zh) * 2017-04-28 2020-12-29 安徽博约信息科技股份有限公司 通用的分布式采集系统
CN109951394A (zh) * 2019-03-11 2019-06-28 中国银联股份有限公司 一种确定交易系统的虚拟节点数量的方法及装置
CN109951394B (zh) * 2019-03-11 2021-04-27 中国银联股份有限公司 一种确定交易系统的虚拟节点数量的方法及装置

Similar Documents

Publication Publication Date Title
CN101604337B (zh) 一种哈希表项存储、查找装置及方法
CN110602148B (zh) 一种区块的状态树的生成和链上数据验证的方法及装置
CN103902544B (zh) 一种数据处理方法及系统
CN102479207B (zh) 一种信息搜索的方法、系统及信息搜索设备
CN101694672B (zh) 一种分布式安全检索系统
CN104866502B (zh) 数据匹配的方法及装置
US20150310047A1 (en) System and Method for Composing a Multidimensional Index Key in Data Blocks
EP3460683A1 (en) Data processing method and apparatus in cluster system
CN104298541A (zh) 云存储系统的数据分布算法及其装置
CN104077423A (zh) 一种基于一致性散列的结构化数据存储、查询和迁移方法
US10509803B2 (en) System and method of using replication for additional semantically defined partitioning
CN106095589A (zh) 一种分配分区的方法、装置及系统
Labouseur et al. Scalable and Robust Management of Dynamic Graph Data.
CN106326475A (zh) 一种高效的静态哈希表实现方法及系统
CN102546299A (zh) 一种在大流量下进行深度包检测的方法
Ibrahim et al. Intelligent data placement mechanism for replicas distribution in cloud storage systems
CN104376109A (zh) 一种基于数据分布库的多维度数据分布方法
Dai et al. Improving load balance for data-intensive computing on cloud platforms
CN112699134A (zh) 基于图剖分的分布式图数据库的存储与查询方法
CN105550332A (zh) 一种基于双层索引结构的起源图查询方法
CN104112025A (zh) 处理节点计算能力感知的虚拟资产数据划分方法
CN106909556B (zh) 内存集群的存储均衡方法及装置
CN108093024B (zh) 一种基于数据频度的分类路由方法及装置
Liroz-Gistau et al. Dynamic workload-based partitioning for large-scale databases
CN104283966A (zh) 云存储系统的数据分布算法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141022

WD01 Invention patent application deemed withdrawn after publication