CN106033434A

CN106033434A - 基于数据规模和流行程度的虚拟资产数据副本处理方法

Info

Publication number: CN106033434A
Application number: CN201510109391.5A
Authority: CN
Inventors: 邓璐; 贾焰; 韩伟红; 李树栋; 李虎; 全拥; 傅翔; 朱伟辉
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2016-10-19
Anticipated expiration: 2035-03-12
Also published as: CN106033434B

Abstract

本发明公开一种基于数据规模和流行程度的虚拟资产副本处理方法，包括以下步骤：首先根据数据规模大小决定数据副本数量，然后根据加权一致性hash算法映射到对应的机器节点上。按照加权改进一致性hash算法对副本进行分配，数据先被分配到hash之后的虚拟节点，再被物理的存储到虚拟节点对应的物理节点。之后随流行程度的变化以及数据块的大小对数据副本进行相应调整，并根据机器节点的变化，进行进一步调整；本发明将基于数据规模和流行程度的虚拟资产数据副本模型应用到海量虚拟资产信息存储当中，提高了查询效率，同时在一定程度上节省了存储资源。

Description

基于数据规模和流行程度的虚拟资产数据副本处理方法

技术领域

本技术属于网络与信息安全领域，涉及一种基于数据规模和流行程度的数据副本动态处理方法。

背景技术

由于信息技术的飞速发展，数据爆炸已成为当前的一个突出问题，因此，海量数据管理技术也已成为人们的研究热点。

近年来，人们尝试提出了多种方法用于海量数据管理。如，Zaman S等[1]提出了一种副本放置节点选择的分布式算法，并将该问题转化为背包问题，在考虑对副本访问频率的基础上，提出了一种近似算法。该方法以优化用户访问时间为目标，但其有效使用范围却会受到限制。Kumar N等[2]提出了一种基于概率的信任感知型数据副本放置策略，定义了副本代价函数和信任计算指标，据此确定数据副本的放置位置。该方法面向特定网络的特殊情境，不能直接应用于云存储系统。Han Guodong等[3]提出了一种认知型副本放置方法，根据用户需求信息，启发式地完成数据副本的分发和放置，通信时延低，运行开销小。该方法是针对内容分发网络数据传输开销大的问题开展的，却同样难以直接应用于云存储。Sun Dawei等[4]面向提高云系统可用性的需要，通过建立数学模型，描述了系统有效性和副本数量的关系，给出了副本数量计算方法和副本复制算法。然而，该方法主要是从理论角度研究如何实现数据副本在云环境下的均衡布局，却没有给出具体的数据副本放置机制。

[1]Zaman S,Grosu D.A distributed algorithm for the replica placementproblem[J].IEEE Transactions on,2011,22(9):1455-1468.

[2]Kumar N,Kim J.Probabilistic trust aware data replica place-ment strategyfor online video streaming applications delay tolerant networks[J].Mathematical andComputer Modelling,2013,58(1):3-14.

[3]Han Guodong,Zhu Yige,Zhang Fan.A dynamic replica place-mentapproach based on cognition[J].Jisuanji Yingyong yu Ruanjian,2013,30(1):83-87.

[4]Sun Dawei,Chang Guiran,Gao Shang.Modeling a dynamic data replicationstrategy to increase system avail-ability in cloud computing[J].Journal of computerscience and technology,2012,27(2):256-272.

发明内容

针对已有技术缺陷，本发明提出了一种基于数据规模和流行程度的虚拟资产副本处理方法，该方法将数据副本模型应用到虚拟资产海量信息的存储当中，不仅能提高查询效率，同时也能在一定程度上节省存储资源。

本发明的技术方案包括：初始副本的处理和动态副本的处理。

1)、初始副本的处理

初始副本的处理主要针对一个新数据块的副本数量及位置进行初始化，首先根据数据规模的大小决定数据副本数量，然后再根据加权一致性hash算法映射到对应的机器节点上。初始化系统时，机器节点的数目是固定的，所以只考虑数据规模，即与数据规模的方根成正比。初始化之时，本模型中数据最少的副本数量为1，系统中最大副本不超过4。之后按照不同数据规模而进行合理分配。

Q_{i} = \{\begin{matrix} 1 & \sqrt{M_{1}} < \sqrt{M_{i}} < = \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) / 4 \\ 2 & \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) / 4 < \sqrt{M_{i}} < = \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) / 2 \\ 3 & \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) / 2 < \sqrt{M_{i}} < = \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) * 3 / 4 \\ 4 & \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) * 3 / 4 < \sqrt{M_{i}} < = \sqrt{M_{n}} \end{matrix}

其中Q_i表示数据块i的副本数量

n表示数据块的数量

M₁表示第一个数据块的规模，它是所有数据块中规模最小的数据块

M_n表示第n个数据块的规模，它是所有数据块中规模最大的数据块

2)、动态副本的处理

根据对数据关注程度的提升或下降来动态增加或减少副本的数量。通过查询日志或者缓存，可以知道数据的流行情况，即查询频率。大量实验和数据显示，没有特殊情况，历史查询频率低于15％的数据的查询情况会越来越低，查询频率大于75％的数据会越来越流行。所以本模型中，在机器节点数目不变的情况下，每到达一个给定时间段T，对数据副本情况进行调整：减少后20％的副本数目，增加前30％的副本数量，变化的数量还需考虑数据规模的大小。根据数据块的流行程度，这里指的是查询频率。随着对数据块关注程度的提升或下降来动态增加或减少副本的数量：

其中Q_i表示数据块i的副本数量

n表示数据块的数量

V_i表示在给定时间段内的访问概率

根据机器节点的变化，对数据副本进行进一步调整。在增加机器节点时，同样需要考虑数据的流行程度，来增加其副本数量。为防止出现副本数量多的数据无限增加的情况，本方法给出了一个时间阀值T_L，即使数据很流行，而它在以机器节点增加的时刻为止的时间段T_L内增加过副本数量，则不再增加副本数量，转而判断次流行数据。当所有数据块在以机器节点增加时刻之前的时间段T_L内都增加过副本时，才选择增加最流行的数据副本数量。为保持新增机器节点的持续可利用性，在机器节点加入时存储的数据量极限不能超过该机器节点存储限制的20％。

而对于减少机器节点的情况，同样要考虑流行程度。对于删除的节点中的数据块，通过它流行程度判断是否需要增加副本，情况与初始副本类似。如果访问概率v_i高于70％，则增加一个该数据块的副本，否则保持不变。

本发明开发环境是在Linux操作系统的X86平台，JDK1.7基础上,安装Cassandra 1.0或更高版本的数据库软件为系统提供数据支持，主要采用java语言编写。本发明要求服务器运行于安装有Linux操作系统的X86平台，JDK1.7或以上版本且具有多个机器节点的计算机环境。

本发明将基于数据规模和流行程度的虚拟资产数据副本处理方法应用到海量虚拟资产信息的存储当中，提高了查询效率，并在一定程度上节省了存储资源。

附图说明

图1为整体分布逻辑图

图2为增加机器节点流程图

图3为减少机器节点流程图

图4为实施例初态副本的分配图

图5为实施例动态副本的变化图

具体实施方式

下面通过具体实施方式来进一步说明本发明的技术方案：

本发明提出一种基于数据规模和流行程度的数据副本动态处理方法，其技术方案包括初始副本的处理和动态副本的处理。具体步骤如下：

1、建立副本初始化模型

设数据D₁是所有数据中的最小规模为M₁，副本数量Q₁为1。数据D_n是所有数据中的最大规模为M_n，副本数量Q_n为4。则任意一个规模为M_i的数据模块Di的副本数量Qi为：

Q_{i} = \{\begin{matrix} 1 & \sqrt{M_{1}} < \sqrt{M_{i}} < = \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) / 4 \\ 2 & \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) / 4 < \sqrt{M_{i}} < = \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) / 2 \\ 3 & \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) / 2 < \sqrt{M_{i}} < = \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) * 3 / 4 \\ 4 & \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) * 3 / 4 < \sqrt{M_{i}} < = \sqrt{M_{n}} \end{matrix}

对于A、B、C、D、E、F六个数据模块，每个模块对应不同的数据大小，其中A的数据规模最小，F的数据规模最大。该数据模块进行基于加权改进一致性hash划分的副本，如图4右侧所示。图4中，

A最小规模为500M——副本1；

B规模为625M——副本1；

C规模为900M——副本2；

D规模为1225M——副本3；

E规模为1600M——副本4；

F最大规模为2*1024M(2G)——副本4。

2、建立流行动态模型

根据加权改进一致性hash算法，数据先被分配到hash之后的虚拟节点，再被物理存储到虚拟节点对应的物理节点。在创建集群时，只以数据规模大小来决定副本数量，数据块A、B、C、D、E的副本数量为1、1、2、3、4、4。之后随流行程度的变化以及数据块的大小进行相应调整，如图5所示(图5中F增加副本2；F减少副本1)，数据块F的查询频率较高，根据其数据规模，使它的副本数量增加2，由4变成6。如果数据块F的查询频率变低，使它的副本数量减少1，由4变成3。

根据机器节点数量的变化，动态增加或减少数据块副本的数量。机器节点数量增加，则将不超过存储要求的流行数据块的副本存到增加的机器中；机器节点数量减少，则增加流行程度大于要求的数据块的副本数量。

与已有技术相比，本专利申请考虑了数据块的规模和流行程度，将此数据副本模型应用到虚拟资产海量信息的存储当中，在大大降低查询时间，提高查询效率的同时，在一定程度上节省了存储资源。

以上是对本发明进行了示例性的描述，显然本发明的实现并不受上述方式的限制，只要采用了本发明技术方案进行的各种改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围内。

Claims

1.一种考虑数据规模和流行程度的数据副本动态处理方法，其特征在于，包括以下步骤：

初始副本的处理：初始化系统时，机器节点的数目是固定的，即副本数量与数据规模的方根成正比；

Qi = \{\begin{matrix} 1 & \sqrt{M_{1}} < \sqrt{M_{i}} < = \sqrt{M_{1}} + \frac{\sqrt{M_{n}} - \sqrt{M_{1}}}{4} \\ 2 & \sqrt{M_{1}} + \frac{\sqrt{M_{n}} - \sqrt{M_{1}}}{4} < \sqrt{M_{i}} < = \sqrt{M_{1}} + \frac{\sqrt{M_{n}} - \sqrt{M_{1}}}{2} \\ 3 & \sqrt{M_{1}} + \frac{\sqrt{M_{n}} - \sqrt{M_{1}}}{2} < \sqrt{M_{i}} < = \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) * \frac{3}{4} \\ 4 & \sqrt{M_{1}} + (\sqrt{M_{n}} - \sqrt{M_{1}}) * \frac{3}{4} < \sqrt{M_{i}} < = \sqrt{M_{n}} \end{matrix}

其中Q_i表示数据块i的副本数量；

n表示数据块的数量；

M₁表示第一个数据块的规模，它是所有数据块中规模最小的数据块；

M_n表示第n个数据块的规模，它是所有数据块中规模最大的数据块；

动态副本的处理：根据数据块的流行程度，这里指的是查询频率，随着对数据块关注程度的提升或下降来动态增加或减少副本的数量；

其中Q_i表示数据块i的副本数量；

n表示数据块的数量；

V_i表示在给定时间段内的访问概率；

根据机器节点数量的变化，动态地增加或减少数据块副本的数量：如果机器节点数量增加，就将不超过存储要求的流行数据块的副本存到增加的机器中；如果机器节点数量减少，就增加流行程度大于要求的数据块的副本数量。

2.根据权利要求1所述的一种考虑数据规模和流行程度的数据副本动态处理方法，其特征在于，为防止出现副本数量多的数据无限增加的情况，设定一个时间阀值T_L，即使数据很流行，而它在以机器节点增加的时刻为止的时间段T_L内增加过副本数量，则不再增加副本数量，转而判断次流行数据；当所有数据块在以机器节点增加时刻之前的时间段T_L内都增加过副本时，才选择增加最流行的数据副本数量。为保持新增机器节点的持续可利用性，在机器节点加入时存储的数据量极限不能超过该机器节点存储限制的20％；

而对于减少机器节点的情况，如果访问概率v_i高于70％，则增加一个该数据块的副本，否则保持不变。