CN106033434A - 基于数据规模和流行程度的虚拟资产数据副本处理方法 - Google Patents
基于数据规模和流行程度的虚拟资产数据副本处理方法 Download PDFInfo
- Publication number
- CN106033434A CN106033434A CN201510109391.5A CN201510109391A CN106033434A CN 106033434 A CN106033434 A CN 106033434A CN 201510109391 A CN201510109391 A CN 201510109391A CN 106033434 A CN106033434 A CN 106033434A
- Authority
- CN
- China
- Prior art keywords
- data
- data block
- copy
- scale
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于数据规模和流行程度的虚拟资产副本处理方法,包括以下步骤:首先根据数据规模大小决定数据副本数量,然后根据加权一致性hash算法映射到对应的机器节点上。按照加权改进一致性hash算法对副本进行分配,数据先被分配到hash之后的虚拟节点,再被物理的存储到虚拟节点对应的物理节点。之后随流行程度的变化以及数据块的大小对数据副本进行相应调整,并根据机器节点的变化,进行进一步调整;本发明将基于数据规模和流行程度的虚拟资产数据副本模型应用到海量虚拟资产信息存储当中,提高了查询效率,同时在一定程度上节省了存储资源。
Description
技术领域
本技术属于网络与信息安全领域,涉及一种基于数据规模和流行程度的数据副本动态处理方法。
背景技术
由于信息技术的飞速发展,数据爆炸已成为当前的一个突出问题,因此,海量数据管理技术也已成为人们的研究热点。
近年来,人们尝试提出了多种方法用于海量数据管理。如,Zaman S等[1]提出了一种副本放置节点选择的分布式算法,并将该问题转化为背包问题,在考虑对副本访问频率的基础上,提出了一种近似算法。该方法以优化用户访问时间为目标,但其有效使用范围却会受到限制。Kumar N等[2]提出了一种基于概率的信任感知型数据副本放置策略,定义了副本代价函数和信任计算指标,据此确定数据副本的放置位置。该方法面向特定网络的特殊情境,不能直接应用于云存储系统。Han Guodong等[3]提出了一种认知型副本放置方法,根据用户需求信息,启发式地完成数据副本的分发和放置,通信时延低,运行开销小。该方法是针对内容分发网络数据传输开销大的问题开展的,却同样难以直接应用于云存储。Sun Dawei等[4]面向提高云系统可用性的需要,通过建立数学模型,描述了系统有效性和副本数量的关系,给出了副本数量计算方法和副本复制算法。然而,该方法主要是从理论角度研究如何实现数据副本在云环境下的均衡布局,却没有给出具体的数据副本放置机制。
[1]Zaman S,Grosu D.A distributed algorithm for the replica placementproblem[J].IEEE Transactions on,2011,22(9):1455-1468.
[2]Kumar N,Kim J.Probabilistic trust aware data replica place-ment strategyfor online video streaming applications delay tolerant networks[J].Mathematical andComputer Modelling,2013,58(1):3-14.
[3]Han Guodong,Zhu Yige,Zhang Fan.A dynamic replica place-mentapproach based on cognition[J].Jisuanji Yingyong yu Ruanjian,2013,30(1):83-87.
[4]Sun Dawei,Chang Guiran,Gao Shang.Modeling a dynamic data replicationstrategy to increase system avail-ability in cloud computing[J].Journal of computerscience and technology,2012,27(2):256-272.
发明内容
针对已有技术缺陷,本发明提出了一种基于数据规模和流行程度的虚拟资产副本处理方法,该方法将数据副本模型应用到虚拟资产海量信息的存储当中,不仅能提高查询效率,同时也能在一定程度上节省存储资源。
本发明的技术方案包括:初始副本的处理和动态副本的处理。
1)、初始副本的处理
初始副本的处理主要针对一个新数据块的副本数量及位置进行初始化,首先根据数据规模的大小决定数据副本数量,然后再根据加权一致性hash算法映射到对应的机器节点上。初始化系统时,机器节点的数目是固定的,所以只考虑数据规模,即与数据规模的方根成正比。初始化之时,本模型中数据最少的副本数量为1,系统中最大副本不超过4。之后按照不同数据规模而进行合理分配。
其中Qi表示数据块i的副本数量
n表示数据块的数量
M1表示第一个数据块的规模,它是所有数据块中规模最小的数据块
Mn表示第n个数据块的规模,它是所有数据块中规模最大的数据块
2)、动态副本的处理
根据对数据关注程度的提升或下降来动态增加或减少副本的数量。通过查询日志或者缓存,可以知道数据的流行情况,即查询频率。大量实验和数据显示,没有特殊情况,历史查询频率低于15%的数据的查询情况会越来越低,查询频率大于75%的数据会越来越流行。所以本模型中,在机器节点数目不变的情况下,每到达一个给定时间段T,对数据副本情况进行调整:减少后20%的副本数目,增加前30%的副本数量,变化的数量还需考虑数据规模的大小。根据数据块的流行程度,这里指的是查询频率。随着对数据块关注程度的提升或下降来动态增加或减少副本的数量:
其中Qi表示数据块i的副本数量
n表示数据块的数量
M1表示第一个数据块的规模,它是所有数据块中规模最小的数据块
Mn表示第n个数据块的规模,它是所有数据块中规模最大的数据块
Vi表示在给定时间段内的访问概率
根据机器节点的变化,对数据副本进行进一步调整。在增加机器节点时,同样需要考虑数据的流行程度,来增加其副本数量。为防止出现副本数量多的数据无限增加的情况,本方法给出了一个时间阀值TL,即使数据很流行,而它在以机器节点增加的时刻为止的时间段TL内增加过副本数量,则不再增加副本数量,转而判断次流行数据。当所有数据块在以机器节点增加时刻之前的时间段TL内都增加过副本时,才选择增加最流行的数据副本数量。为保持新增机器节点的持续可利用性,在机器节点加入时存储的数据量极限不能超过该机器节点存储限制的20%。
而对于减少机器节点的情况,同样要考虑流行程度。对于删除的节点中的数据块,通过它流行程度判断是否需要增加副本,情况与初始副本类似。如果访问概率vi高于70%,则增加一个该数据块的副本,否则保持不变。
本发明开发环境是在Linux操作系统的X86平台,JDK1.7基础上,安装Cassandra 1.0或更高版本的数据库软件为系统提供数据支持,主要采用java语言编写。本发明要求服务器运行于安装有Linux操作系统的X86平台,JDK1.7或以上版本且具有多个机器节点的计算机环境。
本发明将基于数据规模和流行程度的虚拟资产数据副本处理方法应用到海量虚拟资产信息的存储当中,提高了查询效率,并在一定程度上节省了存储资源。
附图说明
图1为整体分布逻辑图
图2为增加机器节点流程图
图3为减少机器节点流程图
图4为实施例初态副本的分配图
图5为实施例动态副本的变化图
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案:
本发明提出一种基于数据规模和流行程度的数据副本动态处理方法,其技术方案包括初始副本的处理和动态副本的处理。具体步骤如下:
1、建立副本初始化模型
设数据D1是所有数据中的最小规模为M1,副本数量Q1为1。数据Dn是所有数据中的最大规模为Mn,副本数量Qn为4。则任意一个规模为Mi的数据模块Di的副本数量Qi为:
对于A、B、C、D、E、F六个数据模块,每个模块对应不同的数据大小,其中A的数据规模最小,F的数据规模最大。该数据模块进行基于加权改进一致性hash划分的副本,如图4右侧所示。图4中,
A最小规模为500M——副本1;
B规模为625M——副本1;
C规模为900M——副本2;
D规模为1225M——副本3;
E规模为1600M——副本4;
F最大规模为2*1024M(2G)——副本4。
2、建立流行动态模型
根据加权改进一致性hash算法,数据先被分配到hash之后的虚拟节点,再被物理存储到虚拟节点对应的物理节点。在创建集群时,只以数据规模大小来决定副本数量,数据块A、B、C、D、E的副本数量为1、1、2、3、4、4。之后随流行程度的变化以及数据块的大小进行相应调整,如图5所示(图5中F增加副本2;F减少副本1),数据块F的查询频率较高,根据其数据规模,使它的副本数量增加2,由4变成6。如果数据块F的查询频率变低,使它的副本数量减少1,由4变成3。
根据机器节点数量的变化,动态增加或减少数据块副本的数量。机器节点数量增加,则将不超过存储要求的流行数据块的副本存到增加的机器中;机器节点数量减少,则增加流行程度大于要求的数据块的副本数量。
与已有技术相比,本专利申请考虑了数据块的规模和流行程度,将此数据副本模型应用到虚拟资产海量信息的存储当中,在大大降低查询时间,提高查询效率的同时,在一定程度上节省了存储资源。
以上是对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。
Claims (2)
1.一种考虑数据规模和流行程度的数据副本动态处理方法,其特征在于,包括以下步骤:
初始副本的处理:初始化系统时,机器节点的数目是固定的,即副本数量与数据规模的方根成正比;
其中Qi表示数据块i的副本数量;
n表示数据块的数量;
M1表示第一个数据块的规模,它是所有数据块中规模最小的数据块;
Mn表示第n个数据块的规模,它是所有数据块中规模最大的数据块;
动态副本的处理:根据数据块的流行程度,这里指的是查询频率,随着对数据块关注程度的提升或下降来动态增加或减少副本的数量;
其中Qi表示数据块i的副本数量;
n表示数据块的数量;
M1表示第一个数据块的规模,它是所有数据块中规模最小的数据块;
Mn表示第n个数据块的规模,它是所有数据块中规模最大的数据块;
Vi表示在给定时间段内的访问概率;
根据机器节点数量的变化,动态地增加或减少数据块副本的数量:如果机器节点数量增加,就将不超过存储要求的流行数据块的副本存到增加的机器中;如果机器节点数量减少,就增加流行程度大于要求的数据块的副本数量。
2.根据权利要求1所述的一种考虑数据规模和流行程度的数据副本动态处理方法,其特征在于,为防止出现副本数量多的数据无限增加的情况,设定一个时间阀值TL,即使数据很流行,而它在以机器节点增加的时刻为止的时间段TL内增加过副本数量,则不再增加副本数量,转而判断次流行数据;当所有数据块在以机器节点增加时刻之前的时间段TL内都增加过副本时,才选择增加最流行的数据副本数量。为保持新增机器节点的持续可利用性,在机器节点加入时存储的数据量极限不能超过该机器节点存储限制的20%;
而对于减少机器节点的情况,如果访问概率vi高于70%,则增加一个该数据块的副本,否则保持不变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510109391.5A CN106033434B (zh) | 2015-03-12 | 2015-03-12 | 基于数据规模和流行程度的虚拟资产数据副本处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510109391.5A CN106033434B (zh) | 2015-03-12 | 2015-03-12 | 基于数据规模和流行程度的虚拟资产数据副本处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106033434A true CN106033434A (zh) | 2016-10-19 |
CN106033434B CN106033434B (zh) | 2019-06-14 |
Family
ID=57150539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510109391.5A Active CN106033434B (zh) | 2015-03-12 | 2015-03-12 | 基于数据规模和流行程度的虚拟资产数据副本处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106033434B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111835742A (zh) * | 2020-07-03 | 2020-10-27 | 南京普建维思信息技术有限公司 | 一种基于分布式副本存储的数据安全管理系统及方法 |
CN117478304A (zh) * | 2023-12-28 | 2024-01-30 | 湖南天河国云科技有限公司 | 区块链管理方法、系统和计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006135903A2 (en) * | 2005-06-13 | 2006-12-21 | Ashar Aziz | Heuristic based capture with replay to virtual machine |
CN103327116A (zh) * | 2013-07-05 | 2013-09-25 | 山东大学 | 一种网络文件的动态副本存储方法 |
CN103997512A (zh) * | 2014-04-14 | 2014-08-20 | 南京邮电大学 | 一种面向云存储系统的数据副本数量确定方法 |
-
2015
- 2015-03-12 CN CN201510109391.5A patent/CN106033434B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006135903A2 (en) * | 2005-06-13 | 2006-12-21 | Ashar Aziz | Heuristic based capture with replay to virtual machine |
CN103327116A (zh) * | 2013-07-05 | 2013-09-25 | 山东大学 | 一种网络文件的动态副本存储方法 |
CN103997512A (zh) * | 2014-04-14 | 2014-08-20 | 南京邮电大学 | 一种面向云存储系统的数据副本数量确定方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111835742A (zh) * | 2020-07-03 | 2020-10-27 | 南京普建维思信息技术有限公司 | 一种基于分布式副本存储的数据安全管理系统及方法 |
CN117478304A (zh) * | 2023-12-28 | 2024-01-30 | 湖南天河国云科技有限公司 | 区块链管理方法、系统和计算机设备 |
CN117478304B (zh) * | 2023-12-28 | 2024-03-01 | 湖南天河国云科技有限公司 | 区块链管理方法、系统和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106033434B (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109039954B (zh) | 多租户容器云平台虚拟计算资源自适应调度方法及系统 | |
CN100476742C (zh) | 基于对象存储设备的负载平衡方法 | |
Fu et al. | Task scheduling of cloud computing based on hybrid particle swarm algorithm and genetic algorithm | |
CN104603762B (zh) | 利用并行文件访问协议的自动校准以及元数据管理支持对文件系统的共享存储的协调访问的方法及系统 | |
WO2019140734A1 (zh) | 基金交易清算方法、装置、设备及计算机可读存储介质 | |
CN111858023A (zh) | 用于具有设置在存储器本地的人工智能逻辑的计算系统的架构增强 | |
CN108416465B (zh) | 一种移动云环境下的工作流优化方法 | |
CN108900626B (zh) | 一种云环境下数据存储方法、装置及系统 | |
CN104065568A (zh) | 一种Web服务器集群的路由方法 | |
CN107450855B (zh) | 一种用于分布式存储的模型可变的数据分布方法及系统 | |
CN111966495B (zh) | 数据处理方法和装置 | |
JP2023510217A (ja) | 異なるコンピューティング・パラダイム内の計算されたコンピュート・グラビティに基づく計算作業負荷の分散 | |
Supreeth et al. | An Efficient Policy‐Based Scheduling and Allocation of Virtual Machines in Cloud Computing Environment | |
CN111737168A (zh) | 一种缓存系统、缓存处理方法、装置、设备及介质 | |
TWI775210B (zh) | 用於卷積運算的資料劃分方法及處理器 | |
CN104158875B (zh) | 一种分摊减轻数据中心服务器任务的方法及系统 | |
CN105589660B (zh) | 一种数据分布方法及装置 | |
Zhang et al. | Enhanced adaptive cloudlet placement approach for mobile application on spark | |
Lorido-Botran et al. | ImpalaE: Towards an optimal policy for efficient resource management at the edge | |
CN109582461B (zh) | 一种针对Linux容器的资源部署方法及系统 | |
CN112805683A (zh) | 使用流借用的流分配 | |
CN106033434A (zh) | 基于数据规模和流行程度的虚拟资产数据副本处理方法 | |
Huang et al. | S-cache: Toward an low latency service caching for edge clouds | |
US11336519B1 (en) | Evaluating placement configurations for distributed resource placement | |
WO2024021470A1 (zh) | 一种跨区域的数据调度方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |