CN106033434B - 基于数据规模和流行程度的虚拟资产数据副本处理方法 - Google Patents

基于数据规模和流行程度的虚拟资产数据副本处理方法 Download PDF

Info

Publication number
CN106033434B
CN106033434B CN201510109391.5A CN201510109391A CN106033434B CN 106033434 B CN106033434 B CN 106033434B CN 201510109391 A CN201510109391 A CN 201510109391A CN 106033434 B CN106033434 B CN 106033434B
Authority
CN
China
Prior art keywords
data
copy
data block
scale
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510109391.5A
Other languages
English (en)
Other versions
CN106033434A (zh
Inventor
邓璐
贾焰
韩伟红
李树栋
李虎
全拥
傅翔
朱伟辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201510109391.5A priority Critical patent/CN106033434B/zh
Publication of CN106033434A publication Critical patent/CN106033434A/zh
Application granted granted Critical
Publication of CN106033434B publication Critical patent/CN106033434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于数据规模和流行程度的虚拟资产数据副本处理方法,包括以下步骤:首先根据数据规模大小决定数据副本数量,然后根据加权一致性hash算法映射到对应的机器节点上。按照加权改进一致性hash算法对副本进行分配,数据先被分配到hash之后的虚拟节点,再被物理的存储到虚拟节点对应的物理节点。之后随流行程度的变化以及数据块的大小对数据副本进行相应调整,并根据机器节点的变化,进行进一步调整;本发明将基于数据规模和流行程度的虚拟资产数据副本模型应用到海量虚拟资产信息存储当中,提高了查询效率,同时在一定程度上节省了存储资源。

Description

基于数据规模和流行程度的虚拟资产数据副本处理方法
技术领域
本技术属于网络与信息安全领域,涉及一种基于数据规模和流行程度的数据副本动态处理方法。
背景技术
由于信息技术的飞速发展,数据爆炸已成为当前的一个突出问题,因此,海量数据管理技术也已成为人们的研究热点。
近年来,人们尝试提出了多种方法用于海量数据管理。如,Zaman S等[1]提出了一种副本放置节点选择的分布式算法,并将该问题转化为背包问题,在考虑对副本访问频率的基础上,提出了一种近似算法。该方法以优化用户访问时间为目标,但其有效使用范围却会受到限制。Kumar N等[2]提出了一种基于概率的信任感知型数据副本放置策略,定义了副本代价函数和信任计算指标,据此确定数据副本的放置位置。该方法面向特定网络的特殊情境,不能直接应用于云存储系统。Han Guodong等[3]提出了一种认知型副本放置方法,根据用户需求信息,启发式地完成数据副本的分发和放置,通信时延低,运行开销小。该方法是针对内容分发网络数据传输开销大的问题开展的,却同样难以直接应用于云存储。SunDawei等[4]面向提高云系统可用性的需要,通过建立数学模型,描述了系统有效性和副本数量的关系,给出了副本数量计算方法和副本复制算法。然而,该方法主要是从理论角度研究如何实现数据副本在云环境下的均衡布局,却没有给出具体的数据副本放置机制。
[1]Zaman S,Grosu D.A distributed algorithm for the replica placementproblem[J].IEEE Transactions on,2011,22(9):1455-1468.
[2]Kumar N,Kim J.Probabilistic trust aware data replica place-mentstrategy for online video streaming applications delay tolerant networks[J].Mathematical and Computer Modelling,2013,58(1):3-14.
[3]Han Guodong,Zhu Yige,Zhang Fan.A dynamic replica place-mentapproach based on cognition[J].Jisuanji Yingyong yu Ruanjian,2013,30(1):83-87.
[4]Sun Dawei,Chang Guiran,Gao Shang.Modeling a dynamic datareplication strategy to increase system avail-ability in cloud computing[J].Journal of computer science and technology,2012,27(2):256-272.
发明内容
针对已有技术缺陷,本发明提出了一种基于数据规模和流行程度的虚拟资产副本处理方法,该方法将数据副本模型应用到虚拟资产海量信息的存储当中,不仅能提高查询效率,同时也能在一定程度上节省存储资源。
本发明的技术方案包括:初始副本的处理和动态副本的处理。
1)、初始副本的处理
初始副本的处理主要针对一个新数据块的副本数量及位置进行初始化,首先根据数据规模的大小决定数据副本数量,然后再根据加权一致性hash算法映射到对应的机器节点上。初始化系统时,机器节点的数目是固定的,所以只考虑数据规模,即与数据规模的方根成正比。初始化之时,本模型中数据最少的副本数量为1,系统中最大副本不超过4。之后按照不同数据规模而进行合理分配。
其中Qi表示数据块i的副本数量
n表示数据块的数量
M1表示第一个数据块的规模,它是所有数据块中规模最小的数据块
Mn表示第n个数据块的规模,它是所有数据块中规模最大的数据块
2)、动态副本的处理
根据对数据关注程度的提升或下降来动态增加或减少副本的数量。通过查询日志或者缓存,可以知道数据的流行情况,即查询频率。大量实验和数据显示,没有特殊情况,历史查询频率低于15%的数据的查询情况会越来越低,查询频率大于75%的数据会越来越流行。所以本模型中,在机器节点数目不变的情况下,每到达一个给定时间段T,对数据副本情况进行调整:减少后20%的副本数目,增加前30%的副本数量,变化的数量还需考虑数据规模的大小。根据数据块的流行程度,这里指的是查询频率。随着对数据块关注程度的提升或下降来动态增加或减少副本的数量:
其中Qi表示数据块i的副本数量
n表示数据块的数量
M1表示第一个数据块的规模,它是所有数据块中规模最小的数据块
Mn表示第n个数据块的规模,它是所有数据块中规模最大的数据块
Vi表示在给定时间段内的访问概率
根据机器节点的变化,对数据副本进行进一步调整。在增加机器节点时,同样需要考虑数据的流行程度,来增加其副本数量。为防止出现副本数量多的数据无限增加的情况,本方法给出了一个时间阀值TL,即使数据很流行,而它在以机器节点增加的时刻为止的时间段TL内增加过副本数量,则不再增加副本数量,转而判断次流行数据。当所有数据块在以机器节点增加时刻之前的时间段TL内都增加过副本时,才选择增加最流行的数据副本数量。为保持新增机器节点的持续可利用性,在机器节点加入时存储的数据量极限不能超过该机器节点存储限制的20%。
而对于减少机器节点的情况,同样要考虑流行程度。对于删除的节点中的数据块,通过它流行程度判断是否需要增加副本,情况与初始副本类似。如果访问概率vi高于70%,则增加一个该数据块的副本,否则保持不变。
本发明开发环境是在Linux操作系统的X86平台,JDK1.7基础上,安装Cassandra1.0或更高版本的数据库软件为系统提供数据支持,主要采用java语言编写。本发明要求服务器运行于安装有Linux操作系统的X86平台,JDK1.7或以上版本且具有多个机器节点的计算机环境。
本发明将基于数据规模和流行程度的虚拟资产数据副本处理方法应用到海量虚拟资产信息的存储当中,提高了查询效率,并在一定程度上节省了存储资源。
附图说明
图1为整体分布逻辑图
图2为增加机器节点流程图
图3为减少机器节点流程图
图4为实施例初态副本的分配图
图5为实施例动态副本的变化图
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案:
本发明提出一种基于数据规模和流行程度的数据副本动态处理方法,其技术方案包括初始副本的处理和动态副本的处理。具体步骤如下:
1、建立副本初始化模型
设数据D1是所有数据中的最小规模为M1,副本数量Q1为1。数据Dn是所有数据中的最大规模为Mn,副本数量Qn为4。则任意一个规模为Mi的数据模块Di的副本数量Qi为:
对于A、B、C、D、E、F六个数据模块,每个模块对应不同的数据大小,其中A的数据规模最小,F的数据规模最大。该数据模块进行基于加权改进一致性hash划分的副本,如图4右侧所示。图4中,
A最小规模为500M——副本1;
B规模为625M——副本1;
C规模为900M——副本2;
D规模为1225M——副本3;
E规模为1600M——副本4;
F最大规模为2*1024M(2G)——副本4。
2、建立流行动态模型
根据加权改进一致性hash算法,数据先被分配到hash之后的虚拟节点,再被物理存储到虚拟节点对应的物理节点。在创建集群时,只以数据规模大小来决定副本数量,数据块A、B、C、D、E的副本数量为1、1、2、3、4、4。之后随流行程度的变化以及数据块的大小进行相应调整,如图5所示(图5中F增加副本2;F减少副本1),数据块F的查询频率较高,根据其数据规模,使它的副本数量增加2,由4变成6。如果数据块F的查询频率变低,使它的副本数量减少1,由4变成3。
根据机器节点数量的变化,动态增加或减少数据块副本的数量。机器节点数量增加,则将不超过存储要求的流行数据块的副本存到增加的机器中;机器节点数量减少,则增加流行程度大于要求的数据块的副本数量。
与已有技术相比,本专利申请考虑了数据块的规模和流行程度,将此数据副本模型应用到虚拟资产海量信息的存储当中,在大大降低查询时间,提高查询效率的同时,在一定程度上节省了存储资源。
以上是对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

Claims (2)

1.一种基于数据规模和流行程度的虚拟资产数据副本处理方法,其特征在于,包括以下步骤:
初始副本的处理:初始化系统时,机器节点的数目是固定的,即数据块的副本数量与数据块的数据规模的方根成正比;所述数据规模指的是数据块的大小;
其中Qi表示数据块i的副本数量;
n表示数据块的数量;
M1表示第一个数据块的规模,它是所有数据块中规模最小的数据块;
Mi表示第i个数据块的规模;
Mn表示第n个数据块的规模,它是所有数据块中规模最大的数据块;
动态副本的处理:根据数据块的查询频率,动态增加或减少副本的数量;
其中vi表示在给定时间段内的查询频率;
根据机器节点数量的变化,动态地增加或减少数据块副本的数量:如果机器节点数量增加,就将不超过存储要求的流行数据块的副本存到增加的机器节点中;如果机器节点数量减少,对于删除的节点中的数据块,增加其中查询频率大于要求频率的数据块的副本数量。
2.根据权利要求1所述的一种基于数据规模和流行程度的虚拟资产数据副本处理方法,其特征在于,为防止出现副本数量多的数据无限增加的情况,设定一个时间阈值TL,如果在以机器节点增加的时刻为止的时间段TL内增加过副本数量,则不再增加副本数量;当所有数据块在以机器节点增加时刻之前的时间段TL内都增加过副本时,才选择增加最流行的数据副本数量;为保持新增机器节点的持续可利用性,在机器节点加入时存储的数据量极限不能超过该机器节点存储限制的20%;
而对于减少机器节点的情况,对于删除的节点中的数据块,如果其查询频率vi高于70%,则增加一个该数据块的副本,否则保持不变。
CN201510109391.5A 2015-03-12 2015-03-12 基于数据规模和流行程度的虚拟资产数据副本处理方法 Active CN106033434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510109391.5A CN106033434B (zh) 2015-03-12 2015-03-12 基于数据规模和流行程度的虚拟资产数据副本处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510109391.5A CN106033434B (zh) 2015-03-12 2015-03-12 基于数据规模和流行程度的虚拟资产数据副本处理方法

Publications (2)

Publication Number Publication Date
CN106033434A CN106033434A (zh) 2016-10-19
CN106033434B true CN106033434B (zh) 2019-06-14

Family

ID=57150539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510109391.5A Active CN106033434B (zh) 2015-03-12 2015-03-12 基于数据规模和流行程度的虚拟资产数据副本处理方法

Country Status (1)

Country Link
CN (1) CN106033434B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111835742B (zh) * 2020-07-03 2022-07-19 南京普建维思信息技术有限公司 一种基于分布式副本存储的数据安全管理系统及方法
CN117478304B (zh) * 2023-12-28 2024-03-01 湖南天河国云科技有限公司 区块链管理方法、系统和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006135903A2 (en) * 2005-06-13 2006-12-21 Ashar Aziz Heuristic based capture with replay to virtual machine
CN103327116A (zh) * 2013-07-05 2013-09-25 山东大学 一种网络文件的动态副本存储方法
CN103997512A (zh) * 2014-04-14 2014-08-20 南京邮电大学 一种面向云存储系统的数据副本数量确定方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006135903A2 (en) * 2005-06-13 2006-12-21 Ashar Aziz Heuristic based capture with replay to virtual machine
CN103327116A (zh) * 2013-07-05 2013-09-25 山东大学 一种网络文件的动态副本存储方法
CN103997512A (zh) * 2014-04-14 2014-08-20 南京邮电大学 一种面向云存储系统的数据副本数量确定方法

Also Published As

Publication number Publication date
CN106033434A (zh) 2016-10-19

Similar Documents

Publication Publication Date Title
US10871960B2 (en) Upgrading a storage controller operating system without rebooting a storage system
WO2018214898A1 (zh) 一种向区块链系统中写入业务数据的方法和装置
CN108196935B (zh) 一种面向云计算的虚拟机节能迁移方法
TWI735545B (zh) 一種模型的訓練方法和裝置
WO2016188099A1 (zh) 基于账户活跃度的系统资源分配方法及装置
WO2019140734A1 (zh) 基金交易清算方法、装置、设备及计算机可读存储介质
CN111858023A (zh) 用于具有设置在存储器本地的人工智能逻辑的计算系统的架构增强
CN104065568A (zh) 一种Web服务器集群的路由方法
US10541936B1 (en) Method and system for distributed analysis
CN106648456A (zh) 基于用户访问量以及预测机制的动态副本文件访问方法
Supreeth et al. An efficient policy-based scheduling and allocation of virtual machines in cloud computing environment
CN106033434B (zh) 基于数据规模和流行程度的虚拟资产数据副本处理方法
WO2020108536A1 (zh) 一种虚拟网络资源分配方法、系统及电子设备
US20170132027A1 (en) Systems and methods for coordinating data caching on virtual storage appliances
US10180801B2 (en) Systems and methods for load balancing backup data
Yoginath et al. Scalable cloning on large-scale gpu platforms with application to time-stepped simulations on grids
Eltarjaman et al. Private retrieval of POI details in top-K queries
Gayathri Green cloud computing
Dong et al. EdgeMove: Pipelining device-edge model training for mobile intelligence
Sharma et al. Federated learning based caching in fog computing for future smart cities
CN109992413A (zh) 一种面向宽度优先搜索算法的加速装置、方法及存储介质
US10067678B1 (en) Probabilistic eviction of partial aggregation results from constrained results storage
Zeng et al. Do more replicas of object data improve the performance of cloud data centers?
Chen et al. A Virtual Machine Migration Strategy Based on the Relevance of Services against Side‐Channel Attacks
CN109656696B (zh) 一种数据api高效调用的处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant