CN102096723A - 基于副本复制算法的数据查询方法 - Google Patents
基于副本复制算法的数据查询方法 Download PDFInfo
- Publication number
- CN102096723A CN102096723A CN 201110086027 CN201110086027A CN102096723A CN 102096723 A CN102096723 A CN 102096723A CN 201110086027 CN201110086027 CN 201110086027 CN 201110086027 A CN201110086027 A CN 201110086027A CN 102096723 A CN102096723 A CN 102096723A
- Authority
- CN
- China
- Prior art keywords
- copy
- popularity
- worth
- file
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于副本复制算法的数据查询方法,该方法综合考虑副本价值和复制代价因素,首先计算出节点上所有文件的流行度,基于流行度确定副本价值,然后计算副本复制的代价;对于每个网络链接,取其流量平均值,采用MMSE方法预测带宽;最后选择带宽最大的链接复制以获取副本,尽可能降低副本复制代价,实现副本复制。本发明提高了平均作业时间,减少了网络带宽资源的消耗,在分布式存储领域具有重要意义。
Description
技术领域
本发明属于分布式数据存储领域,具体地说是一种基于副本复制算法的数据查询方法。
副本复制领域,可将其应用到数据云存储、数据网格存储和分布式数据存储等领域。
背景技术
在分布式数据库系统中,为了获得较高查询速度和系统可靠性,经常需要使用副本复制技术。在副本分布上,源数据一般放在数据采集站点或经常有修改操作的站点上,而副本一般放在经常查询操作的站点上。一般情况下,修改主要集中在源数据上进行,为了保持数据的一致性,多个副本的一致性修改需要通过复制进行。常见的副本复制方式有主文本更新法、移动主文本法、快照方法和对等复制等。而这些复制方法都是将数据主本复制给不同站点的副本,即各个副本的内容都是完全一样的,这种情况存在的原因是过去或现在的某些复制需求以及处理流程比较简单。
传统的复制技术在数据副本间保持单拷贝一致性,Primary Copy、Tokens等算法是其典型代表。这些算法的共同特点是禁止对处于不一致状态的数据副本的访问。由于保持数据副本单拷贝一致性的代价过大,因此这些算法只能在高速、低延迟的局域网环境中使用。
在以P2P、网格、云为代表的网络计算(Internet Computing)环境中,现有的副本复制技术只能对无状态的数据、文件资源等进行复制,而不能对包含软硬件需求、有状态的服务形式进行复制。这种技术是针对数据、文件资源等静态无变化的副本进行复制,无法解决网络计算服务副本复制中的相应问题。
发明内容
为了克服现有算法存在的缺点,使分布式存储的整体性能达到最优, 选择被复制的副本不仅是当前价值最小的, 也应该是在以后的时间内价值最小的,本发明的目的是提供一种基于副本复制算法的数据查询方法。该方法通过基于副本流行度确定副本价值,在此基础上计算副本复制代价,然后使用最小均方误差(minimum mean square error)方法预测未来可用带宽,尽可能降低副本复制的代价,实现副本复制。本发明提高了分布式存储中的文本复制的效率,减少了网络带宽资源的消耗,在分布式存储领域具有重要的意义。
本发明的目的是通过以下技术方案来实现的:
一种基于副本复制算法的数据查询方法,其特征在于该方法综合考虑副本价值和复制代价因素,首先计算出节点上所有文件的流行度,基于流行度确定副本价值,然后计算副本复制的代价;对于每个网络链接,取其流量平均值,采用MMSE方法预测带宽;最后选择带宽最大的链接复制以获取副本;具体步骤如下:
1)基于副本流行度确定副本价值
副本价值用副本流行度表示,副本流行度越大,副本价值越大;副本流行度是指副本在一段时间内总的访问次数,通过统计文件访问记录获得;
(1) 流行度计算方法如下:
(2) 副本价值的计算方法:
进行更新操作,其中
称为衰减函数,x表示上一次访问该副本的时间点与现在时间点之间的绝对值;将时间离散化初始时间点设为0,以后逐渐增加,λ∈(0,1)为衰减参数,通过改变λ的值调整衰减速率;
设为价值变化函数,它反映副本的动态变化性;价值变化函数使原先价值低的副本在经历一段时间后价值有所提高,从而获得更大的被保留的机会, 同时也使那些价值高的副本由于长时间没有被使用而丧失其积累的价值;被保留副本的价值变化情况为:
2)计算复制代价
首先定义副本复制的代价为文件大小和传输带宽的比值;
对于每个网络链接, 测量每个时间间隔D内的总流量,测量N次,分别记为f(1),…,f(N),取平均值f m (1),…f m (n)
(6)
然后预测带宽,设未来 m个时间间隔内的真实网络带宽用F m (n+1)表示,预测值用f m (n+1)表示, f m (n+1) 可由如下公式计算
本发明中,在存储空间不够存储新的副本时,保留流行度大的文件,删除流行度低的文件。副本价值是副本的使用率历史信息和副本动态变化特性的反映;副本价值取决于 副本的稳定性以及最近的使用次数;副本的价值高, 表示该副本的使用率高或者稳定性高; 则保留该副本的概率大,即该副本的使用的寿命长。对于需要存储到本地的文件,选择带宽最大的网络链接以获取文件副本。
本发明通过基于副本流行度确定副本价值,在此基础上计算副本复制代价,然后使用最小均方误差(minimum mean square error)方法预测未来可用带宽,尽可能降低副本复制的代价,实现副本复制。选择被复制的副本不仅是当前价值最小的, 也是在以后的时间内价值最小的,使分布式存储的整体性能达到最优。本发明提高了分布式存储中的文本复制的效率,减少了网络带宽资源的消耗,在分布式存储领域具有重要的意义。
附图说明
图1是本发明实施方式流程图。
具体实施方式
一种本发明所述的基于副本复制算法的数据查询方法,该方法综合考虑副本价值和复制代价因素,首先计算出节点上所有文件的流行度,基于流行度确定副本价值,然后计算副本复制的代价;对于每个网络链接,取其流量平均值,采用MMSE方法预测带宽;最后选择带宽最大的链接复制以获取副本;具体步骤如下:
1、基于副本流行度确定副本价值
副本价值用副本流行度表示,副本流行度越大,副本价值越大。副本流行度是指副本在一段时间内总的访问次数,可以通过统计文件访问记录获得。当存储空间不够存储新的副本时,应该保留流行度较大的文件,删除流行度低的文件。
(3) 流行度计算方法如下:
(1)
为资源在各叶节点处单点流行度的总和,即对应域内流行度矩阵的第列元素之和。
(4) 副本价值的计算方法:
进行更新操作。其中
称为衰减函数,x表示上一次访问该副本的时间点与现在时间点之间的绝对值。将时间离散化初始时间点设为0,以后逐渐增加。λ∈(0,1)为衰减参数,改变λ的值可以调整衰减速率。
设为价值变化函数,它反映副本的动态变化性。价值变化函数使原先价值低的副本在经历一段时间后价值有所提高,从而获得更大的被保留的机会, 同时也使那些价值高的副本由于长时间没有被使用而丧失其积累的价值。被保留副本的价值变化情况可以用
副本价值是副本的使用率历史信息和副本动态变化特性的反映。 副本的稳定性以及最近的使用次数,对副本价值影响很大。副本的价值越高, 表示该副本的使用率越高或者比较稳定。 则保留该副本的概率越大,即使用的寿命越长。
2、计算复制代价
首先定义副本复制的代价为文件大小和传输带宽的比值。在分布式存储领域,对于需要存储到本地的文件,应该尽量使得代价最低。由于文件大小固定,因此应该选择带宽最大的网络链接以获取文件副本。
对于每个网络链接, 测量每个时间间隔D内的总流量。测量N次,分别记为f(1),…,f(N)。为了提高精确度,取平均值f m (1),…f m (n)
(6)
然后采用MMSE (minimum mean square error)方法预测带宽。设未来 m个时间间隔内的真实网络带宽用F m (n+1)表示,预测值用f m (n+1)表示, f m (n+1) 可由如下公式计算
本发明在实施过程中首先基于副本流行度确定副本价值,然后计算副本复制代价,最后根据副本价值和副本复制代价采用MMSE方法预测出带宽。对于一组节点,待复制文件为,则具体步骤如下:
1、根据统计文件访问记录计算节点上所有文件的流行度,并基于流行度计算副本价值。
2、将节点上所有文件按照流行度大小降序排列。
3、逐个删除流行度最低的文件,直至有足够的存储空间容纳待复制的所有文件。
5、当网络预测带宽值大于真实带宽值时,选择可用带宽最大的链接来复制以获取副本。
本发明选择被复制的副本不仅是当前价值最小的, 也是在以后的时间内价值最小的,使分布式存储的整体性能达到最优。本发明提高了分布式存储中的文本复制的效率,减少了网络带宽资源的消耗,在分布式存储领域具有重要的意义。
Claims (4)
1.一种基于副本复制算法的数据查询方法,其特征在于该方法综合考虑副本价值和复制代价因素,首先计算出节点上所有文件的流行度,基于流行度确定副本价值,然后计算副本复制的代价;对于每个网络链接,取其流量平均值,采用MMSE方法预测带宽;最后选择带宽最大的链接复制以获取副本;具体步骤如下:
1)基于副本流行度确定副本价值
副本价值用副本流行度表示,副本流行度越大,副本价值越大;副本流行度是指副本在一段时间内总的访问次数,通过统计文件访问记录获得;
流行度计算方法如下:
副本价值的计算方法:
进行更新操作,其中
称为衰减函数,x表示上一次访问该副本的时间点与现在时间点之间的绝对值;将时间离散化初始时间点设为0,以后逐渐增加,λ∈(0,1)为衰减参数,通过改变λ的值调整衰减速率;
设为价值变化函数,它反映副本的动态变化性;价值变化函数使原先价值低的副本在经历一段时间后价值有所提高,从而获得更大的被保留的机会, 同时也使那些价值高的副本由于长时间没有被使用而丧失其积累的价值;被保留副本的价值变化情况为:
2)计算复制代价
首先定义副本复制的代价为文件大小和传输带宽的比值;
对于每个网络链接, 测量每个时间间隔D内的总流量,测量N次,分别记为f(1),…,f(N),取平均值f m (1),…f m (n)
然后预测带宽,设未来 m个时间间隔内的真实网络带宽用F m (n+1)表示,预测值用f m (n+1)表示, f m (n+1) 可由如下公式计算
2.根据权利要求1所述的基于副本复制算法的数据查询方法,其特征在于:在存储空间不够存储新的副本时,保留流行度大的文件,删除流行度低的文件。
3.根据权利要求1所述的基于副本复制算法的数据查询方法,其特征在于:副本价值是副本的使用率历史信息和副本动态变化特性的反映;副本价值取决于 副本的稳定性以及最近的使用次数;副本的价值高, 表示该副本的使用率高或者稳定性高; 则保留该副本的概率大,即该副本的使用的寿命长。
4.根据权利要求1所述的基于副本复制算法的数据查询方法,其特征在于:对于需要存储到本地的文件,选择带宽最大的网络链接以获取文件副本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110086027 CN102096723A (zh) | 2011-04-07 | 2011-04-07 | 基于副本复制算法的数据查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110086027 CN102096723A (zh) | 2011-04-07 | 2011-04-07 | 基于副本复制算法的数据查询方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102096723A true CN102096723A (zh) | 2011-06-15 |
Family
ID=44129818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110086027 Pending CN102096723A (zh) | 2011-04-07 | 2011-04-07 | 基于副本复制算法的数据查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102096723A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102882943A (zh) * | 2012-09-12 | 2013-01-16 | 北京航空航天大学 | 服务副本读写方法及系统 |
CN103077197A (zh) * | 2012-12-26 | 2013-05-01 | 北京思特奇信息技术股份有限公司 | 一种数据存储方法装置 |
CN103997512A (zh) * | 2014-04-14 | 2014-08-20 | 南京邮电大学 | 一种面向云存储系统的数据副本数量确定方法 |
-
2011
- 2011-04-07 CN CN 201110086027 patent/CN102096723A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102882943A (zh) * | 2012-09-12 | 2013-01-16 | 北京航空航天大学 | 服务副本读写方法及系统 |
CN102882943B (zh) * | 2012-09-12 | 2015-10-21 | 北京航空航天大学 | 服务副本读写方法及系统 |
CN103077197A (zh) * | 2012-12-26 | 2013-05-01 | 北京思特奇信息技术股份有限公司 | 一种数据存储方法装置 |
CN103997512A (zh) * | 2014-04-14 | 2014-08-20 | 南京邮电大学 | 一种面向云存储系统的数据副本数量确定方法 |
CN103997512B (zh) * | 2014-04-14 | 2017-06-30 | 南京邮电大学 | 一种面向云存储系统的数据副本数量确定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | A data dependency based strategy for intermediate data storage in scientific cloud workflow systems | |
US10394611B2 (en) | Scaling computing clusters in a distributed computing system | |
CN102055650B (zh) | 负载均衡方法及系统和管理服务器 | |
US9489233B1 (en) | Parallel modeling and execution framework for distributed computation and file system access | |
US10346431B1 (en) | System and method for automated run-tme scaling of cloud-based data store | |
CN108460121B (zh) | 智慧城市中时空数据小文件合并方法 | |
CN104065568A (zh) | 一种Web服务器集群的路由方法 | |
Sun et al. | RRSD: A file replication method for ensuring data reliability and reducing storage consumption in a dynamic Cloud-P2P environment | |
Li et al. | Scalable replica selection based on node service capability for improving data access performance in edge computing environment | |
US20230229580A1 (en) | Dynamic index management for computing storage resources | |
Fu et al. | Optimized data replication for small files in cloud storage systems | |
Dayyani et al. | A comparative study of replication techniques in grid computing systems | |
Zhang et al. | A modeling reliability analysis technique for cloud storage system | |
CN102096723A (zh) | 基于副本复制算法的数据查询方法 | |
Lee et al. | A big data management system for energy consumption prediction models | |
Myint et al. | Comparative analysis of adaptive file replication algorithms for cloud data storage | |
Zhao et al. | A weight-based dynamic replica replacement strategy in data grids | |
Saenko et al. | Towards resilient and efficient big data storage: evaluating a siem repository based on hdfs | |
Akdogan et al. | Cost-efficient partitioning of spatial data on cloud | |
Hsu et al. | Effective memory reusability based on user distributions in a cloud architecture to support manufacturing ubiquitous computing | |
Rajput et al. | Priority-based replication management for hadoop distributed file system | |
Bai et al. | An efficient skyline query algorithm in the distributed environment | |
Jin et al. | Optimization of task assignment strategy for map-reduce | |
Sharfuddin et al. | Frequent block access pattern-based replication algorithm for improving the performance of cloud storage systems | |
Liu et al. | Study on replica strategy based on access pattern mining in smart city cloud storage system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110615 |