CN102096723A - 基于副本复制算法的数据查询方法 - Google Patents

基于副本复制算法的数据查询方法 Download PDF

Info

Publication number
CN102096723A
CN102096723A CN 201110086027 CN201110086027A CN102096723A CN 102096723 A CN102096723 A CN 102096723A CN 201110086027 CN201110086027 CN 201110086027 CN 201110086027 A CN201110086027 A CN 201110086027A CN 102096723 A CN102096723 A CN 102096723A
Authority
CN
China
Prior art keywords
copy
popularity
worth
file
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110086027
Other languages
English (en)
Inventor
许海清
滕爱国
陈咏秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN 201110086027 priority Critical patent/CN102096723A/zh
Publication of CN102096723A publication Critical patent/CN102096723A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于副本复制算法的数据查询方法,该方法综合考虑副本价值和复制代价因素,首先计算出节点上所有文件的流行度,基于流行度确定副本价值,然后计算副本复制的代价;对于每个网络链接,取其流量平均值,采用MMSE方法预测带宽;最后选择带宽最大的链接复制以获取副本,尽可能降低副本复制代价,实现副本复制。本发明提高了平均作业时间,减少了网络带宽资源的消耗,在分布式存储领域具有重要意义。

Description

基于副本复制算法的数据查询方法
技术领域
本发明属于分布式数据存储领域,具体地说是一种基于副本复制算法的数据查询方法。
副本复制领域,可将其应用到数据云存储、数据网格存储和分布式数据存储等领域。
背景技术
在分布式数据库系统中,为了获得较高查询速度和系统可靠性,经常需要使用副本复制技术。在副本分布上,源数据一般放在数据采集站点或经常有修改操作的站点上,而副本一般放在经常查询操作的站点上。一般情况下,修改主要集中在源数据上进行,为了保持数据的一致性,多个副本的一致性修改需要通过复制进行。常见的副本复制方式有主文本更新法、移动主文本法、快照方法和对等复制等。而这些复制方法都是将数据主本复制给不同站点的副本,即各个副本的内容都是完全一样的,这种情况存在的原因是过去或现在的某些复制需求以及处理流程比较简单。
传统的复制技术在数据副本间保持单拷贝一致性,Primary Copy、Tokens等算法是其典型代表。这些算法的共同特点是禁止对处于不一致状态的数据副本的访问。由于保持数据副本单拷贝一致性的代价过大,因此这些算法只能在高速、低延迟的局域网环境中使用。
在以P2P、网格、云为代表的网络计算(Internet Computing)环境中,现有的副本复制技术只能对无状态的数据、文件资源等进行复制,而不能对包含软硬件需求、有状态的服务形式进行复制。这种技术是针对数据、文件资源等静态无变化的副本进行复制,无法解决网络计算服务副本复制中的相应问题。
发明内容
为了克服现有算法存在的缺点,使分布式存储的整体性能达到最优, 选择被复制的副本不仅是当前价值最小的, 也应该是在以后的时间内价值最小的,本发明的目的是提供一种基于副本复制算法的数据查询方法。该方法通过基于副本流行度确定副本价值,在此基础上计算副本复制代价,然后使用最小均方误差(minimum mean square error)方法预测未来可用带宽,尽可能降低副本复制的代价,实现副本复制。本发明提高了分布式存储中的文本复制的效率,减少了网络带宽资源的消耗,在分布式存储领域具有重要的意义。
本发明的目的是通过以下技术方案来实现的:
一种基于副本复制算法的数据查询方法,其特征在于该方法综合考虑副本价值和复制代价因素,首先计算出节点上所有文件的流行度,基于流行度确定副本价值,然后计算副本复制的代价;对于每个网络链接,取其流量平均值,采用MMSE方法预测带宽;最后选择带宽最大的链接复制以获取副本;具体步骤如下:
1)基于副本流行度确定副本价值
副本价值用副本流行度表示,副本流行度越大,副本价值越大;副本流行度是指副本在一段时间内总的访问次数,通过统计文件访问记录获得;
(1)              流行度计算方法如下:
设每个文件初始流行度为0,该文件每被访问一次,则流行度加1;文件资源                                                
Figure 709134DEST_PATH_IMAGE001
在节点
Figure 352605DEST_PATH_IMAGE002
上的被访问次数为
Figure 625455DEST_PATH_IMAGE003
,称为文件资源
Figure 370874DEST_PATH_IMAGE001
在节点
Figure 868851DEST_PATH_IMAGE002
上的单点流行度;若节点上无资源
Figure 525890DEST_PATH_IMAGE001
,则= 0;初始流行度为0;
Figure 698562DEST_PATH_IMAGE004
为超节点所辖域内文件资源
Figure 16728DEST_PATH_IMAGE001
的总被访问频数,称
Figure 847598DEST_PATH_IMAGE001
域内的域内流行度;
Figure 558382DEST_PATH_IMAGE005
                            (1)
为资源
Figure 47449DEST_PATH_IMAGE002
各叶节点处单点流行度的总和,即对应域内流行度矩阵的第
Figure 331800DEST_PATH_IMAGE007
列元素之和;
(2)              副本价值的计算方法:
流行度定期执行衰减过程,设
Figure 444430DEST_PATH_IMAGE009
分别表示衰减前后的文件流行度,则文件流行度利用公式
Figure 563695DEST_PATH_IMAGE010
                           (2)
进行更新操作,其中
Figure 18947DEST_PATH_IMAGE011
                             (3)
称为衰减函数,x表示上一次访问该副本的时间点与现在时间点之间的绝对值;将时间离散化初始时间点设为0,以后逐渐增加,λ∈(0,1)为衰减参数,通过改变λ的值调整衰减速率;
Figure 853524DEST_PATH_IMAGE012
为价值变化函数,它反映副本的动态变化性;价值变化函数
Figure 419634DEST_PATH_IMAGE012
使原先价值低的副本在经历一段时间后价值有所提高,从而获得更大的被保留的机会, 同时也使那些价值高的副本由于长时间没有被使用而丧失其积累的价值;被保留副本的价值变化情况为:
Figure 393407DEST_PATH_IMAGE013
                              (4)
设副本价值为
Figure 19560DEST_PATH_IMAGE014
,则
Figure 344362DEST_PATH_IMAGE015
                        (5)
其中
Figure 448584DEST_PATH_IMAGE016
为m 个数据副本的集合,
Figure 542442DEST_PATH_IMAGE017
为上述数据副本的价值集合,
Figure 339497DEST_PATH_IMAGE018
为价值收入函数,文件被引用则
Figure 886016DEST_PATH_IMAGE019
值增加,为价值支出函数,文件未被引用则
Figure 7873DEST_PATH_IMAGE019
值减小;
2)计算复制代价
首先定义副本复制的代价为文件大小和传输带宽的比值;
对于每个网络链接, 测量每个时间间隔D内的总流量,测量N次,分别记为f(1),…,f(N),取平均值f m (1),…f m (n
                               (6)
然后预测带宽,设未来 m个时间间隔内的真实网络带宽用F m (n+1)表示,预测值用f m (n+1)表示,  f m (n+1) 可由如下公式计算
Figure 9644DEST_PATH_IMAGE022
          (7)
其中
Figure 455669DEST_PATH_IMAGE023
Figure 524119DEST_PATH_IMAGE024
是参数,且使得计算出的真实网络带宽与预测网络带宽的误差均方和
Figure 662976DEST_PATH_IMAGE025
最小,在网络带宽预测值f m (n+1)大于真实值F m (n+1)时,该链接将被复制获取副本,完成数据查询。
本发明中,在存储空间不够存储新的副本时,保留流行度大的文件,删除流行度低的文件。副本价值是副本的使用率历史信息和副本动态变化特性的反映;副本价值取决于 副本的稳定性以及最近的使用次数;副本的价值高, 表示该副本的使用率高或者稳定性高; 则保留该副本的概率大,即该副本的使用的寿命长。对于需要存储到本地的文件,选择带宽最大的网络链接以获取文件副本。
 
本发明通过基于副本流行度确定副本价值,在此基础上计算副本复制代价,然后使用最小均方误差(minimum mean square error)方法预测未来可用带宽,尽可能降低副本复制的代价,实现副本复制。选择被复制的副本不仅是当前价值最小的, 也是在以后的时间内价值最小的,使分布式存储的整体性能达到最优。本发明提高了分布式存储中的文本复制的效率,减少了网络带宽资源的消耗,在分布式存储领域具有重要的意义。
附图说明
图1是本发明实施方式流程图。
具体实施方式
一种本发明所述的基于副本复制算法的数据查询方法,该方法综合考虑副本价值和复制代价因素,首先计算出节点上所有文件的流行度,基于流行度确定副本价值,然后计算副本复制的代价;对于每个网络链接,取其流量平均值,采用MMSE方法预测带宽;最后选择带宽最大的链接复制以获取副本;具体步骤如下:
1、基于副本流行度确定副本价值
副本价值用副本流行度表示,副本流行度越大,副本价值越大。副本流行度是指副本在一段时间内总的访问次数,可以通过统计文件访问记录获得。当存储空间不够存储新的副本时,应该保留流行度较大的文件,删除流行度低的文件。
(3)              流行度计算方法如下:
设每个文件初始流行度为0,该文件每被访问一次,则流行度加1。文件资源
Figure 181158DEST_PATH_IMAGE001
在节点
Figure 430873DEST_PATH_IMAGE002
上的被访问次数为
Figure 353830DEST_PATH_IMAGE003
,称
Figure 663589DEST_PATH_IMAGE003
为文件资源
Figure 671996DEST_PATH_IMAGE001
在节点
Figure 725403DEST_PATH_IMAGE002
上的单点流行度。若节点
Figure 502866DEST_PATH_IMAGE002
上无资源,则= 0。(初始流行度为0)
Figure 8430DEST_PATH_IMAGE004
为超节点
Figure 702717DEST_PATH_IMAGE002
所辖域内文件资源
Figure 291961DEST_PATH_IMAGE001
的总被访问频数,称
Figure 337278DEST_PATH_IMAGE004
Figure 670170DEST_PATH_IMAGE001
Figure 218963DEST_PATH_IMAGE002
域内的域内流行度。
                            (1)
为资源各叶节点处单点流行度的总和,即对应域内流行度矩阵的第列元素之和。
(4)              副本价值的计算方法:
流行度需要定期执行衰减过程,这是因为过去较为流行的文件不应该作为副本创建对象,副本创建对象应该是未来较为流行的文件。设
Figure 268738DEST_PATH_IMAGE008
Figure 757488DEST_PATH_IMAGE026
分别表示衰减前后的文件流行度,则文件流行度可以利用公式
Figure 697762DEST_PATH_IMAGE027
                           (2)
进行更新操作。其中
Figure 221147DEST_PATH_IMAGE011
                             (3)
称为衰减函数,x表示上一次访问该副本的时间点与现在时间点之间的绝对值。将时间离散化初始时间点设为0,以后逐渐增加。λ∈(0,1)为衰减参数,改变λ的值可以调整衰减速率。
Figure 323096DEST_PATH_IMAGE012
为价值变化函数,它反映副本的动态变化性。价值变化函数
Figure 564721DEST_PATH_IMAGE012
使原先价值低的副本在经历一段时间后价值有所提高,从而获得更大的被保留的机会, 同时也使那些价值高的副本由于长时间没有被使用而丧失其积累的价值。被保留副本的价值变化情况可以用
Figure 43107DEST_PATH_IMAGE013
                              (4)
设副本价值为
Figure 358682DEST_PATH_IMAGE014
,则
Figure 897111DEST_PATH_IMAGE015
                        (5)
其中
Figure 360453DEST_PATH_IMAGE016
为m 个数据副本的集合,为上述数据副本的价值集合,为价值收入函数,文件被引用则
Figure 581328DEST_PATH_IMAGE019
值增加,
Figure 797546DEST_PATH_IMAGE020
为价值支出函数,文件未被引用则
Figure 617734DEST_PATH_IMAGE019
值减小。
副本价值是副本的使用率历史信息和副本动态变化特性的反映。 副本的稳定性以及最近的使用次数,对副本价值影响很大。副本的价值越高, 表示该副本的使用率越高或者比较稳定。 则保留该副本的概率越大,即使用的寿命越长。
2、计算复制代价
首先定义副本复制的代价为文件大小和传输带宽的比值。在分布式存储领域,对于需要存储到本地的文件,应该尽量使得代价最低。由于文件大小固定,因此应该选择带宽最大的网络链接以获取文件副本。
对于每个网络链接, 测量每个时间间隔D内的总流量。测量N次,分别记为f(1),…,f(N)。为了提高精确度,取平均值f m (1),…f m (n
                               (6)
然后采用MMSE (minimum mean square error)方法预测带宽。设未来 m个时间间隔内的真实网络带宽用F m (n+1)表示,预测值用f m (n+1)表示,  f m (n+1) 可由如下公式计算
Figure 584870DEST_PATH_IMAGE028
          (7)
其中
Figure 22805DEST_PATH_IMAGE023
是参数,且使得计算出的真实网络带宽与预测网络带宽的误差均方和
Figure 853675DEST_PATH_IMAGE025
最小。当网络带宽预测值f m (n+1)大于真实值F m (n+1)时,这个链接将被复制以获取副本。
本发明在实施过程中首先基于副本流行度确定副本价值,然后计算副本复制代价,最后根据副本价值和副本复制代价采用MMSE方法预测出带宽。对于一组节点,待复制文件为,则具体步骤如下:
1、根据统计文件访问记录计算节点上所有文件的流行度,并基于流行度计算副本价值。
2、将节点上所有文件按照流行度大小降序排列。
3、逐个删除流行度最低的文件,直至有足够的存储空间容纳待复制的所有文件。
4、对于每个待复制文件
Figure 830038DEST_PATH_IMAGE030
,若有n(n≥1)个节点拥有该文件的副本,即存在节点到远程节点的n个网络链接,则利用MMSE方法预测每个链接的未来可用带宽。
5、当网络预测带宽值大于真实带宽值时,选择可用带宽最大的链接来复制以获取副本。
本发明选择被复制的副本不仅是当前价值最小的, 也是在以后的时间内价值最小的,使分布式存储的整体性能达到最优。本发明提高了分布式存储中的文本复制的效率,减少了网络带宽资源的消耗,在分布式存储领域具有重要的意义。

Claims (4)

1.一种基于副本复制算法的数据查询方法,其特征在于该方法综合考虑副本价值和复制代价因素,首先计算出节点上所有文件的流行度,基于流行度确定副本价值,然后计算副本复制的代价;对于每个网络链接,取其流量平均值,采用MMSE方法预测带宽;最后选择带宽最大的链接复制以获取副本;具体步骤如下:
1)基于副本流行度确定副本价值
副本价值用副本流行度表示,副本流行度越大,副本价值越大;副本流行度是指副本在一段时间内总的访问次数,通过统计文件访问记录获得;
流行度计算方法如下:
设每个文件初始流行度为0,该文件每被访问一次,则流行度加1;文件资源                                               
Figure 2011100860273100001DEST_PATH_IMAGE002
在节点
Figure 2011100860273100001DEST_PATH_IMAGE004
上的被访问次数为
Figure 2011100860273100001DEST_PATH_IMAGE006
,称
Figure 750454DEST_PATH_IMAGE006
为文件资源在节点
Figure 509649DEST_PATH_IMAGE004
上的单点流行度;若节点
Figure 465710DEST_PATH_IMAGE004
上无资源
Figure 280082DEST_PATH_IMAGE002
,则
Figure 164862DEST_PATH_IMAGE006
= 0;初始流行度为0;
Figure 2011100860273100001DEST_PATH_IMAGE008
为超节点所辖域内文件资源
Figure 693112DEST_PATH_IMAGE002
的总被访问频数,称
Figure 424308DEST_PATH_IMAGE008
Figure 417671DEST_PATH_IMAGE002
域内的域内流行度;
Figure 2011100860273100001DEST_PATH_IMAGE010
                            (1)
为资源
Figure 2011100860273100001DEST_PATH_IMAGE012
Figure 535111DEST_PATH_IMAGE004
各叶节点处单点流行度的总和,即对应域内流行度矩阵的第列元素之和;
副本价值的计算方法:
流行度定期执行衰减过程,设
Figure 2011100860273100001DEST_PATH_IMAGE016
Figure 2011100860273100001DEST_PATH_IMAGE018
分别表示衰减前后的文件流行度,则文件流行度利用公式
Figure 2011100860273100001DEST_PATH_IMAGE020
                           (2)
进行更新操作,其中
Figure 2011100860273100001DEST_PATH_IMAGE022
                             (3)
称为衰减函数,x表示上一次访问该副本的时间点与现在时间点之间的绝对值;将时间离散化初始时间点设为0,以后逐渐增加,λ∈(0,1)为衰减参数,通过改变λ的值调整衰减速率;
为价值变化函数,它反映副本的动态变化性;价值变化函数
Figure 743982DEST_PATH_IMAGE024
使原先价值低的副本在经历一段时间后价值有所提高,从而获得更大的被保留的机会, 同时也使那些价值高的副本由于长时间没有被使用而丧失其积累的价值;被保留副本的价值变化情况为:
Figure 2011100860273100001DEST_PATH_IMAGE026
                              (4)
设副本价值为
Figure 2011100860273100001DEST_PATH_IMAGE028
,则
Figure 2011100860273100001DEST_PATH_IMAGE030
                        (5)
其中
Figure 2011100860273100001DEST_PATH_IMAGE032
为m 个数据副本的集合,
Figure 2011100860273100001DEST_PATH_IMAGE034
为上述数据副本的价值集合,
Figure 2011100860273100001DEST_PATH_IMAGE036
为价值收入函数,文件被引用则
Figure 2011100860273100001DEST_PATH_IMAGE038
值增加,为价值支出函数,文件未被引用则
Figure 986876DEST_PATH_IMAGE038
值减小;
2)计算复制代价
首先定义副本复制的代价为文件大小和传输带宽的比值;
对于每个网络链接, 测量每个时间间隔D内的总流量,测量N次,分别记为f(1),…,f(N),取平均值f m (1),…f m (n
Figure 2011100860273100001DEST_PATH_IMAGE042
                               (6)
然后预测带宽,设未来 m个时间间隔内的真实网络带宽用F m (n+1)表示,预测值用f m (n+1)表示,  f m (n+1) 可由如下公式计算
Figure 2011100860273100001DEST_PATH_IMAGE044
          (7)
其中
Figure 2011100860273100001DEST_PATH_IMAGE046
Figure 2011100860273100001DEST_PATH_IMAGE048
是参数,且使得计算出的真实网络带宽与预测网络带宽的误差均方和
Figure 2011100860273100001DEST_PATH_IMAGE050
最小,在网络带宽预测值f m (n+1)大于真实值F m (n+1)时,该链接将被复制获取副本,完成数据查询。
2.根据权利要求1所述的基于副本复制算法的数据查询方法,其特征在于:在存储空间不够存储新的副本时,保留流行度大的文件,删除流行度低的文件。
3.根据权利要求1所述的基于副本复制算法的数据查询方法,其特征在于:副本价值是副本的使用率历史信息和副本动态变化特性的反映;副本价值取决于 副本的稳定性以及最近的使用次数;副本的价值高, 表示该副本的使用率高或者稳定性高; 则保留该副本的概率大,即该副本的使用的寿命长。
4.根据权利要求1所述的基于副本复制算法的数据查询方法,其特征在于:对于需要存储到本地的文件,选择带宽最大的网络链接以获取文件副本。
CN 201110086027 2011-04-07 2011-04-07 基于副本复制算法的数据查询方法 Pending CN102096723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110086027 CN102096723A (zh) 2011-04-07 2011-04-07 基于副本复制算法的数据查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110086027 CN102096723A (zh) 2011-04-07 2011-04-07 基于副本复制算法的数据查询方法

Publications (1)

Publication Number Publication Date
CN102096723A true CN102096723A (zh) 2011-06-15

Family

ID=44129818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110086027 Pending CN102096723A (zh) 2011-04-07 2011-04-07 基于副本复制算法的数据查询方法

Country Status (1)

Country Link
CN (1) CN102096723A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882943A (zh) * 2012-09-12 2013-01-16 北京航空航天大学 服务副本读写方法及系统
CN103077197A (zh) * 2012-12-26 2013-05-01 北京思特奇信息技术股份有限公司 一种数据存储方法装置
CN103997512A (zh) * 2014-04-14 2014-08-20 南京邮电大学 一种面向云存储系统的数据副本数量确定方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882943A (zh) * 2012-09-12 2013-01-16 北京航空航天大学 服务副本读写方法及系统
CN102882943B (zh) * 2012-09-12 2015-10-21 北京航空航天大学 服务副本读写方法及系统
CN103077197A (zh) * 2012-12-26 2013-05-01 北京思特奇信息技术股份有限公司 一种数据存储方法装置
CN103997512A (zh) * 2014-04-14 2014-08-20 南京邮电大学 一种面向云存储系统的数据副本数量确定方法
CN103997512B (zh) * 2014-04-14 2017-06-30 南京邮电大学 一种面向云存储系统的数据副本数量确定方法

Similar Documents

Publication Publication Date Title
Yuan et al. A data dependency based strategy for intermediate data storage in scientific cloud workflow systems
US10394611B2 (en) Scaling computing clusters in a distributed computing system
CN102055650B (zh) 负载均衡方法及系统和管理服务器
US9489233B1 (en) Parallel modeling and execution framework for distributed computation and file system access
US10346431B1 (en) System and method for automated run-tme scaling of cloud-based data store
CN108460121B (zh) 智慧城市中时空数据小文件合并方法
CN104065568A (zh) 一种Web服务器集群的路由方法
Sun et al. RRSD: A file replication method for ensuring data reliability and reducing storage consumption in a dynamic Cloud-P2P environment
Li et al. Scalable replica selection based on node service capability for improving data access performance in edge computing environment
US20230229580A1 (en) Dynamic index management for computing storage resources
Fu et al. Optimized data replication for small files in cloud storage systems
Dayyani et al. A comparative study of replication techniques in grid computing systems
Zhang et al. A modeling reliability analysis technique for cloud storage system
CN102096723A (zh) 基于副本复制算法的数据查询方法
Lee et al. A big data management system for energy consumption prediction models
Myint et al. Comparative analysis of adaptive file replication algorithms for cloud data storage
Zhao et al. A weight-based dynamic replica replacement strategy in data grids
Saenko et al. Towards resilient and efficient big data storage: evaluating a siem repository based on hdfs
Akdogan et al. Cost-efficient partitioning of spatial data on cloud
Hsu et al. Effective memory reusability based on user distributions in a cloud architecture to support manufacturing ubiquitous computing
Rajput et al. Priority-based replication management for hadoop distributed file system
Bai et al. An efficient skyline query algorithm in the distributed environment
Jin et al. Optimization of task assignment strategy for map-reduce
Sharfuddin et al. Frequent block access pattern-based replication algorithm for improving the performance of cloud storage systems
Liu et al. Study on replica strategy based on access pattern mining in smart city cloud storage system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110615