CN102075563B - 一种无结构p2p网络的副本复制方法 - Google Patents

一种无结构p2p网络的副本复制方法 Download PDF

Info

Publication number
CN102075563B
CN102075563B CN 201010598188 CN201010598188A CN102075563B CN 102075563 B CN102075563 B CN 102075563B CN 201010598188 CN201010598188 CN 201010598188 CN 201010598188 A CN201010598188 A CN 201010598188A CN 102075563 B CN102075563 B CN 102075563B
Authority
CN
China
Prior art keywords
node
file
copy
popular
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201010598188
Other languages
English (en)
Other versions
CN102075563A (zh
Inventor
胡瑞敏
朱永琼
杨红云
陈铙
谭小琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN 201010598188 priority Critical patent/CN102075563B/zh
Publication of CN102075563A publication Critical patent/CN102075563A/zh
Application granted granted Critical
Publication of CN102075563B publication Critical patent/CN102075563B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及对等网络P2P技术领域,尤其涉及一种无结构P2P网络的副本复制方法。本发明首先在搜索过程中根据文件的访问频率来确定待复制的流行文件,然后根据查询发起节点访问频率的差异计算出中间转发节点相对查询发起节点的平均代价,在各节点存储空间有限的条件下,将流行文件复制到那些代价最小的节点上。本发明解决了P2P系统中流行文件带来的过大访问消耗问题,降低流行性文件的搜索延迟减少网络开销。

Description

一种无结构P2P网络的副本复制方法
技术领域
本发明涉及对等网络(Peer-to-Peer,P2P)技术领域,尤其涉及一种无结构P2P网络的副本复制方法。
背景技术
P2P技术已经被证实是能够实施大规模分布式应用的一种有效的方式。近十年来,P2P应用已经引起了众多研究团体的兴趣,部署在Internet上的最主要的P2P应用——P2P文件共享系统也已经得到了广泛的应用。在P2P文件共享系统中,为了交换文件信息,节点之间相互合作形成一个分布式系统,用户和系统的交互通过如下方式:用户通过发起查询来定位感兴趣的文件,一旦文件找到了,用户对拥有该文件的节点发起一个下载请求,因此,文件共享应用消耗着大部分的Internet带宽,研究表明在大规模的HTTP流量中超过75%的Internet流量来自于P2P文件共享应用。
在P2P文件共享系统中,搜索效率对系统的性能有着重大的影响,决定着系统的可用性和可扩展性等。研究表明,系统中文件的查询并不是均衡的,符合Zif分布,有的文件被频繁的查询变得流行而有的文件则很少访问,这就容易让网络中的某些节点因为承载了流行文件而变成“热点”,导致网络拥塞,消耗了大量的网络资源,而副本复制是一个有效的方法来分散节点的负载,它能将流行的文件按照一定的复制策略复制到选中的其他节点上,帮助获得高的查询效率,减少响应时间和查询跳数。
近来提出了很多副本复制方法。主要分为三类:服务器端的复制方法、客户端的复制方法和沿路复制方法。服务器端的复制指复制文件靠近文件拥有者。客户端的复制指复制文件靠近文件请求者。沿路复制是指从请求者到文件拥有者沿路进行复制。然而,这三种方法的效率都比较低并带来高的开销。靠近服务拥有者一端来复制文件即服务端的复制能够提高复制命中率和查询效率,然而,它不能显著减少路径长度因为复制是靠近服务拥有者的。另一方面,客户端的复制将显著提高查询效率,但是当节点的兴趣发生变化时不能保证。因此,客户端的复制也不能保证高命中率和复制利用率。沿路复制避免了服务端的和客户端的问题。它提供高命中率并且极大的减少了查询平均长度。然而,它的有效性超过了它复制和维护的高开销,而且,它产生了很多无用的副本。
既然复制更多的副本能够带来更高的查询效率,但也会产生更多的维护开销,所以复制算法的挑战是如何最小化副本并获得高的查询效率,即减少响应时间、减少开销并提高命中率。EAD(an Efficient and Adaptive Decentralized file replication algorithm)算法就是基于这种目标而提出的一种算法,EAD是一个有效的自适应的分散副本复制算法,它根据用户兴趣或文件的流行性、非均匀分布等性质自适应的调整文件的复制,并基于文件查询率动态选择查询流量集中的节点作为复制节点来确保高的复制命中率,但是EAD没有考虑到各流行文件的查询率的不同对搜索延迟的影响,而只有尽快降低搜索频率较高的流行文件的搜索延迟才能使网络整体搜索延迟降低的更快,并且网络中节点的容量是有限的不能无差异的进行分配,只有优化资源配置,根据文件访问频率的差异性将文件复制到那些能够尽快的命中并使系统整体搜索延迟降低更快的节点上才能使系统获得更短的平均搜索路径。
发明内容
针对上述存在的技术问题,本发明的目的是提供一种无结构P2P网络的副本复制方法,首先在搜索过程中根据文件的访问频率来确定待复制的流行文件,然后根据查询发起节点访问频率的差异计算出中间转发节点相对查询发起节点的平均代价,在各节点存储空间有限的条件下,将流行文件复制到那些代价最小的节点上。
为达到上述目的,本发明采用如下的技术方案:
-流行性文件评估步骤,该步骤包括:
①针对每个节点,统计每个节点自己在周期T内发起的查询信息,所述查询信息包含查询目标文件fi和查询次数
Figure BDA00000396439600021
②统计系统在周期T内总共发起的查询次数、各文件的查询率和系统平均查询率;
③在周期T内,引入平滑因子评估文件的流行度;
④根据评估的查询率判断文件是否是待复制的流行文件;
-文件复制步骤,该步骤包括:
假定查询发起源节点为s1,…st,目标节点为t1,…,tk,中间转发节点为n1,…,nl
①获得流行文件对应的查询发起节点对各目标文件的查询频率;
②根据查询发起节点的查询频率计算出周期T内查询发起节点对流行文件的访问频率矩阵;
③根据流行文件在目标节点上的命中记录,从目标节点的路由表中获取各中间转发节点对查询发起节点的距离矩阵;
④根据访问频率矩阵和距离矩阵,计算出中间节点针对目标节点的搜索代价矩阵;
⑤根据代价矩阵获得中间节点在给定搜索频率下相对于目标节点的总搜索代价向量;
⑥根据节点的剩余容量,将目标文件复制到代价最小并有剩余容量的节点上。
流行性文件评估步骤②中,统计各文件的查询次数
Figure BDA00000396439600031
n为网络中节点的数目,则在周期T内节点发起的查询总数
Figure BDA00000396439600032
其中k为系统中不同文件的个数;
系统的平均查询次数
Figure BDA00000396439600033
系统平均查询率为
Figure BDA00000396439600034
文件在周期T内的访问率 v f i ( T ) = N f i N q .
流行性文件评估步骤③中,采用指数平滑的方法,引入平滑指数β(0<β<1),计算出文件fi在周期T的流行度为 P f i ( T ) = β × P f i ( T - 1 ) + ( 1 - β ) v f i ( T ) .
流行性文件评估步骤④中,将文件的流行度
Figure BDA00000396439600037
和vT值进行比较,如果
Figure BDA00000396439600038
则文件fi是流行文件,其中i=1,2,...,k。
文件复制步骤②中,获得查询发起源节点对目标节点的访问频率矩阵:
其中fij(1<i<t,1<j<k)代表节点si对节点tj的访问频率,并且有
Figure BDA000003964396000310
文件复制步骤③中,根据各节点的路由表计算出各中间节点对查询发起节点的最短路径,得到距离矩阵
Figure BDA000003964396000311
其中dij(1<i<l,1<j<t)代表中间节点ni到查询发起节点sj的最短距离。
文件复制步骤④中,将矩阵D和F相乘得到中间节点针对目标节点的搜索代价矩阵其中cij(1<i<l,1<j<k)代表中间节点ni相对于目标节点tj在其给定搜索频率下的搜索代价。
文件复制步骤⑤中,根据代价矩阵C,将每行的内容求和计算出中间节点相对于目标节点的总搜索代价向量,即 n 1 n 2 . . . n l = C 1 C 2 . . . C l , 其中Ci=ci1+ci2+…+cik,节点按代价降序排序。
文件复制步骤⑥中,进一步包括以下步骤:
假定节点ni的剩余容量为ri,流行文件fi的大小为mi,则:
步骤1:从中间节点列表中取出总搜索代价最小并其值大于阈值W的节点ni
步骤2:从流行文件列表中按照流行性降序取出文件fi
步骤3:判断fi是否已经复制,如果已经复制,转步骤4;否则转步骤5;
步骤4:取下一个流行文件fi,转步骤3;
步骤5:判断文件fi的大小是否小于节点ni的剩余容量ri,即mi<ri,如果大于,则转步骤4,否则转步骤6;
步骤6:将文件fi复制到节点ni
步骤7:更新节点ni的剩余负载。
本发明具有以下优点和积极效果:
1)本发明解决了P2P系统中流行文件带来的过大访问消耗问题;
2)本发明降低了流行性文件的搜索延迟减少网络开销。
附图说明
图1是本发明提供的无结构P2P网络的副本复制方法中流行文件评估的流程图。
图2是本发明提供的无结构P2P网络的副本复制方法中副本复制方法的流程图。
具体实施方式
下面以具体实施例结合附图对本发明作进一步说明:
本发明提供的无结构P2P网络的副本复制方法,由流行文件评估和副本复制两部分组成,其中流行文件评估确定哪些文件是待复制的流行文件,副本复制则根据待复制文件的访问频率选择应该复制到哪些节点。
一种无结构P2P网络的副本复制方法,包括:
1、流行性文件评估方法,如图1所示,该方法包括以下步骤:
(1)针对每个节点,统计其在周期T内发起的对各文件的查询及其查询次数;
(2)统计系统在周期T内总共发起的查询次数、各文件的查询率和系统平均查询率;
(3)在周期T内,引入平滑因子评估文件的流行度;
(4)根据评估的查询率判断文件是否是待复制的流行文件。
在上述流行性文件的评估方法(1)中,每个节点都统计自己在周期T内发起的查询信息,包含查询目标文件fi和查询次数
Figure BDA00000396439600051
在上述流行性文件的评估方法(2)中,统计各文件的查询次数
Figure BDA00000396439600052
n为网络中节点的数目,则推导出在周期T内节点发起的查询总数
Figure BDA00000396439600053
其中k为系统中不同文件的个数。由此可以计算出系统的平均查询次数
Figure BDA00000396439600054
系统平均查询率为
Figure BDA00000396439600055
文件在周期T内的访问率
在上述流行性文件的评估方法(3)中,采用指数平滑的方法,引入平滑指数β(0<β<1),计算出文件fi在周期T的流行度为
Figure BDA00000396439600057
在上述流行性文件的评估方法(4)中,将文件的流行度
Figure BDA00000396439600058
和vT值进行比较,如果则文件fi是流行文件。
2、文件复制方法,如图2所示,该方法包括以下步骤:
假定查询发起源节点为s1,…st,目标节点为t1,…,tk,中间转发节点为n1,…,nl
(1)获得流行文件对应的查询发起节点的查询频率。
(2)根据查询发起节点的查询频率计算出周期T内查询发起节点对流行文件的访问频率矩阵;
(3)根据流行文件在目标节点上的命中记录,从目标节点的路由表中获取各中间转发节点对查询发起节点的距离矩阵;
(4)根据访问频率矩阵和距离矩阵,计算出中间节点针对目标节点的搜索代价矩阵;
(5)根据代价矩阵获得中间节点在给定搜索频率下相对于目标节点的总搜索代价向量;
(6)根据节点的剩余容量,将目标文件复制到代价最小并有剩余容量的节点上。
在步骤(1)中,统计得出查询发起节点对各目标文件的查询频率。
在步骤(2)中,根据步骤(1)的结果,获得查询发起源节点对目标节点的访问频率矩阵
Figure BDA000003964396000510
其中fij(1<i<t,1<j<k)代表节点si对节点tj的访问频率,并且有 Σ i = 1 t f ij = f j .
在步骤(3)中,根据各节点的路由表计算出各中间节点对查询发起节点的最短路径,得到距离矩阵
Figure BDA00000396439600062
其中dij(1<i<l,1<j<t)代表中间节点ni到查询发起节点sj的最短距离。
在步骤(4)中,将矩阵D和F相乘得到中间节点针对目标节点的搜索代价矩阵
Figure BDA00000396439600063
其中cij(1<i<l,1<j<k)代表中间节点ni相对于目标节点tj在其给定搜索频率下的搜索代价。
在步骤(5)中,根据代价矩阵C,将每行的内容求和计算出中间节点相对于目标节点的总搜索代价向量,即 n 1 n 2 . . . n l = C 1 C 2 . . . C l , 其中Ci=ci1+ci2+…+cik。节点按代价降序排序。
在步骤(6)中,根据中间节点的剩余容量,将目标文件复制到代价最小并有剩余容量的节点上。假定节点ni的剩余容量为ri,流行文件fi的大小为mi
①从中间节点列表中取出总搜索代价最小并其值大于阈值W的节点ni
②从流行文件列表中按照流行性降序取出文件fi
③判断fi是否已经复制,如果已经复制,转④;否则转⑤;
④取下一个流行文件fi,转③;
⑤判断文件fi的大小是否小于节点ni的剩余容量ri,即mi<ri,如果大于,则转④,否则转下一步;
⑥将文件fi复制到节点ni
⑦更新节点ni的剩余负载。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。

Claims (9)

1.一种无结构P2P网络的副本复制方法,其特征在于,包括以下步骤: 
–流行性文件评估步骤,该步骤包括: 
①针对每个节点,统计每个节点自己在周期T内发起的查询信息,所述查询信息包含查询目标文件fi和查询次数
②统计系统在周期T内总共发起的查询次数、各文件的查询率和系统平均查询率; 
③在周期T内,引入平滑因子评估文件的流行度; 
④根据评估的查询率判断文件是否是待复制的流行文件; 
–文件复制步骤,该步骤包括: 
假定查询发起源节点为s1,…,st,目标节点为t1,…,tk,中间转发节点为n1,…,n  l
①获得流行文件对应的查询发起节点对各目标文件的查询频率; 
②根据查询发起节点的查询频率计算出周期T内查询发起节点对流行文件的访问频率矩阵; 
③根据流行文件在目标节点上的命中记录,从目标节点的路由表中获取各中间转发节点对查询发起节点的距离矩阵; 
④根据访问频率矩阵和距离矩阵,计算出中间节点针对目标节点的搜索代价矩阵; 
⑤根据代价矩阵获得中间节点在给定搜索频率下相对于目标节点的总搜索代价向量; 
⑥根据节点的剩余容量,将目标文件复制到总搜索代价最小并有剩余容量的节点上。 
2.根据权利要求1所述的无结构P2P网络的副本复制方法,其特征在于: 
流行性文件评估步骤②中,统计各文件的查询次数
Figure FDA00002602273900012
n为网络中节点的数目,则在周期T内节点发起的查询总数
Figure FDA00002602273900013
其中k为系统中不同文件的个数; 
系统的平均查询次数
Figure FDA00002602273900014
系统平均查询率为
Figure FDA00002602273900015
文件在周期T内的访问率 
Figure FDA00002602273900016
3.根据权利要求2所述的无结构P2P网络的副本复制方法,其特征在于: 
流行性文件评估步骤③中,采用指数平滑的方法,引入平滑指数β(0<β<1),计算出文件fi在周期T的流行度为
4.根据权利要求3所述的无结构P2P网络的副本复制方法,其特征在于:流行性文件评估步骤④中,将文件的流行度
Figure FDA00002602273900018
和vT值进行比较,如果
Figure FDA00002602273900019
则文 件fi是流行文件,其中i=1,2,…,k。 
5.根据权利要求1所述的无结构P2P网络的副本复制方法,其特征在于: 
文件复制步骤②中,获得查询发起源节点对目标节点的访问频率矩阵: 
Figure FDA00002602273900021
其中fij(1<i<t,1<j<k)代表节点si对节点tj的访问频率,并且有
6.根据权利要求1所述的无结构P2P网络的副本复制方法,其特征在于: 
文件复制步骤③中,根据各节点的路由表计算出各中间节点对查询发起节点的最短路径,得到距离矩阵
Figure FDA00002602273900023
其中dij(1<i<l,1<j<t)代表中间节点ni到查询发起节点sj的最短距离。 
7.根据权利要求6所述的无结构P2P网络的副本复制方法,其特征在于: 
文件复制步骤④中,将矩阵D和F相乘得到中间节点针对目标节点的搜索代价矩阵 
Figure FDA00002602273900024
其中cij(1<i<l,1<j<k)代表中间节点ni相对于目标节点tj在其给定搜索频率下的搜索代价。 
8.根据权利要求7所述的无结构P2P网络的副本复制方法,其特征在于: 
文件复制步骤⑤中,根据代价矩阵C,将每行的内容求和计算出中间节点相对于目标节点的总搜索代价向量,即其中Ci=ci1+ci2+…+cik,节点按代价降序排序。 
9.根据权利要求1-8中任一项所述的无结构P2P网络的副本复制方法,其特征在于: 
文件复制步骤⑥中,进一步包括以下步骤: 
假定节点ni的剩余容量为ri,流行文件fi的大小为mi,则: 
步骤1:从中间节点列表中取出总搜索代价最小并其值大于阈值W的节点ni; 
步骤2:从流行文件列表中按照流行性降序取出文件fi; 
步骤3:判断fi是否已经复制,如果已经复制,转步骤4;否则转步骤5; 
步骤4:取下一个流行文件fi,转步骤3; 
步骤5:判断文件fi的大小是否小于节点ni的剩余容量ri,即mi<ri,如果大于,则转步骤4,否则转步骤6; 
步骤6:将文件fi复制到节点ni; 
步骤7:更新节点ni的剩余负载。 
CN 201010598188 2010-12-21 2010-12-21 一种无结构p2p网络的副本复制方法 Expired - Fee Related CN102075563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010598188 CN102075563B (zh) 2010-12-21 2010-12-21 一种无结构p2p网络的副本复制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010598188 CN102075563B (zh) 2010-12-21 2010-12-21 一种无结构p2p网络的副本复制方法

Publications (2)

Publication Number Publication Date
CN102075563A CN102075563A (zh) 2011-05-25
CN102075563B true CN102075563B (zh) 2013-03-13

Family

ID=44033904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010598188 Expired - Fee Related CN102075563B (zh) 2010-12-21 2010-12-21 一种无结构p2p网络的副本复制方法

Country Status (1)

Country Link
CN (1) CN102075563B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424118B (zh) * 2013-08-23 2017-12-26 深圳市腾讯计算机系统有限公司 热点文件自适应拷贝方法及系统
CN106326224B (zh) * 2015-06-16 2019-12-27 珠海金山办公软件有限公司 一种文件查找方法及装置
CN109815303B (zh) * 2018-12-29 2020-10-13 哈尔滨工业大学(深圳) 一种基于位置的移动数据存储系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1400085B1 (en) * 2001-06-21 2008-09-17 Telefonaktiebolaget LM Ericsson (publ) Method for secure file transfer to multiple destinations with integrity check
CN101645919A (zh) * 2009-04-01 2010-02-10 中国科学院声学研究所 一种基于流行度的副本等级计算方法及其副本放置方法
CN101753625A (zh) * 2009-12-28 2010-06-23 北京理工大学 对等网络环境下副本服务的部署及副本创建方法
EP2122966B1 (en) * 2007-02-22 2010-10-20 Telefonaktiebolaget LM Ericsson (publ) Consistent and fault tolerant distributed hash table (dht) overlay network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1400085B1 (en) * 2001-06-21 2008-09-17 Telefonaktiebolaget LM Ericsson (publ) Method for secure file transfer to multiple destinations with integrity check
EP2122966B1 (en) * 2007-02-22 2010-10-20 Telefonaktiebolaget LM Ericsson (publ) Consistent and fault tolerant distributed hash table (dht) overlay network
CN101645919A (zh) * 2009-04-01 2010-02-10 中国科学院声学研究所 一种基于流行度的副本等级计算方法及其副本放置方法
CN101753625A (zh) * 2009-12-28 2010-06-23 北京理工大学 对等网络环境下副本服务的部署及副本创建方法

Also Published As

Publication number Publication date
CN102075563A (zh) 2011-05-25

Similar Documents

Publication Publication Date Title
Kalogeraki et al. A local search mechanism for peer-to-peer networks
Doulkeridis et al. Peer-to-peer similarity search in metric spaces
Guan et al. Push or pull? toward optimal content delivery using cloud storage
CN101645919B (zh) 一种基于流行度的副本等级计算方法及其副本放置方法
CN101232415A (zh) 对等网络节点访问装置、方法和系统
CN102045392A (zh) 一种无结构p2p网络的基于兴趣的自适应拓扑优化方法
CN101272399A (zh) 一种基于p2p网络实现全文检索系统的方法
Xu et al. A path-traceable query routing mechanism for search in unstructured peer-to-peer networks
CN102075563B (zh) 一种无结构p2p网络的副本复制方法
CN102377826B (zh) 一种对等网络中冷门资源索引的优化放置方法
Liu et al. Keyword fusion to support efficient keyword-based search in peer-to-peer file sharing
Gao et al. Distributed caching in unstructured peer-to-peer file sharing networks
CN105447188B (zh) 一种基于知识学习对等社交网络文档检索方法
Fraigniaud et al. Combining the use of clustering and scale-free nature of user exchanges into a simple and efficient p2p system
Liu et al. Supporting efficient keyword-based file search in peer-to-peer file sharing systems
Joung et al. Cooperating with free riders in unstructured P2P networks
Bhakuni et al. Free-rider detection and punishment in BitTorrent based P2P networks
Eftychiou et al. A dynamically semantic platform for efficient information retrieval in P2P networks
Westphal On maximizing the lifetime of distributed information in ad-hoc networks with individual constraints
Renda et al. The robustness of content-based search in hierarchical peer to peer networks
Sen A secure and efficient searching scheme for trusted nodes in a peer-to-peer network
Meng et al. Research on the search scheme for rare items in unstructured p2p networks
Matsunam et al. A query processing mechanism for top-k query in P2P networks
Zhou et al. Adaptive indexing for content-based search in P2P systems
Biao et al. Notice of Retraction: Zipf's Trust Discovery in Structured P2P Network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130313

Termination date: 20141221

EXPY Termination of patent right or utility model