CN101645921A - 一种片段流行度的更新方法 - Google Patents

一种片段流行度的更新方法 Download PDF

Info

Publication number
CN101645921A
CN101645921A CN200910082189A CN200910082189A CN101645921A CN 101645921 A CN101645921 A CN 101645921A CN 200910082189 A CN200910082189 A CN 200910082189A CN 200910082189 A CN200910082189 A CN 200910082189A CN 101645921 A CN101645921 A CN 101645921A
Authority
CN
China
Prior art keywords
popularity
data
fragment
file
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910082189A
Other languages
English (en)
Other versions
CN101645921B (zh
Inventor
尤佳莉
王劲林
王玲芳
邓浩江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN2009100821892A priority Critical patent/CN101645921B/zh
Publication of CN101645921A publication Critical patent/CN101645921A/zh
Application granted granted Critical
Publication of CN101645921B publication Critical patent/CN101645921B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种片段流行度更新方法,包括:将文件切分为n个数据片段,计算出每个数据片段的流行度;为所有文件的每个block计算生存期;基于片段的流行度计算每个片段的副本放置等级,并对其进行分发;以时间T为周期记录对所有文件的访问行为,包括访问位置、对应片段、访问时间以及访问次数;从文件加入分发网络开始,每到达k×T时间,则重新计算block_i的流行度;根据计算得到的新的流行度值,重新计算数据块的副本放置等级,并根据新的等级调整已有数据的副本数目。该方法定期收集用户访问信息并在尽量少的重新切片和分发的前提下对数据片段block的流行度进行更新,使其更加接近用户的真实访问规律,并依据新的流行度计算副本放置方法,调整副本数目。

Description

一种片段流行度的更新方法
技术领域
本发明涉及信息网络技术领域,特别涉及到一种内容分发网络技术领域中的片段流行度的更新方法。
背景技术
CDN的全称是Content Distribution/Delivery Network,即内容分发网络。其目的是通过在现有的Internet中增加一层新的网络架构,将网站的内容发布到最接近用户的网络边缘。因此,合理利用缓存(Cache)和副本管理将数据分散在网络中,能够使用户能以最快的速度,从最接近用户的地方获得所需的信息,不仅可以解决网络拥塞问题,同时提高响应速度和服务质量,特别是在流媒体和传输方面有着其它技术无可比拟的优势。
随着CDN技术的发展,各种相关技术应运而生,无论是传统的集中式缓存管理还是当前业界关注的基于P2P的CDN系统,都得到了飞速发展,而如何在一个有限的存储空间中放置更多的内容,同时更好地满足用户服务需求,则是一个关键问题。流媒体文件的传输是CDN系统的重要关注问题,比如电影,各种视频等。不同地方对媒体内容的需求可能有所侧重,而用户对内容的喜好也随时间变化。为了使用户得到更好的服务,在对文件进行分发时,要充分考虑文件在当前地区是否流行,文件长短对用户点播行为的影响等信息,使流行的文件更易于被用户获取到,提升用户体验。
在传统的获取文件流行度的方法中,主要是通过记录大量用户长时间的历史访问信息,从而统计得到各个文件的被访问频率。由于在内容分发网络中,以媒体文件等大文件为主,而研究表明,在时域上媒体文件的访问概率并不相同,因此,需要根据媒体文件时域上的访问概率分布对其进行变长切片,以片段为单位计算流行度信息,从而进行分发。然而,随着时间的推移,用户会逐渐增多,用户访问的记录也会越来越多,如果定期就根据新记录对所有文件在时域上的访问概率分布重新计算,并对文件重新切片和分发,会极大的浪费网络带宽,因此需要有折衷的方法对数据的流行度进行有效更新和分发调整。
发明内容
本发明的目的在于提供一种片段流行度更新方法,定期收集用户访问信息并在尽量少的重新切片和分发的前提下对数据片段block的流行度进行更新,使其更加接近用户的真实访问规律,并依据新的流行度计算副本放置方法,调整副本数目。
为实现上述目的,本发明提供一种片段流行度的更新方法,使各个片段的流行度更加符合实际用户的访问规律,同时更新片段的流行度,并基于新的流行度对片段的副本放置方法进行调整,包括如下步骤:
1)将文件切分为n个数据片段,并计算出每个数据片段的流行度,
初始时,假设任一文件s的时域访问概率分布函数为f(x),文件根据f(x)被切分为等概率积分的n个数据片段,每个数据片段的流行度为{pop_1,pop_2,...,pop_n},
这里,时域访问概率分布函数f(x)可以通过包括最小二乘法、多项式函数拟合等等数值分析函数拟合方法对f(x)进行拟合估计;
2)为所有文件的每个block计算生存期,
假设block_i需要在网络中保持的总时间为tc,block_i的流行度为pop_i,所有文件所有block的流行度的平均值或者从片段集合中选出频率大于预设阈值的block所对应的频率的平均值为ave_pop,ut表示预先设置的在线时间单位,则tc的计算方法如下式所示:
tc=pop_i/ave_pop×ut
3)基于片段的流行度计算每个片段的副本放置等级,并对其进行分发;
4)以时间T为周期记录对所有文件的访问行为,包括访问位置、对应片段、访问时间以及访问次数;
5)从文件加入分发网络开始,每到达k×T时间,则重新计算block_i的流行度,
pop _ i new = tc - T × k tc × pop _ i + Σ j = 1 k q j tc > T × k Σ j = 1 k q j others
其中,qj表示block_i在第j个检测周期的被访问频率;
6)根据步骤5)中计算得到的新的流行度值,利用与步骤3)中相同的方法重新计算数据块的副本放置等级,并根据新的等级调整已有数据的副本数目;
7)当经过某个比较长的时间,或者由管理员下发更新指令,则需对网络中的内容进行调整,根据长时间的用户访问统计结果加上初始时的统计值,共同重新估计任一文件s的时域访问概率分布函数f(x),并用新的概率分布函数对文件s进行分片、片段流行度统计和副本放置方法的计算,并进行分发。
另外,所述步骤3)和6)中,基于流行度信息进行副本放置等级计算并进行分发的过程如下:
a)计算副本放置等级L,
该副本放置等级的计算可以通过在一定延迟或者带宽占用的条件下,根据文件流行度通过全局最优的方法计算得到,另外,也可通过人工设定或者任何简化计算方法得到;
b)在结构化P2P内容分发网络中,与待放置数据的ID最近的节点作为其主节点,根据各种分布式哈希路由协议找到当前数据的主节点,如果主节点中没有文件相关信息,说明为初次分发,则将数据以及对应副本等级等相关信息下载到主节点,通过主节点的路由表找到与主节点的ID匹配L位的所有节点,将文件复制到这些节点上,否则,执行步骤c);
c)如果当前数据已分发过,则对比上一次分发的等级和当前等级的差异,假设上一次的等级为L’,如果L’<L,则删除所有ID匹配L’位但不足L位的所有节点上的副本;如果L’>L,则将数据复制在所有匹配L位的节点上。
本发明的片段流行度更新方法的有益效果在于:定期收集用户访问信息并对block的流行度进行更新,使其更加接近用户的真实访问规律。根据访问记录的累积对文件时间域访问函数的重新拟合也可以改善block的切分准确率,帮助提高系统性能。
附图说明
图1为内容分发网络的节点构成示例的示意图。
图2为本发明的片段流行度更新方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明的片段流行度更新方法进行详细的说明。
图2为本发明的片段流行度更新方法的流程图。如图2所示,本发明的一种片段流行度的更新方法,使各个片段的流行度更加符合实际用户的访问规律,同时更新片段的流行度,并基于新的流行度对片段的副本放置方法进行调整,包括如下步骤:
1)将文件切分为n个数据片段,并计算出每个数据片段的流行度,
初始时,假设任一文件s的时域访问概率分布函数为f(x),文件根据f(x)被切分为等概率积分的n个数据片段,每个数据片段的流行度为{pop_1,pop_2,...,pop_n},
这里,时域访问概率分布函数f(x)可以通过包括最小二乘法、多项式函数拟合等等数值分析函数拟合方法对f(x)进行拟合估计;
2)为所有文件的每个block计算生存期,
假设block_i需要在网络中保持的总时间为tc,block_i的流行度为pop_i,所有文件所有block的流行度的平均值或者从片段集合中选出频率大于预设阈值的block所对应的频率的平均值为ave_pop,ut表示预先设置的在线时间单位,则tc的计算方法如下式所示:
tc=pop_i/ave_pop×ut
3)基于片段的流行度计算每个片段的副本放置等级,并对其进行分发;
4)以时间T为周期记录对所有文件的访问行为,包括访问位置、对应片段、访问时间以及访问次数;
5)从文件加入分发网络开始,每到达k×T时间,则重新计算block_i的流行度,
pop _ i new = tc - T × k tc × pop _ i + Σ j = 1 k q j tc > T × k Σ j = 1 k q j others
其中,qj表示block_i在第j个检测周期的被访问频率;
6)根据步骤5)中计算得到的新的流行度值,与3)中相同的方法重新计算数据块的副本放置等级,并根据新的等级调整已有数据的副本数目;
7)当经过某个比较长的时间,或者由管理员下发更新指令,则需对网络中的内容进行调整,根据长时间的用户访问统计结果加上初始时的统计值,共同重新估计任一文件s的时域访问概率分布函数为f(x),用新的概率分布函数对文件s进行分片、片段流行度统计和副本放置方法的计算,并进行分发。
其中,上述步骤3)和6)中,基于流行度信息进行副本放置等级计算并进行分发的过程如下:
a)计算副本放置等级L;当前,对于副本放置等级的计算,大多通过在一定延迟或者带宽占用的条件下,根据文件流行度,通过全局最优的方法计算得到;另外,也可通过人工设定或者任何简化计算方法得到;
b)在结构化P2P内容分发网络中,与待放置数据的ID最近的节点作为其主节点,根据各种分布式哈希路由协议找到当前数据的主节点,如果主节点中没有文件相关信息,说明为初次分发,则将数据以及对应副本等级等相关信息下载到主节点,通过主节点的路由表找到与主节点的ID匹配L位的所有节点,将文件复制到这些节点上,否则,执行步骤c);
c)如果当前数据已分发过,则对比上一次分发的等级和当前等级的差异,假设上一次的等级为L’,如果L’<L,则删除所有ID匹配L’位但不足L位的所有节点上的副本;如果L’>L,则将数据复制在所有匹配L位的节点上。
下面结合附图和具体实施例,对本发明提供的文件片段更新方法作进一步阐述。
实施例
图1是内容分发网络的节点构成示例的示意图。如图1所示,在一个基于结构化P2P的二层内容分发网络结构中,包括管理层和数据备份层。这里,管理层主要负责所有文件索引的维护以及内容分发所需要的计算过程;数据备份层则负责对数据副本的备份。在这里,管理层由相互全连通的服务器组成,数据备份层通过Pastry路由协议对所有节点进行组织,同时,每个节点至少连接一个管理层中的管理节点。其中,分发过程如下:
1)当有文件需要分发时,首先通过内容分发网络的管理层中的管理节点对文件进行切片。假设文件s长为100分钟,用户点播行为分布函数为:f(x)=e-2x,令每一个block的积分为0.1,则f一共可以被切为10个block,即{block1,block2,...,block10},其时间分割点为{4.5,9.5,15.0,21.2,28.3,36.6,46.5,58.8,75.3},单位为分钟。
2)为每个数据块计算生存期。假设所有数据块的平均流行度为ave_pop=15,则流行度pop=45的数据块,其生存期为:
tc=pop/ave_pop×ut
  =45/15×1
  =3
其中,ut=1小时;
3)假设已知s的被点播频率为200,在1000个分发文件中排名90。则根据时间切分点计算block的概率平均值可知,10个block的被访问的频率分别为{45,32,28,25,22,19,16,13,10},而1000个文件共切成了10000个数据块。因此,文件中每个数据块在10000个数据块中的排名位置为{150,153,165,167,170,181,183,190},根据这个信息,可以计算得到每个数据块的初始副本放置等级。根据计算结果,管理层向数据备份层发出分发指令,并由Pastry路由协议,将数据块的副本放置于所需备份的节点上。
4)计算k×T时刻的更新流行度值。以流行度pop=45的数据块为例,ut=T=1小时作为检测周期,第一个检测周期内的访问频率为q1=8,第二个检测周期内的访问频率为q2=5,则在2T之后,新的流行度为:
pop new = tc - T × i tc × pop + Σ j = 1 i q j
= 3 - 1 × 2 3 × 45 + 8 + 5
= 28
5)以此类推,可以根据文件时间域上的访问信息对所有block的流行度进行定期更新。
6)当经过长时间的访问信息记录后(如1个月),则需要对所有文件的时域访问概率函数进行重新拟合。这里假设文件s的访问概率呈指数分布,同时用最小二乘法进行拟合得到s新的概率分布函数f’(x),根据f’(x)对s重新进行切分,得到片段访问概率,依次重新计算各个片段的副本放置方法并进行分发。

Claims (3)

1、一种片段流行度的更新方法,其特征在于,包括如下步骤:
1)将文件切分为n个数据片段,并计算出每个数据片段的流行度,
初始时,假设任一文件s的时域访问概率分布函数为f(x),文件根据f(x)被切分为等概率积分的n个数据片段,每个数据片段的流行度为{pop_1,pop_2,...,pop_n};
2)为所有文件的每个block计算生存期,
假设block_i需要在网络中保持的总时间为tc,block_i的流行度为pop_i,所有文件所有block的流行度的平均值或者从片段集合中选出频率大于预设阈值的block所对应的频率的平均值为ave_pop,预先设置的在线时间单位为ut,则总时间tc的计算方法如下式所示:
tc=pop_i/ave_pop×ut;
3)基于片段的流行度计算每个片段的副本放置等级,并对其进行分发;
4)以时间T为周期记录对所有文件的访问行为,包括访问位置、对应片段、访问时间以及访问次数;
5)从文件加入分发网络开始,每到达k×T时间,则重新计算block_i的流行度,
pop _ i new = tc - T × k tc × pop _ i + Σ j = 1 k q j tc > T × k Σ j = 1 k q j others
其中,qj表示block_i在第j个检测周期的被访问频率;
6)根据所述步骤5)中计算得到的新的流行度值,利用与步骤3)中相同的方法重新计算数据块的副本放置等级,并根据新的等级调整已有数据的副本数目;
7)当经过某个比较长的时间,或者由管理员下发更新指令,则需对网络中的内容进行调整,根据长时间的用户访问统计结果加上初始时的统计值,共同重新估计任一文件s的时域访问概率分布函数f(x),并用新的概率分布函数对文件s进行分片、片段流行度统计和副本放置方法的计算,并进行分发。
2、如权利要求1所述的片段流行度的更新方法,其特征在于,所述时域访问概率分布函数为f(x)通过包括最小二乘法、多项式函数拟合等数值分析函数拟合方法对f(x)进行拟合估计。
3、如权利要求1所述的片段流行度的更新方法,其特征在于,所述步骤3)和6)中,基于流行度信息进行副本放置等级计算并进行分发的过程如下:
a)计算副本放置等级L,
该副本放置等级L的计算通过在一定延迟或者带宽占用的条件下,根据文件流行度通过全局最优的方法计算得到,或者通过人工设定或任何简化计算方法得到;
b)在结构化P2P内容分发网络中,与待放置数据的ID最近的节点作为其主节点,根据各种分布式哈希路由协议找到当前数据的主节点,如果主节点中没有文件相关信息,说明为初次分发,则将数据以及对应副本等级等相关信息下载到主节点,通过主节点的路由表找到与主节点的ID匹配L位的所有节点,将文件复制到这些节点上,否则,执行步骤c);
c)如果当前数据已分发过,则对比上一次分发的等级和当前等级的差异,假设上一次的等级为L’,如果L’<L,则删除所有ID匹配L’位但不足L位的所有节点上的副本;如果L’>L,则将数据复制在所有匹配L位的节点上。
CN2009100821892A 2009-04-17 2009-04-17 一种片段流行度的更新方法 Expired - Fee Related CN101645921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100821892A CN101645921B (zh) 2009-04-17 2009-04-17 一种片段流行度的更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100821892A CN101645921B (zh) 2009-04-17 2009-04-17 一种片段流行度的更新方法

Publications (2)

Publication Number Publication Date
CN101645921A true CN101645921A (zh) 2010-02-10
CN101645921B CN101645921B (zh) 2012-05-16

Family

ID=41657641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100821892A Expired - Fee Related CN101645921B (zh) 2009-04-17 2009-04-17 一种片段流行度的更新方法

Country Status (1)

Country Link
CN (1) CN101645921B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035888A (zh) * 2010-12-15 2011-04-27 武汉大学 一种基于调度期限和带宽感知的数据调度方法
CN102164309A (zh) * 2011-03-21 2011-08-24 华为技术有限公司 节目的处理方法和系统以及装置
CN102868542A (zh) * 2011-07-04 2013-01-09 中兴通讯股份有限公司 一种服务分发网络中服务质量的控制方法及系统
CN103458315A (zh) * 2013-08-29 2013-12-18 北京大学深圳研究生院 一种基于流行度的p2p流媒体复制方法
CN104580274A (zh) * 2013-10-12 2015-04-29 中国电信股份有限公司 内容分发网络中的内容置换方法与系统、节点
CN105868342A (zh) * 2016-03-28 2016-08-17 乐视控股(北京)有限公司 用于cdn系统的缓存数据查询方法和系统
CN109639758A (zh) * 2018-10-31 2019-04-16 中国科学院信息工程研究所 内容中心网络中用户行为隐私的保护方法及装置
CN110278282A (zh) * 2019-07-01 2019-09-24 成都启英泰伦科技有限公司 一种语音大数据存储调用方法
CN112527751A (zh) * 2020-12-16 2021-03-19 中国联合网络通信集团有限公司 数据处理方法、装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100547994C (zh) * 2006-12-19 2009-10-07 北京邮电大学 用于移动流媒体代理服务器的流媒体文件的缓存方法
CN101187931A (zh) * 2007-12-12 2008-05-28 浙江大学 分布式文件系统多文件副本的管理方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035888A (zh) * 2010-12-15 2011-04-27 武汉大学 一种基于调度期限和带宽感知的数据调度方法
CN102164309A (zh) * 2011-03-21 2011-08-24 华为技术有限公司 节目的处理方法和系统以及装置
CN102164309B (zh) * 2011-03-21 2014-09-03 华为技术有限公司 节目的处理方法和系统以及装置
CN102868542A (zh) * 2011-07-04 2013-01-09 中兴通讯股份有限公司 一种服务分发网络中服务质量的控制方法及系统
CN102868542B (zh) * 2011-07-04 2018-02-16 中兴通讯股份有限公司 一种服务分发网络中服务质量的控制方法及系统
CN103458315B (zh) * 2013-08-29 2016-05-11 北京大学深圳研究生院 一种基于流行度的p2p流媒体复制方法
CN103458315A (zh) * 2013-08-29 2013-12-18 北京大学深圳研究生院 一种基于流行度的p2p流媒体复制方法
CN104580274A (zh) * 2013-10-12 2015-04-29 中国电信股份有限公司 内容分发网络中的内容置换方法与系统、节点
CN104580274B (zh) * 2013-10-12 2018-06-19 中国电信股份有限公司 内容分发网络中的内容置换方法与系统、节点
CN105868342A (zh) * 2016-03-28 2016-08-17 乐视控股(北京)有限公司 用于cdn系统的缓存数据查询方法和系统
CN109639758A (zh) * 2018-10-31 2019-04-16 中国科学院信息工程研究所 内容中心网络中用户行为隐私的保护方法及装置
CN109639758B (zh) * 2018-10-31 2020-05-12 中国科学院信息工程研究所 内容中心网络中用户行为隐私的保护方法及装置
CN110278282A (zh) * 2019-07-01 2019-09-24 成都启英泰伦科技有限公司 一种语音大数据存储调用方法
CN112527751A (zh) * 2020-12-16 2021-03-19 中国联合网络通信集团有限公司 数据处理方法、装置、电子设备和存储介质
CN112527751B (zh) * 2020-12-16 2023-10-31 中国联合网络通信集团有限公司 数据处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN101645921B (zh) 2012-05-16

Similar Documents

Publication Publication Date Title
CN101645921B (zh) 一种片段流行度的更新方法
CN101645888B (zh) 一种基于访问频度变长逻辑分段的数据分发方法
CN102075562B (zh) 协作缓存的方法和装置
CN101645922B (zh) 基于地理位置信息编码的cdn网络系统及分发处理方法
US10803016B2 (en) Predictive models of file access patterns by application and file type
ParandehGheibi et al. Avoiding interruptions—A QoE reliability function for streaming media applications
Che et al. Hierarchical web caching systems: Modeling, design and experimental results
CA2827572C (en) Analytics management
CN104731690B (zh) 适应性度量收集、存储、和警告阈值
US10887419B2 (en) Fast cache purge optimization handling of unavailable nodes
CN115344548B (zh) 预测存储服务
CN101645919B (zh) 一种基于流行度的副本等级计算方法及其副本放置方法
US10419509B2 (en) Media asset distribution with prioritization
CN104348884B (zh) 一种云存储自动同步方法
CN102984280A (zh) 针对社交类云存储网络应用的数据备份系统和方法
CN101242430A (zh) 对等网络点播系统中的定点数据预取方法
CN105634784A (zh) 控制数据分发方法、装置及系统
WO2013176860A2 (en) Method and system for name space propagation and file caching to remote nodes in a storage system
CN103227818A (zh) 终端、服务器、文件传输方法、文件存储管理系统和方法
US11314434B1 (en) Real-time localized data access in a distributed data storage system
CN110007862A (zh) 基于网络存储设备的混合云存储系统及其数据处理方法
CN109542330A (zh) 数据存储方法、数据查询方法及装置
CN104967660B (zh) 一种面向多云架构的网络性能提升方法
US20140289355A1 (en) Autonomous distributed cache allocation control system
US20190004969A1 (en) Caching System for Eventually Consistent Services

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120516

Termination date: 20200417

CF01 Termination of patent right due to non-payment of annual fee