CN102355490A - 用于网络空间信息服务系统的空间信息集群缓存预取方法 - Google Patents
用于网络空间信息服务系统的空间信息集群缓存预取方法 Download PDFInfo
- Publication number
- CN102355490A CN102355490A CN2011102427506A CN201110242750A CN102355490A CN 102355490 A CN102355490 A CN 102355490A CN 2011102427506 A CN2011102427506 A CN 2011102427506A CN 201110242750 A CN201110242750 A CN 201110242750A CN 102355490 A CN102355490 A CN 102355490A
- Authority
- CN
- China
- Prior art keywords
- tile
- access
- cache
- probability
- transition probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种用于网络空间信息服务系统的空间信息集群缓存预取方法,该方法结合瓦片访问长期流行特征和短期流行特征,首先基于瓦片访问的全局性,以瓦片长期流行度符合Zipf分布规律为基础建立瓦片转移概率估算方法并构建基本Markov模型;然后基于瓦片访问模式的时空局部变化,采用基本Markov模型预测后续时态访问转移概率大的瓦片作为缓存对象;最后根据预取瓦片的访问转移概率均匀分布到集群缓存服务器中。该方法既考虑瓦片访问模式的全局性又考虑到瓦片访问模式的时空局部变化,使缓存预取对象即能相对稳定又能适应访问分布变化,具有较高的命中率同时又能减少缓存置换频率,提高了集群缓存系统的稳定性和服务效率。
Description
技术领域
本发明属于网络空间信息服务技术领域,特别涉及面对大规模用户高强度漫游访问的网络空间信息服务系统的空间信息集群缓存预取方法。
背景技术
网络空间信息服务系统(网络GIS)日益流行使其访问量经历了持续高速增长。例如NASA
World Wind 的数据请求数达到了每天650万次,所涉及的空间信息量超过155GB;Google
Earth 与Google Maps访问量在06年已超过1亿;法国推出的卫星地图Geoportail,首日访问量即达到了500万。面对大规模和高强度的用户访问请求,空间信息集群服务器端缓存预取技术在节省网络带宽、减轻后端服务器负载压力、缩短用户请求响应时间等方面,具有巨大的优势,可用于满足用户在漫游数字地球时对空间信息服务质量感知需求。但确定预取候选对象一直是预取技术的难点。建立有效的用户漫游预测模型,对用户漫游过程作出准确的预测,是空间信息集群缓存预取的关键。
缓存预取实际上是一种主动缓存技术,缓存系统利用用户对数据的访问请求模式的先验知识,当缓存处理当前用户数据请求时,预测该客户在最近的将来将要访问的数据并预先从服务器中将对应的数据获取回来并放在缓存存储区中。可见,缓存预取技术中,最核心的部分是对用户未来数据请求的准确预测[1]。缓存预取技术,具有明显的双面效应。如果预测准确,将对应的数据预先存储在缓存服务器,则下一时刻用户访问该数据时,将直接由缓存响应,大大地降低了用户数据请求响应时间;否则,如果预测不准确,不但没有将用户下一时刻将要访问的数据预先存储在缓存中,没有起到降低用户数据请求响应时间的目的,而且,由于预取无用的数据,给服务器端增加了无任何价值的数据访问,也浪费了网络资源。
目前,研究人员对网页的缓存预取做出了很多有益研究,多采用马尔可夫模型(Markov模型)提高预取的准确率,且都针对单客户端的操作预取。在网络GIS领域,缓存预取方面研究相对较少。传统空间数据缓存预取的方法采用分层分块的缓存预取技术,预先将矢量或栅格数据输出为大小固定的瓦片(
tile),根据当前时刻浏览瓦片范围,预测下一时刻可能要访问的瓦片集合[2];文献[3]提出基于概率的瓦片预取算法,该算法考虑到当前瓦片邻近瓦片范围,计算所有相关瓦片的访问概率并选择前t个(预取个数)概率最大的瓦片进行预取,但这种概率排序的合理性未给出;文献[4]提出了基于前K步瓦片移动的邻居瓦片选择Markov链的算法来预取用户未来可能访问的瓦片,在一定程度上提高了系统性能,但因假定所有瓦片具有相同的访问转移概率,而未考虑空间地物重要性不同,及被访问概率的差别;文献[5]提出基于希波特(Hillbert)曲线的预取方法,使用此聚类方法来反映空间数据的“空间位置性”,利用两个空间对象Hilbert值的差异程度来判断空间对象之间的距离远近,设置一个距离阈值,将阈值范围内的空间对象设置为预测的对象集合;文献[6]通过大量学习样本,验证基本Markov预测模型能有效地提高瓦片数据的预取命中率,但由于地图浏览与网页浏览的过程不同,高阶Markov模型不会提高预测准确率。以上研究都关注于瓦片当前的转移状态,考虑到其空间距离上相邻的瓦片总是倾向于在被访问时间上也相邻,即瓦片的空间局部性。并且各个方法中访问概率的获取基本通过假设初始值或经过较长学习过程确定其概率,而其学习数据的选取是个随机过程。
研究证明空间数据瓦片访问请求存在访问倾斜和重复性,符合社会学中的“二八原则”,即百分之二十的瓦片吸引了百分之八十的请求,空间数据瓦片的长期访问概率与其访问排名之间符合齐普夫(Zipf)分布规律[7]。且因Zipf分布及其分布规律反映了群体用户的行为,可以用于建立有效集群缓存机制,建立基于热点数据的用户访问集群缓存模型,将访问频率(Fi)高的瓦片请求直接由服务器缓存响应,而不需要对后端的存储设备进行重复读取,以此节省大量的I/O 带宽,缩短用户响应时间[8]。
Zipf分布体现了访问排名第i位瓦片的长期访问频率Fi,是瓦片访问长期流行度的一种表现,有利于瓦片集群缓存的全局优化策略。而用户浏览空间数据的过程是一个受浏览目的、当前热点等多种因素影响的复杂过程[9],瓦片及瓦片访问间存在特定形式的时间局部相关性和空间局部相关性[10],Zipf分布缓存方式无法适应瓦片访问模式变化和突发性访问,将造成缓存污染[11]。而Markov缓存预取模型将用户的浏览过程抽象为一个特殊的随机过程,一阶离散Markov链,用转移概率矩阵描述用户的浏览特征 [12],是瓦片访问短期流行特征的一种表现。但该模型预取结果将随着访问热点变化而变化,将引起频繁的缓存置换和大量的数据调度,加重服务器负载和网络流量。
总而言之,我们观察到现有的相关工作,一些缓存预取工作偏重于瓦片间的空间局部性,忽略了瓦片访问固有的高度聚集性;一些工作偏重于研究访问密集型瓦片流行度的奇异特性,而忽略了瓦片访问局部模式变化。因而,如何有效结合瓦片访问长期流行特征和短期流行特征,既考虑瓦片访问模式的全局性又考虑到瓦片访问模式的时空局部变化,使其缓存对象既能相对稳定又能适应访问分布变化,减少缓存置换频率,提高缓存系统稳定性,是缓存预取方法的关键。
文中涉及的参考文献如下:
[1]王浩.多媒体网络GIS中的分布式负载均衡和缓存技术研究[D].武汉:武汉大学,2009:
[2] 李浩松, 朱欣焰 , 李京伟 , 陈军. WebGIS 空间数据分布式缓存技术研究 . 武汉大学学报 : 信息科学版, 2005, 30(12):1092-1095. 138
[3] Kang Y K, Kim K C, Kim Y S. Probability-based Tile Pre-fetching and
Cache Replacement Algorithms for Web Geographical Information Systems[C]. In
ACM Proc. of 5th East European Conference on Advances in Databases and
Information Systems, Vilnius, Lithuania, 2001.
[4] KIM Y S, KIM K C, KIM S D. Prefetching T iled Internet Data Using a
Neighbor Selection Markov Chain[ J] . Lecture Notes in Computer Science, 2001,
2060: 103-115.
[5] Dong-Joo Park, Hyoung-Joo Kim. Prefetch policies for large objects in
a web-enabled GIS application. Data&knowledge Engineering.
2001,37:65-84.
[6] 李云锦, 钟耳顺, 王尔琪, 黄跃峰。马尔可夫模型在空间信息预取中的应用。文章编号:
04940911( 2010) 07000104。
[7] 王浩,潘少明,彭敏,李锐. 数字地球中影像数据的Zipf-like访问分布及应用分析.武汉大学学报(信息科学版),2010.35(3):356-359.
[8] Shi L., Gu Z.M., Wei L., Shi Y.,2005, Quantitative Analysis of Zipf’s Law on Web Cache. Lecture Notes in Computer Science
3758:845-852.
[9] 邢永康, 马少平. 多M arkov 链用户浏览预测模型[J]. 计算机学报, 2003, 26( 11): 1510-1517.
[10]D J Unwin. GIS, spatial analysis and spatial statistics. Progress in
Human Geography, 1996,20(4):540.
[11]肖明忠, 李晓明, 刘翰宇, 代亚非, 张进宇. 基于流媒体文件字节有用性的代理服务器缓存
替代策略. 计算机学报,
2004, 27(12):1633-1641.
[12] 王文林, 廖建新, 朱晓民. VoiceXML 语音平台缓存技术综述. 通信学报, 2007,28(02):101-108。
发明内容
本发明的目的在于针对现有技术中存在的问题,提出一种结合瓦片访问长期流行特征和短期流行特征的集群缓存预取方法,使其符合实际应用规律并能有效提升实际网络GIS系统的服务性能,节省I/O 带宽,缩短用户响应时间,提高服务容量。
本发明的技术方案是用于网络空间信息服务系统的空间信息集群缓存预取方法,包括以下步骤,
步骤1,选取系统中访问次数排名前20%的瓦片作为用户浏览窗口的中心点,构成中心点集合{
,…,},其中表示系统中访问次数排名前20%的瓦片的数目;基于齐普夫分布规律,得到系统中访问次数排名前20%的瓦片的访问概率…,其中Pi=C / ,i取值为1~n ,C为归一化常数;
步骤2,为用户浏览窗口的中心点建立基本Markov模型,具体实现如下,
设在地形浏览过程中,用户浏览窗口的中心点转移是一个Markov过程,则中心点转移构成一个随机变量的取值序列,且该取值序列满足Markov性,用三元组MC = <X、A、λ>表示该取值序列,
所述访问转移概率的求取方式为,定义由某瓦片转移到与该瓦片相邻的瓦片的访问转移概率为1步转移概率,确定中心点转移到中心点的所有转移路径,对所有转移路径经过的1步转移概率,在条件概率下进行叠加得到访问转移概率;所述1步转移概率的求取方式为,对瓦片周边的四块同层相邻瓦片和上下层相邻瓦片的访问概率进行归一化,获取瓦片至周边瓦片的1步转移概率;
步骤5,对步骤4所得缓存预取瓦片集合中的瓦片进行集群缓存分布。
而且,步骤4具体实现方式如下,
然后,比较预先设定的阈值和步骤3所得的瓦片访问转移概率,将瓦片访问转移概率大于阈值的瓦片存入集合Tp;
最后,对集合Tp中的瓦片按瓦片访问转移概率由大到小进行排列,根据网络空间信息服务系统中的剩余缓存容量Q2,选取集合Tp中的前W个瓦片放入缓存预取瓦片集合T,其中W=剩余缓存容量/瓦片大小,剩余缓存容量Q2=Q-Q1,Q表示网络空间信息服务系统提供的集群缓存大小。
而且,步骤5中所述进行集群缓存分布的具体方式如下,
假设网络空间信息服务系统中的一组集群缓存服务器为S={Si|1≤i≤L},Sp(Si)为集群缓存服务器Si当前的所有缓存瓦片的访问概率和,初始值都为0,Cs(Si)为集群缓存服务器Si的剩余缓存大小,Min(S)为这组集群缓存服务器S中当前Sp(Si)最小的集群缓存服务器,缓存预取瓦片集合为T={Ti|1≤i≤N},其中瓦片Ti的大小为TS(Ti),访问概率为P(Ti);
对缓存预取瓦片集合T中的每个瓦片Ti依次进行放置,放置方式为将集群缓存服务器Min(S)记为集群缓存服务器s,如果此时Cs(s)>TS(Ti),缓存瓦片Ti到集群缓存服务器s;改变集群缓存服务器s的剩余缓存大小Cs(s)=Cs(s)-TS(Ti);改变集群缓存服务器s所有缓存瓦片的访问概率和Sp(s)=Sp(s) +
P(Ti)。
与现有技术相比,本发明具有如下的优点和有益效果:
1、高度符合用户密集访问规律,缓存预取对象具有高的预取准确度。
数据流行度反映用户对数据访问偏好的总体特性。流行度的奇异特性,如高度聚集性,是提高缓存预取命中率的重要理论依据。而瓦片数据流行度具有长期流行特性(聚集并稳定的)和短期流行特征(聚集并有爆发性)。Zipf规律表征瓦片访问长期流行特征,基本Markov模型表征瓦片访问时空局部变化规律的短期流行特征。本发明所提供的用于网络空间信息服务系统中的集群缓存预取方法,结合了两者瓦片访问流行特征,一方面考虑瓦片访问的全局性,以Zipf分布规律为基础,获取瓦片长期稳定的访问分布概率;另一方面考虑瓦片访问模式的时空局部变化,基于Markov模型,描述用户实时的瓦片浏览特性,预测瓦片局部访问转移概率,并缓存访问转移概率高的瓦片数据,使其缓存对象即能相对稳定又能适应访问分布变化,不仅具有较高系统稳定性,并且具有高的预取准确度。
2、能有效减少系统开销,较大幅度提高网络GIS系统运行性能
Zipf定律指出20%的瓦片吸引了80%的请求。本发明在Markov模型的转移概率矩阵A中,仅选取前20%瓦片作为浏览中心点,即转移概率矩阵A只关心排名前20%瓦片作为中心点的访问转移概率,即存储空间为(n)2,n为浏览中心点的个数。相对普通的Markov预测模型所需存储空间(5n)2减少将近96%的存储开销。并在集群缓存中,充分利用有限的缓存空间,选取概率高的瓦片进行缓存,再根据瓦片访问转移概率划分瓦片缓存分布,使每台集群服务器的访问概率相近,从缓存分布上对服务器进行负载均衡,以此较大缩短用户响应时间,大幅提高系统并发数。
3、遵从地形漫游过程,在真实网络GIS系统中具有实用性
对系统的运行行为和用户交互模式进行统计分析,进而设计针对性的服务系统改进方法,可以很准确地匹配系统的实际运行状况。本发明提出,在缓存预取方法的关键点Markov模型参数计算中,数据基础来源于真实网络GIS系统长期运行行为的统计结果,即瓦片访问流行度符合Zipf规律。并充分考虑到瓦片间具有固有的空间邻接关系,参照位置相关性来确定其访问转移路径。考虑到真实网络GIS系统中,用户漫游地形数据时,服务器将返回瓦片集合,内含多个瓦片,本发明先基于瓦片流行度符合Zipf规律计算瓦片集合中心点的访问转移概率,再由中心点的访问转移概率映射到瓦片的访问转移概率,从而匹配真实网络GIS系统的实际运行状况,具有实用性。
附图说明
图1是本发明实施例的瓦片漫游时运动方向示意图。
图2是本发明实施例的瓦片访问1步转移、2步转移示意图。
具体实施方式
本发明是一种网络空间信息服务集群缓存预取方法,它基本思想为基于Zipf分布进行Markov集群缓存预取:以瓦片长期流行度符合Zipf分布规律为基础构建基本Markov模型;再基于Markov模型,描述用户实时的瓦片浏览特性进行缓存预取,使缓存预取具有较高的命中率同时内容又相对稳定,以提高集群服务效率。即首先基于Zipf分布规律建立瓦片的访问转移概率估算方法,获取符合瓦片访问特征的转移概率矩阵;然后采用基本Markov模型预测后续时态访问概率大的瓦片作为缓存对象,最后基于预取瓦片的访问概率将缓存对象均匀分布到集群缓存服务器中。同常见的Markov预测方法相比,关键创造点在于基于瓦片访问流行度符合Zipf规律获取瓦片的访问概率,以确定瓦片之间的访问转移概率,使缓存预取瓦片既能相对稳定又能适应瓦片访问模式变化和突发性访问,即预取过程结合了瓦片访问的全局特性和时空局部特性。
以下结合附图和实施例详细说明本发明技术方案。
构建本发明实施例的预取模型基础是对网络GIS长期运行过程中系统的运行行为和用户交互模式进行统计分析结果。基于不同的时间尺度,采集网络GIS系统日志,对所有瓦片访问次数进行排名,拟合获取其Zipf分布曲线及其分布参数α的值。根据所有瓦片访问次数进行排名的结果,就可以选取排名前20%的瓦片,以便作为本发明的预取模型浏览中心点。
实施例包括以下步骤:
步骤1,选取系统中访问次数排名前20%的瓦片作为用户浏览窗口的中心点,构成中心点集合{,…,},其中表示系统中访问次数排名前20%的瓦片的数目;基于Zipf分布规律,得到系统中访问次数排名前20%的瓦片的访问概率…。
真实网络GIS系统中,用户漫游地形数据时,服务器将返回瓦片集合,瓦片集合内含多个瓦片。浏览窗口的中心点是同一时刻返回给同一客户端的瓦片集合形成的浏览窗口的中心点。基于Zipf分布规律,计算排名前20%的瓦片的访问概率…,按如下公式实现:
步骤2,为用户浏览窗口的中心点建立基本Markov模型。
实施例通过n步转移概率估算法建立基本Markov模型。在地形浏览过程中,中心点转移是一个Markov过程,则其浏览过程构成一个随机变量的取值序列,且该序列满足Markov性,用三元组MC = <X、A、λ>表示。基本Markov模型中初始状态分布λ为Zipf分布,即λ={…},其中各概率在步骤1已根据公式pi=C / 求出。离散随机变量X标识中心点集合{,…,}。转移概率矩阵A中,为中心点转移到中心点的估算访问转移概率。
其中,1≤i≤n,1≤j≤n。
实施例采用用户操作转移瓦片距离描述漫游路径,基于瓦片访问概率符合Zipf规律,参照位置相关性来确定瓦片访问转移路径及其转移概率估算。
瓦片距离可以定义为
a) 若用户漫游地形中一个操作只转移一个瓦片的距离,称之为1步转移
b) 若用户漫游地形中一个操作转移两个瓦片的距离,称之为2步转移;
c) 如此类推,用户漫游地形操作中转移了n个瓦片的距离,称之为n步转移。
实施例的转移概率估算包括以下两个步骤:
(1)瓦片1步转移概率估算。
假定用户浏览地形时服务器只返回一个数据瓦片,以Ttx,ty, ℓ标识坐标为(tx,ty, ℓ)的瓦片,其中tx,ty为瓦片坐标,以瓦片块为单位;ℓ为层号,以Ptx,ty,
ℓ表示瓦片Ttx,ty,ℓ符合Zipf定律的访问概率。用户以瓦片Ttx,ty, ℓ为浏览起点,根据瓦片漫游运动方向,下一步可能将访问转移到它周边的四块同层邻接瓦片和上下层邻接瓦片。如图1,其中de、ds、dw、dn分别标识同层邻接东、南、西、北四个方向,du标识访问金字塔上层瓦片,dd标识访问金字塔下层瓦片。如表一,向de转移的同层邻接瓦片Ttx+1,ty,ℓ符合Zipf定律的访问概率为Ptx+1,ty,ℓ,向ds转移的同层邻接瓦片Ttx,ty-1,ℓ符合Zipf定律的访问概率为Ptx,ty-1,ℓ,向dw转移的同层邻接瓦片Ttx-1,ty,ℓ符合Zipf定律的访问概率为Ptx-1,ty,ℓ,向dn转移的同层邻接瓦片Ttx,ty+1,ℓ符合Zipf定律的访问概率为Ptx,ty+1,ℓ,向du转移的上层邻接瓦片Ttx/2, ty/2,ℓ+1符合Zipf定律的访问概率为Ptx/2, ty/2,ℓ+1,向dd转移的下层邻接瓦片T2*tx, 2*ty,ℓ-1符合Zipf定律的访问概率为P2*tx, 2*ty,ℓ-1。则基于瓦片Ttx,ty,ℓ,可将同层邻接瓦片、上下层邻接瓦片的访问概率进行归一化,获取瓦片Ttx,ty,ℓ到相邻瓦片的1步转移概率。
设 Ps=Ptx+1,ty,ℓ+
Ptx,ty-1,ℓ + Ptx-1,ty,ℓ + Ptx,ty+1,ℓ + Ptx/2,
ty/2,ℓ+1+ P2*tx, 2*ty,ℓ-1
表一 瓦片1步转移概率
转移方向 | 转移瓦片 | 符合Zipf定律的瓦片访问概率 | 1步转移概率 |
de | Ttx+1,ty,ℓ | Ptx+1,ty,ℓ | Ptx+1,ty,ℓ /Ps |
ds | Ttx,ty-1,ℓ | Ptx,ty-1,ℓ | Ptx,ty-1,ℓ/Ps |
dw | Ttx-1,ty,ℓ | Ptx-1,ty,ℓ | Ptx-1,ty,ℓ/Ps |
dn | Ttx,ty+1,ℓ | Ptx,ty+1,ℓ | Ptx,ty+1,ℓ/Ps |
du | Ttx/2, ty/2,ℓ+1 | Ptx/2, ty/2,ℓ+1 | Ptx/2, ty/2,ℓ+1/Ps |
dd | T2*tx, 2*ty,ℓ-1 | P2*tx, 2*ty,ℓ-1 | P2*tx, 2*ty,ℓ-1/Ps |
如表所示,瓦片Ttx,ty,ℓ到相邻瓦片Ttx+1,ty,ℓ的1步转移概率为Ptx+1,ty,ℓ /Ps,瓦片Ttx,ty,ℓ到相邻瓦片Ttx,ty-1,ℓ的1步转移概率为Ptx,ty-1,ℓ/Ps,瓦片Ttx,ty,ℓ到相邻瓦片Ttx-1,ty,ℓ的1步转移概率为Ptx-1,ty,ℓ/Ps,瓦片Ttx,ty,ℓ到相邻瓦片Ttx,ty+1,ℓ的1步转移概率为Ptx,ty+1,ℓ/Ps,瓦片Ttx,ty,ℓ到相邻瓦片Ttx/2, ty/2,ℓ+1的1步转移概率为Ptx/2, ty/2,ℓ+1/Ps,瓦片Ttx,ty,ℓ到相邻瓦片T2*tx,
2*ty,ℓ-1的1步转移概率为P2*tx,
2*ty,ℓ-1/Ps。
(2)瓦片n步转移概率估算。
先估算2步转移。以瓦片为浏览起点转移到一个四角相邻瓦片Ttx+1, ty+1,ℓ为例。从附图2可以看出,瓦片 tx,ty,ℓ
转移到瓦片Ttx+1, ty+1,ℓ存在两条转移路径,都为2步转移: àà和à Ttx, ty+1, ℓ à
其中, àTtx+1,ty,ℓ、Ttx+1,ty,ℓàTtx+1,ty+1,ℓ、àTtx, ty+1, ℓ、Ttx,
ty+1, ℓàTtx+1, ty+1, ℓ 之间分别的1步转移概率可从上述步骤1.2所述1步转移概率估算方法得出。
从图2可知:a)和b)两条路径在漫游时不可能同时发生,是互斥事件。而 tx,ty,
ℓàTtx+1,ty,ℓ和Ttx+1,ty,ℓàTtx+1,ty+1,ℓ则是互相独立的事件; tx,tyàTtx, ty+1, ℓ和à也是互相独立的事件。根据概率论互斥事件求和,独立事件求积原理可知,可得出:
P( tx,ty,ℓàTtx+1,ty+1,ℓ)=P( tx,ty,ℓàTtx+1,ty,ℓ)×P(Ttx+1,ty,ℓàTtx+1,ty+1,ℓ)+P(àTtx,ty+1, ℓ)×P(Ttx+1,ty,ℓàTtx+1,ty+1,ℓ)
其中SUM表示取和,路径的条件概率指是互斥事件或独立事件下n步转移概率;T tx+a,ty+b,ℓ+k表示转移目的瓦片横坐标距离转移起始瓦片 tx,ty,ℓ的横坐标tx有 a步,转移目的瓦片纵坐标距离转移起始瓦片 tx,ty,ℓ的纵坐标距离坐标ty有 b步;转移目的瓦片相对转移起始瓦片 tx,ty,ℓ所在第ℓ层距离k层。
如上所述,转移概率矩阵A中访问转移概率的求取方式为,确定中心点转移到中心点的所有转移路径,对所有转移路径经过的1步转移概率,在条件概率下进行叠加得到转移概率。其中1步转移概率的求取方式为,对瓦片周边的四块同层相邻瓦片和上下层相邻瓦片访问概率进行归一化,获取瓦片至周边瓦片的1步转移概率。因转移概率矩阵A是基于瓦片访问符合Zipf定律得出,它符合瓦片一种真实的访问规律;且其具有全局性,能全面反映瓦片之间的长期稳定关系。Zipf定律指出20%的瓦片吸引了80%的请求,而基本Markov模型中转移概率矩阵A占据的存储空间较大为25n2。本发明提出只选取前20%瓦片作为浏览中心点,转移概率矩阵A只关心排名前20%中心点的访问转移概率,即存储空间为n2,可减少将近96%的存储开销。实质上,这样建立的基本Markov模型是一种剪裁了的Markov模型。
步骤3,根据步骤2所建立的基本Markov模型预测地形浏览过程中中心点集合{,…,}内各中心点的访问转移概率,再分别根据各中心点的访问转移概率预测相应用户浏览窗口包含的瓦片访问转移概率。实施例具体过程如下:
设向量H(t)=[0,0,….,1,….]表示用户在时刻t的浏览状态。如果此时用户处于浏览中心点Xi,则H(t)第i维等于1,其余各维都为0。用向量V(t)表示在时刻t系统的中心点状态概率向量,每一维表示不同状态的概率。则可以根据用户在时刻t-1的浏览状态H(t-1),对用户在下一时刻t的状态做出预测,如下式:
V(t)=H(t-1)×A
V(t)中每维表示了每个中心点在时刻t可能被用户访问的概率,取概率值最大的维对应的中心点即为用户在时刻t最可能浏览的中心点。
(2)预测地形漫游状态转移过程中瓦片访问转移概率。
用n×m维矩阵R=()表示中心点与瓦片的映射关系。n为中心点个数,即系统中访问次数排名前20%的瓦片的数目;m为系统中所有瓦片的个数,n=20%×m。若中心点所对应的窗口包含系统中访问排名第j位瓦片,则取值为1,否则取值为0。此处,1≤i≤n,1≤j≤m。据此,可以得出一个值为0或1的中心点变换矩阵R。用T(t)表示t时刻的瓦片概率向量{p1,p2,…,pm},则中心点概率向量转换为瓦片概率向量的转换公式为:
T(t)=V(t)×R
瓦片概率向量T(t)中的 p1、p2、…、pm中提供了系统中所有瓦片的瓦片访问转移概率。
实施例首先比较预先设定的阈值和访问概率…,将中心点集合{,…,}内访问概率大于阈值的中心点放入缓存预取瓦片集合,这些中心点的瓦片大小之和记为Q1;然后,比较预先设定的阈值和步骤3所得的瓦片访问转移概率,将瓦片访问转移概率大于阈值的瓦片存入集合Tp;最后,对集合Tp中的瓦片按瓦片访问转移概率由大到小进行排列,根据网络空间信息服务系统中的剩余缓存容量,选取集合Tp中的前W个瓦片放入缓存预取瓦片集合T,其中W根据剩余缓存容量取值,即W=剩余缓存/容量瓦片大小。由于数据量巨大,网络空间信息服务系统中会设置多个集群缓存服务器以提供集群缓存,网络空间信息服务系统提供的集群缓存大小记为Q。剩余缓存容量为网络空间信息服务系统提供的集群缓存大小-缓存预取瓦片集合T中的中心点瓦片大小之和,因为缓存预取瓦片集合T中的中心点要优先存入,即剩余缓存容量Q2=Q-Q1。预先设定的阈值具体实施时采用经验值,可以根据缓存大小和所有预测瓦片的概率值设定。
步骤5,对步骤4所得缓存预取瓦片集合中的瓦片进行集群缓存分布。实施例基于集群缓存服务器个数、每个集群服务器缓存大小和瓦片的预测概率,将预取瓦片均匀放置各个集群服务器,使每台集群服务器的访问概率相近。具体方式如下:
假设网络空间信息服务系统中的一组集群缓存服务器为S={Si|1≤i≤L}(L为集群缓存服务器S中的服务器总数),Sp(Si)为集群缓存服务器Si当前的所有缓存瓦片的概率和。各集群缓存服务器的概率和初始值都为0。Cs(Si)为集群缓存服务器Si的剩余缓存大小,Min(S)为这组集群缓存服务器S中当前Sp(Si)最小的集群缓存服务器,缓存预取瓦片集合为T={Ti|1≤i≤N},其中瓦片Ti的大小为TS(Ti),
概率为P(Ti)。则瓦片按如下方式分配到各个服务器
While i≤N
S= Min(S) and Cs(S)>TS(Ti)
Cache Ti
Cs(S) = Cs(S)- TS(Ti)
Sp(S) = Sp(S)+ P(Ti)
对缓存预取瓦片集合T中的每个瓦片Ti依次进行放置。取这组集群服务器数S中当前Sp(Si)最小的服务器s=Min(S),如果此时Cs(s)>TS(Ti),即服务器s中的缓存容量还有剩余;缓存瓦片Ti到集群缓存服务器s。改变集群缓存服务器s的剩余缓存大小Cs(s),Cs(s)取值为Cs(s)与TS(Ti)之差;改变集群缓存服务器s所有缓存瓦片的概率和Sp(s),Sp(s)取值为当前Sp(s)值与 P(Ti)之和。具体实施时可以采用循环程序实现放置,首先i=1,按此方式放置缓存预取瓦片集合T中的下一个瓦片,然后i=i+1,按此方式放置缓存预取瓦片集合T中的下一个瓦片,直至i=N,对所有瓦片放置完毕。
Claims (3)
1.一种用于网络空间信息服务系统的空间信息集群缓存预取方法,其特征在于:包括以下步骤,
步骤1,选取系统中访问次数排名前20%的瓦片作为用户浏览窗口的中心点,构成中心点集合{
,…,},其中表示系统中访问次数排名前20%的瓦片的数目;基于齐普夫分布规律,得到系统中访问次数排名前20%的瓦片的访问概率…,其中Pi=C / ,i取值为1~n,C为归一化常数;
步骤2,为用户浏览窗口的中心点建立基本Markov模型,具体实现如下,
设在地形浏览过程中,用户浏览窗口的中心点转移是一个Markov过程,则中心点转移构成一个随机变量的取值序列,且该取值序列满足Markov性,用三元组MC =
<X、A、λ>表示该取值序列,
所述访问转移概率的求取方式为,定义由某瓦片转移到与该瓦片相邻的瓦片的访问转移概率为1步转移概率,确定中心点转移到中心点的所有转移路径,对所有转移路径经过的1步转移概率,在条件概率下进行叠加得到访问转移概率;所述1步转移概率的求取方式为,对瓦片周边的四块同层相邻瓦片和上下层相邻瓦片的访问概率进行归一化,获取瓦片至周边瓦片的1步转移概率;
步骤5,对步骤4所得缓存预取瓦片集合中的瓦片进行集群缓存分布。
2.根据权利要求1所述用于网络空间信息服务系统的空间信息集群缓存预取方法,其特征在于:步骤4具体实现方式如下,
然后,比较预先设定的阈值和步骤3所得的瓦片访问转移概率,将瓦片访问转移概率大于阈值的瓦片存入集合Tp;
最后,对集合Tp中的瓦片按瓦片访问转移概率由大到小进行排列,根据网络空间信息服务系统中的剩余缓存容量Q2,选取集合Tp中的前W个瓦片放入缓存预取瓦片集合T,其中W=剩余缓存容量/瓦片大小,剩余缓存容量Q2=Q-Q1,Q表示网络空间信息服务系统提供的集群缓存大小。
3.根据权利要求1或2所述用于网络空间信息服务系统的空间信息集群缓存预取方法,其特征在于:步骤5中所述进行集群缓存分布的具体方式如下,
假设网络空间信息服务系统中的一组集群缓存服务器为S={Si|1≤i≤L},Sp(Si)为集群缓存服务器Si当前的所有缓存瓦片的访问概率和,初始值都为0,Cs(Si)为集群缓存服务器的Si剩余缓存大小,Min(S)为这组集群缓存服务器S中当前Sp(Si)最小的集群缓存服务器,缓存预取瓦片集合为T={Ti|1≤i≤N},其中瓦片Ti的大小为TS(Ti), 访问概率为P(Ti);
对缓存预取瓦片集合T中的每个瓦片Ti依次进行放置,放置方式为将当前的集群缓存服务器Min(S)记为集群缓存服务器s,如果此时Cs(s)>TS(Ti),缓存瓦片Ti到集群缓存服务器s;改变集群缓存服务器s的剩余缓存大小Cs(s)=Cs(s)-TS(Ti);改变集群缓存服务器s所有缓存瓦片的访问概率和Sp(s)=Sp(s) + P(Ti)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110242750 CN102355490B (zh) | 2011-08-23 | 2011-08-23 | 用于网络空间信息服务系统的空间信息集群缓存预取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110242750 CN102355490B (zh) | 2011-08-23 | 2011-08-23 | 用于网络空间信息服务系统的空间信息集群缓存预取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102355490A true CN102355490A (zh) | 2012-02-15 |
CN102355490B CN102355490B (zh) | 2013-08-21 |
Family
ID=45578984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110242750 Active CN102355490B (zh) | 2011-08-23 | 2011-08-23 | 用于网络空间信息服务系统的空间信息集群缓存预取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102355490B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102624922A (zh) * | 2012-04-11 | 2012-08-01 | 武汉大学 | 一种网络gis异构集群服务器负载均衡方法 |
CN102693319A (zh) * | 2012-05-31 | 2012-09-26 | 北京拓维思科技有限公司 | 基于金字塔的海量激光雷达点云存储方法 |
CN103118132A (zh) * | 2013-02-28 | 2013-05-22 | 浙江大学 | 一种面向时空数据的分布式缓存系统及方法 |
CN103150366A (zh) * | 2013-03-07 | 2013-06-12 | 南京国图信息产业股份有限公司 | 一种时态gis数据管理和展现方法 |
CN103167036A (zh) * | 2013-01-28 | 2013-06-19 | 浙江大学 | 基于分布式多级缓存系统的栅格数据存取方法 |
CN103441902A (zh) * | 2013-09-03 | 2013-12-11 | 重庆邮电大学 | 基于流媒体用户行为分析的流量产生方法 |
CN103971326A (zh) * | 2013-01-28 | 2014-08-06 | 百度在线网络技术(北京)有限公司 | 一种地图瓦片的个性化缓存方法和装置 |
CN104077296A (zh) * | 2013-03-27 | 2014-10-01 | 联想(北京)有限公司 | 处理信息的方法和服务器 |
CN104394186A (zh) * | 2014-09-23 | 2015-03-04 | 山东鲁能软件技术有限公司 | 一种基于gis平台的动态切分电网资源分布式缓存 |
CN106503238A (zh) * | 2016-11-07 | 2017-03-15 | 王昱淇 | 一种强化学习驱动的网络地图区域聚类预取方法 |
CN106528756A (zh) * | 2016-11-07 | 2017-03-22 | 王昱淇 | 一种基于时空关联性的网络地图数据组织方法 |
CN107707668A (zh) * | 2017-10-26 | 2018-02-16 | 北京邮电大学 | 一种lte蜂窝网络中基于数据预取的尾能耗优化方法 |
CN108093056A (zh) * | 2017-12-25 | 2018-05-29 | 重庆邮电大学 | 信息中心无线网络虚拟化网络中节点缓存替换方法 |
CN108259929A (zh) * | 2017-12-22 | 2018-07-06 | 北京交通大学 | 一种视频活跃期模式的预测及缓存方法 |
CN111105863A (zh) * | 2019-12-19 | 2020-05-05 | 上海尽星生物科技有限责任公司 | 超声图像的处理方法及系统 |
CN113545020A (zh) * | 2019-03-29 | 2021-10-22 | 华为技术有限公司 | 一种数据处理方法及其装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101082934A (zh) * | 2007-06-19 | 2007-12-05 | 北京师范大学 | 网络环境下超大规模空间数据的三维可视化方法 |
US20090136142A1 (en) * | 2007-11-27 | 2009-05-28 | Ravi Krishna Kosaraju | Memory optimized cache generation for image tiling in gis/cad browser applications |
-
2011
- 2011-08-23 CN CN 201110242750 patent/CN102355490B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101082934A (zh) * | 2007-06-19 | 2007-12-05 | 北京师范大学 | 网络环境下超大规模空间数据的三维可视化方法 |
US20090136142A1 (en) * | 2007-11-27 | 2009-05-28 | Ravi Krishna Kosaraju | Memory optimized cache generation for image tiling in gis/cad browser applications |
Non-Patent Citations (1)
Title |
---|
王浩 等: "数字地球中影像数据的Zipf-like访问分布及应用分析", 《武汉大学学报》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102624922A (zh) * | 2012-04-11 | 2012-08-01 | 武汉大学 | 一种网络gis异构集群服务器负载均衡方法 |
CN102624922B (zh) * | 2012-04-11 | 2014-08-13 | 武汉大学 | 一种网络gis异构集群服务器负载均衡方法 |
CN102693319A (zh) * | 2012-05-31 | 2012-09-26 | 北京拓维思科技有限公司 | 基于金字塔的海量激光雷达点云存储方法 |
CN102693319B (zh) * | 2012-05-31 | 2015-09-16 | 北京拓维思科技有限公司 | 基于金字塔的海量激光雷达点云存储方法 |
CN103167036A (zh) * | 2013-01-28 | 2013-06-19 | 浙江大学 | 基于分布式多级缓存系统的栅格数据存取方法 |
CN103971326A (zh) * | 2013-01-28 | 2014-08-06 | 百度在线网络技术(北京)有限公司 | 一种地图瓦片的个性化缓存方法和装置 |
CN103118132A (zh) * | 2013-02-28 | 2013-05-22 | 浙江大学 | 一种面向时空数据的分布式缓存系统及方法 |
CN103118132B (zh) * | 2013-02-28 | 2015-11-25 | 浙江大学 | 一种面向时空数据的分布式缓存系统及方法 |
CN103150366A (zh) * | 2013-03-07 | 2013-06-12 | 南京国图信息产业股份有限公司 | 一种时态gis数据管理和展现方法 |
CN104077296B (zh) * | 2013-03-27 | 2017-12-29 | 联想(北京)有限公司 | 处理信息的方法和服务器 |
CN104077296A (zh) * | 2013-03-27 | 2014-10-01 | 联想(北京)有限公司 | 处理信息的方法和服务器 |
US9614886B2 (en) | 2013-03-27 | 2017-04-04 | Lenovo (Beijing) Co., Ltd. | Method for processing information and server |
CN103441902B (zh) * | 2013-09-03 | 2016-05-11 | 重庆邮电大学 | 基于流媒体用户行为分析的流量产生方法 |
CN103441902A (zh) * | 2013-09-03 | 2013-12-11 | 重庆邮电大学 | 基于流媒体用户行为分析的流量产生方法 |
CN104394186A (zh) * | 2014-09-23 | 2015-03-04 | 山东鲁能软件技术有限公司 | 一种基于gis平台的动态切分电网资源分布式缓存 |
CN106528756B (zh) * | 2016-11-07 | 2019-06-21 | 王昱淇 | 一种基于时空关联性的网络地图数据组织方法 |
CN106528756A (zh) * | 2016-11-07 | 2017-03-22 | 王昱淇 | 一种基于时空关联性的网络地图数据组织方法 |
CN106503238A (zh) * | 2016-11-07 | 2017-03-15 | 王昱淇 | 一种强化学习驱动的网络地图区域聚类预取方法 |
CN107707668A (zh) * | 2017-10-26 | 2018-02-16 | 北京邮电大学 | 一种lte蜂窝网络中基于数据预取的尾能耗优化方法 |
CN107707668B (zh) * | 2017-10-26 | 2020-09-11 | 北京邮电大学 | 一种lte蜂窝网络中基于数据预取的尾能耗优化方法 |
CN108259929A (zh) * | 2017-12-22 | 2018-07-06 | 北京交通大学 | 一种视频活跃期模式的预测及缓存方法 |
CN108259929B (zh) * | 2017-12-22 | 2020-03-06 | 北京交通大学 | 一种视频活跃期模式的预测及缓存方法 |
CN108093056A (zh) * | 2017-12-25 | 2018-05-29 | 重庆邮电大学 | 信息中心无线网络虚拟化网络中节点缓存替换方法 |
CN108093056B (zh) * | 2017-12-25 | 2020-11-10 | 重庆邮电大学 | 信息中心无线网络虚拟化网络中节点缓存替换方法 |
CN113545020A (zh) * | 2019-03-29 | 2021-10-22 | 华为技术有限公司 | 一种数据处理方法及其装置 |
CN113545020B (zh) * | 2019-03-29 | 2022-07-22 | 华为技术有限公司 | 一种数据处理方法及其装置 |
CN111105863A (zh) * | 2019-12-19 | 2020-05-05 | 上海尽星生物科技有限责任公司 | 超声图像的处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102355490B (zh) | 2013-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102355490B (zh) | 用于网络空间信息服务系统的空间信息集群缓存预取方法 | |
Liu et al. | Data caching optimization in the edge computing environment | |
CN107040422B (zh) | 一种基于物化缓存的网络大数据可视化方法 | |
Li et al. | A prefetching model based on access popularity for geospatial data in a cluster-based caching system | |
CN110730471B (zh) | 基于区域用户兴趣匹配的移动边缘缓存方法 | |
Jin et al. | Content and service replication strategies in multi-hop wireless mesh networks | |
CN109982104A (zh) | 一种移动边缘计算中移动感知的视频预取与缓存替换决策方法 | |
Ali et al. | A motion-aware approach for efficient evaluation of continuous queries on 3d object databases | |
CN105656997A (zh) | 基于移动用户关系的热度缓存内容主动推送方法 | |
CN103294912B (zh) | 一种面向移动设备基于预测的缓存优化方法 | |
Gupta et al. | Location dependent information system’s queries for mobile environment | |
Zheng et al. | On semantic caching and query scheduling for mobile nearest-neighbor search | |
CN101616177A (zh) | 基于p2p的网络地形系统的数据传输共享方法 | |
Ali et al. | A motion-aware approach to continuous retrieval of 3d objects | |
Lee et al. | Pervasive data access in wireless and mobile computing environments | |
Liu et al. | Proactive data caching and replacement in the edge computing environment | |
Liu et al. | Tile-based map service GeoWebCache middleware | |
Zhang et al. | A dynamic social content caching under user mobility pattern | |
Gupta et al. | A Predicted Region Enrooted Approach for Efficient Caching in Mobile Environment. | |
Drakatos et al. | A context-aware prefetching strategy for mobile computing environments | |
Yang et al. | Hierarchical data management for spatial-temporal information in WSNs | |
Chavan et al. | A Markov model based cache replacement policy for mobile environment | |
Drakatos et al. | A future location-prediction replacement strategy for mobile computing environments | |
Li et al. | Replacement Method based on Access Spatiotemporal Locality in a Heterogeneous Distributed Cluster-based Caching System for WebGIS | |
Yadav et al. | Throughput and delay analysis of database replication algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |