CN100504879C

CN100504879C - 动态网页的分块方法

Info

Publication number: CN100504879C
Application number: CNB2007101106751A
Authority: CN
Inventors: 梅宏; 周明辉; 曹东刚; 林泊; 文沛
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2007-06-08
Filing date: 2007-06-08
Publication date: 2009-06-24
Anticipated expiration: 2027-06-08
Also published as: CN101127044A

Abstract

本发明涉及一种动态网页的分块方法，首先接受一个网页内容流并生成扩展DOM树，然后将DOM树的各节点生成特征编码，比较各DOM树的对应节点，生成共享分块和定制化分块。采用本发明的方法，能够根据网页的动态和结构特性，理解、识别系统中多个页面共享的部分(共享分块)以及变化规律不一致的部分(定制化分块)，在无人为参与的情况下，动态地进行页面划分，以提供一种具备良好可扩展性的解决方案，降低手动分块的劳力成本。可广泛应用于动态网页技术领域。

Description

动态网页的分块方法

技术领域：

本发明涉及计算机网络的动态网页技术领域，尤其涉及一种动态网页的分块方法。

背景技术：

从上世纪90年代以来，随着网络相关技术的逐渐成熟，广域网(WWW)上的信息资源经历了爆炸性的增长，网页的数量极大丰富。网页可按其生成方式分为两种：其内容全部以文件的形式存储在硬盘上，服务器响应用户请求时不加修改地传给客户端浏览器的网页称为静态网页；而其内容在服务器响应客户端请求期间通过运行某种程序逻辑生成的则称为动态网页。

在互联网发展的早期，静态网页是网页存在的主要形式；而从上世纪九十年代末开始，随着各种网页脚本技术的日渐成熟，动态网页的应用范围则越来越广。今天，绝大多数网站(如新闻门户站，blog，论坛等)的页面都是通过动态网页技术生成。这些大量的动态网页通常在一段时间内，或者多个不同网页之间，其生成的内容是一样的，但是对于每个用户请求这些生成同样网页内容的程序逻辑都会被执行，造成了计算资源的大量浪费。网页缓存技术可以从一定程度上缓解这种浪费，在一定程度上提高网络服务器的用户请求服务能力。

现有大多数缓存技术在处理静态网页上已经非常成熟和有效，但是，针对动态网页本身的特性(随时间、用户等因素发生改变，用户对于不同动态网页的时效性需求不同)，这些技术并没有提供非常好的解决方案。

为了解决这个问题，IT界尝试了若干种不同的途径，其中，基于分块的网页发布和缓存技术应用最为广泛，并成功地实现了商业化，比如XCache(参考http://www.xcache.com)、OSCache(参考http://www.opensymphony.com/oscache/)等。所谓分块，是指网页中具有特定主体或功能并且同网页其他内容有一定区别的部分(见图1)。从概念上来讲，一个web页面可以看作具有不同生命周期、功能和特性的分块的集合。web页面仅仅维护对这些分块的引用，这些分块可以被存储在物理上相互分离的主机中。

基于分块来进行web页面的缓存可以将缓存的粒度进行细化，并且可以对易于变化的部分和变化相对较不频繁的部分分别进行特别处理，从而提高整个页面内容的可缓存性，同时，由于web页面仅仅维护对独立存储分块的引用，利于提高磁盘使用效率。

但是，基于分块的web缓存技术依赖于管理员或网页设计人员手动地对页面进行划分，并采用各种各样的标记在web页面中显式地指定。这种方法不仅耗费人力，容易出错，维护起来相当困难，并且欠缺可分布性。

发明内容：

本发明的目的是提供一种动态网页的分块方法，以自动的方式完成，避免管理员或网页设计人员手动地对页面进行分块的划分。

本发明的动态网页的分块方法，其步骤包括：

1.将应用户请求生成的动态网页内容流分别生成相应的不包含格式化结点的扩展DOM树；其中扩展DOM树的节点包括下列信息：

节点值：叶节点的值即该叶节点所包含的网页文本的内容；内部节点的节点值为空；

子树值：叶节点的子树值即该叶节点的节点值；内部节点的子树值为该内部节点所有儿子的子树值的以及该内部节点本身的节点值的串接；

2.对上述扩展DOM树的节点进行特征编码：

对长度为N的DOM树节点，取其所有长为W的子串；

对每个子串进行哈西运算，得到该子串的哈西运算值；

对(N-W+1)个上述哈西运算值，取S个最小的值构成的向量作为该扩展DOM树的节点的特征编码；

3.遍历各DOM树节点，比较各DOM树对应节点的特征编码值；

4.将超过设定个数的相同或相似节点对应的网页内容设定为共享分块。

上述节点的比较过程为：

1.将上述DOM树的节点序列按照其字节大小分放到具有不同大小范围的一系列桶(桶为一种数据结构，可以用链表或数组实现)当中。

所有节点在这些桶当中呈平均分配，即每个桶中节点的数量大致相同。由于共享分块的大小必定相同，大小差别较大的节点完全没有必要进行比较，所以先用桶对节点进行一次分类，使得下一步中的比较操作尽可能减少。

2.比较各桶中对应节点的特征编码，将相同或相似的节点放到一个组(组就是数学上的集合，其实现实际上跟桶是一样的，既可以用链表，也可以用数组，只是因其使用目的不同，所以用不同的名字)当中；

3.当组中的节点个数大于设定值时，设定该节点对应动态网页的内容为共享分块。

将放到组中的节点的子节点从桶中移除。

所述相似节点为：一节点与另一节点的特征编码值的交集与并集的比值大于设定的阈值，则两节点为相似节点。

本发明的另一种动态网页的分块方法，其步骤包括：

1.将不同时间版本的动态网页内容流分别生成相应的无格式化结点的扩展DOM树；其中DOM树的节点包括下列信息：

2.对上述扩展DOM树的节点进行特征编码：

对长度为N的DOM树节点，取其所有长为W的子串；

对每个子串进行哈西运算，得到该子串的哈西运算值；

3.设定时间点最早的DOM树为“基准DOM树”

4.将后续的各个DOM树依次与基准DOM树按以下步骤进行比较：

第一步扫描被比较的扩展DOM树并标示出特征码值变化了的节点；

第二步再次扫描扩展DOM树，输出第一步中被标示的节点，被标示的节点对应的网络页面的内容为定制化分块。

上述被标示的节点输出后，其子节点不会再被输出。

上述节点的比较过程为：

1.将上述DOM树的节点序列按照其字节大小分放到具有不同大小范围的一系列桶当中，并确保所有节点在这些桶当中呈平均分配；

2.比较各桶中对应节点的特征编码，标示出特征编码值变化了的节点。

采用本方法的该发明的核心思想是，对html文档进行建模，识别不同文档中不同内容的相似度，识别被多个页面共享的分块，识别具有不同生命周期的分块，将这些分块作为候选缓存对象推荐给用户。本发明可以分为下列几个步骤：

1、html文档建模；

2、文档内容编码；

3、共享分块检测；

4、定制化分块检测。

其中1，2两个步骤是对文档的预处理，将文档转换为易于进行分块检测的数据结构；3，4步骤建立在1，2步的基础上，可独立进行。

(1)html文档建模方法。自动识别网页中的分块需要能够高效遍历比较网页内容，所以对html文档的建模是本发明的核心部分。所谓对html文档的建模就是用紧凑的数据结构表示出html网页的内容。在现有的技术中，DOM树(参考http://www.w3.org/DOM/)是对html文档进行建模的有效方法，被广泛用于各种html文本结构化处理之中(参见图2。其中的”font”节点为格式化节点)。但是，一来DOM树的节点过多，其中许多节点仅用于表示页面的显示效果，对网页内容分块并无实际意义；再者DOM树的节点并没有附带足够的分块技术所需要的信息，因此，本发明在DOM树的基础之上进行了扩充与调整，我们把进行这种扩展后的DOM树称为“扩展DOM树”(参见图3)。

●首先对常规的DOM树进行压缩，去除用于格式化的节点(如<big>，<bold>等)

●其次对各个节点的内容进行特征编码(见下文)，这些编码存于节点中用于表示该节点所包含的内容。

●再次，各个节点还带有以下信息：

■节点ID：唯一的标识该节点在树中的位置。

■节点值：叶节点的值即该节点所包含的网页文本的内容；内部节点的节点值为空。

■子树值：叶节点的子树值即该节点的节点值；内部节点的子树值为该节点所有儿

子的子树值的以及节点本身的节点值的串接。

■子树特征编码：以该节点为根的子树的特征编码，用于快速的子树值比较。

(2)文档内容编码方法。由(1)，多个html文档被抽象成相应的结构化树，需要在这些树之间比较其对应节点的值，以判断文档某一对应部分的相似程度。如果直接比较节点值其效率显然过于低下。也就是说，对于两个节点中封装的文本，需要提供一种高效的算法进行相似度比较。本发明采用一种特征编码的方法对文本进行编码，这种编码方式的特点是对于相似的文本其编码值也相似，对于差异较大的文本其编码值差异也大。这种文本特征编码方法描述如下：

任何文本都可以看成一定长度的子元素的顺序串接。这里“子元素”可以是单词或者字符。对于长度为N的字串Str＝{T₁T₂...TN}，其中Ti是子元素，我们选择一个窗口大小W，0<W<N，哈西指数上界K，以及取样大小S，进行如下操作：

●取Str的所有长为W的子串SubStr＝{T₁T₂...T_W，T₂T₃...T_W+1，T_N-W+1T_N-W+2...T_N}

●对每个子串进行哈西运算(参考M.O.Rabin.Fingerprinting by Random Polynomials.Techinical report，Center for Research in Computing Technology，Harvard University，1981)，得到(0，2^K)区间上的一个值，该值记为子串的ID。

●对(N-W+1)个子串ID，我们取S个最小的值构成的向量作为字串Str的特征编码(W，S)。

参数W，K，S可用来微调算法的时间性能以及生成的编码质量。

对于两段文本，其相似度可由相似度公式：

Sim(A，B)＝|S(A)∩S(B)|/|S(A)∪S(B)|

计算得出。其中函数S(A)表示计算文本A的特征编码值。

(3)共享分块检测方法。若一个html片段被多个不同的页面引用，而在这些页面当中，该片段内容并没有发生变化，则我们认为该分块构成一个潜在的缓存对象。我们将其称为共享分块。

检测共享分块时，本发明先将不同的页面分解为扩展DOM节点序列，按其字节大小分放到具有不同大小范围的一系列桶当中，并确保所有节点在这些桶当中基本呈平均分配。然后，比较每一个桶当中的节点对的特征编码值，根据相似度函数，将相似度超过一定阈值的节点放到一个组当中。当组中节点数目达到一定程度时，也就是说，一个分块被超过一定数目的动态web页面所引用时，我们就将其当作一个待推荐的共享分块，同时，处理其依赖关系，将其子节点从其他桶当中移去，以检测出最大的共享分块。

(4)定制化分块(下称：L-P分块)检测方法。L-P分块指的是具有不同生命周期或者不同个性化特征的分块(见图1)。本发明的L-P分块检测算法对不同时间版本的网页的扩展DOM树进行分析：

●定时间点最早的版本为“基准版本”

●将后续的各个版本依次与基准版本按以下步骤进行比较：

■第一步扫描被比较的扩展DOM树并标示出数值或位置变化了的节点；

■第二步再次扫描扩展DOM树，输出第一步中被标示的节点，且一个节点被输出

之后其子节点不会再被输出。

如此可保证输出的是最大L-P分块。

采用本发明的方法，能够根据网页的动态和结构特性，理解、识别系统中多个页面共享的部分(共享分块)以及变化规律不一致的部分(定制化分块)，在无人为参与的情况下，动态地进行页面划分，以提供一种具备良好可扩展性的解决方案，降低手动分块的劳力成本。

网站维护人员可以动态检测出系统的哪些部分是可以被缓存的。动态网页自动分块划分技术能够根据现有网站的运行数据和结构信息，为维护人员提供了一个直观、易于理解的分块缓存推荐。基于该推荐，不仅能够获取被维护系统不同页面不同部分的生命周期和变化依赖关系，还能促使维护人员有效利用现有分块缓存技术，从而提高缓存的有效率、整个系统的可维护性和可扩展性。

附图说明

图1动态网页页面图

其中页面头、侧边栏和页面尾部分属于共享分块；滚动新闻栏部分为定制化分块

图2DOM树结构示意图

图3本发明的扩展DOM数结构示意图

具体实施方式：

本发明可以在Tomcat Web容器上实施。Web容器实现Servlet/JSP标准，负责为部署在其中的web构件，即Servlet和JSP，提供运行支持，并负责接收并处理客户的Web请求(参见http://jcp.org/en/jsr/detail？id＝154)。Tomcat是Apache组织下的一个开源Java Web容器，同时也是Servlet/JSP标准的参考实现(参见http://tomcat.apache，org)。

为了按照本发明的方法检测可缓存分块，首先需要有机制截获用户请求的内容以及该请求所生成的动态网页，即获取网页样本。具体实施过程为实现Tomcat内部的Valve接口(参见http://tomcat.apache.org/tomcat-5.5-doc/catalina/docs/api/org/apache/catalina/Valve.html)，如下所示。其中最核心的方法为invoke(Request，Response)(参见http://tomcat.apache.org/tomcat-5.5-doc/catalina/docs/api/org/apache/catalina/Valve.html#invoke(org.apache.catalina.connector.Request，org.apache.catalina.connector.Response))通过该方法可以截获每个用户请求的内容以及该请求所生成的动态网页。

public interface valve{

//--------------------------------------------------------------Properties

/**

*Return descriptive information about this valve implementation.

*/

public string getInfo()；

/**

*Return the next valve in the pipeline containing this valve，if any.

*/

public valve getNext()；

/**

*set the next valve in the pipeline containing this valve.

*

*@param val ve The new next valve，or<code>null</code>if none

*/

public void setNext(valve valve)；

//----------------------------------------------------------Public Methods

/**

*Execute a periodic task，such as reloadinq，etc.This method will be

*invoked inside the classloading context of this container.unexpected

*throwables will be caught and logged.

*/

public voidbackg roundProcess()；

/*

*<p>Perform request processing as requi red by this valve.</p>

*@param request The servlet request to be processed

*@param response The servlet response to be created

*

*@exception IOException if an input/output error occurs，or is thrown

*by a subsequently invoked valve，Filter，or Servlet

*@exception ServletException if a servlet error occurs，or is thrown

*by a subsequently invoked valve，Filter，or Servlet

*/

public void invoke(Request request，Response response)

throws IoException，ServletException；

}

我们将该Valve实现插入Tomcat的请求处理链，在网站运行期间获取如下信息：

●用户请求的网页链接，以及用户端传给该链接的参数。链接加上参数可用来唯一的标识一个网页。

●请求的时间戳。

●动态网页相应该请求所生成的网页全文。

这些信息作为记录被存入数据库，完成准备工作阶段。然后按下列步骤开始实施本方法。

●第一步，对网页进行预处理，生成扩展DOM树表示。通过类AdomTree实现。方法ADomTree.parse(Reader input)接受一个网页内容流并生成扩展DOM树。

●第二步，遍历扩展DOM树，对节点值以及子树值运行SEncoding.encode(Stringinput)方法(该方法即是对前文所述特征编码的具体Java语言实现)，生成特征编码。

●第三步，执行共享分块检测方法，扫描数据库中所有不同的网页，生成共享分块。

●第四步，执行定制化分块检测方法，扫描比较数据库中不同时间点得相同网页，生成定制化分块。

Claims

1.一种动态网页的分块方法，其步骤包括：

1)将应用户请求生成的动态网页内容流分别生成相应的不包含格式化结点的扩展DOM树；其中扩展DOM树的节点包括下列信息：

2)对上述扩展DOM树的节点进行特征编码：

对长度为N的DOM树节点，取其所有长为W的子串，其中0<W<N；

对每个子串进行哈西运算，得到该子串的哈西运算值；

对(N-W+1)个上述哈西运算值，取S个最小的值构成的向量作为该扩展DOM树的节点的特征编码，其中0<S<(N-W+1)；N，W，S均为正整数；

3)遍历各DOM树节点，比较各DOM树对应节点的特征编码值；其方法为：首先将上述DOM树的节点序列按照其字节大小分放到具有不同大小范围的一系列桶当中，然后比较各桶中对应节点的特征编码，如果一节点与另一节点的特征编码值的交集与并集的比值大于设定的阈值，则两节点为相似节点，将相同或相似的节点放到一个组当中，同时将放到组中的节点的子节点从桶中移除；

4)将超过设定个数的相同或相似节点对应的网页内容设定为共享分块。

2.如权利要求1所述的动态网页的分块方法，其特征在于每个桶中节点的数量相同。

3.一种动态网页的分块方法，其步骤包括：

1)将不同时间版本的动态网页内容流分别生成相应的无格式化结点的扩展DOM树；其中DOM树的节点包括下列信息：

2)对上述扩展DOM树的节点进行特征编码：

对长度为N的DOM树节点，取其所有长为W的子串，其中0<W<N；

对每个子串进行哈西运算，得到该子串的哈西运算值；

3)设定时间点最早的DOM树为基准DOM树；

4)将后续的各DOM树依次与基准DOM树按以下步骤进行比较：

第一步扫描被比较的扩展DOM树，并标示出特征码值变化了的节点；其方法为：首先将上述DOM树的节点序列按照其字节大小分放到具有不同大小范围的一系列桶当中，然后比较各桶中对应节点的特征编码，标示出特征编码值变化了的节点；

第二步再次扫描扩展DOM树，输出第一步中被标示的节点；

5)被标示的节点对应的网络页面的内容为定制化分块。

4.如权利要求3所述的动态网页的分块方法，其特征在于每个桶中节点的数量相同。

5.如权利要求3所述的动态网页的分块方法，其特征在于上述被标示的节点输出后，其子节点不会再被输出。