CN100416569C

CN100416569C - 一种基于Web页面元数据的用户访问行为形式化描述方法

Info

Publication number: CN100416569C
Application number: CNB200610041621XA
Authority: CN
Inventors: 郑庆华; 杜瑾; 刘均; 吴茜媛; 丁娇
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2006-01-10
Filing date: 2006-01-10
Publication date: 2008-09-03
Anticipated expiration: 2026-01-10
Also published as: CN1804844A

Abstract

本发明公开了一种基于Web页面元数据的用户访问行为形式化描述方法。本发明首先提出了一种分层次的用户行为框架结构，从“动作—活动—事务”三个层次对用户访问行为及特征进行描述；结合此行为框架，进一步提出基于页面元数据的Web用户行为形式化描述方法，并对其中的页面元数据获取以及动作、行为、事务之间的转化等问题进行了说明。我们提出的基于网页元数据的用户访问行为形式化描述方法，不仅描述了用户访问序列信息，还增加了访问内容的局部主题、关键字等信息。本方法对用户行为的形式化表示有助于加强对用户行为的理解，对个性化网络服务系统的构建提供了更好的支持。

Description

一种基于Web页面元数据的用户访问行为形式化描述方法

技术领域

本发明属于计算机应用领域，涉及Web挖掘、网络教育，特别涉及一种基于Web页面元数据的用户访问行为形式化描述方法。

背景技术

目前，对用户Web访问行为的形式化描述主要以行为建模为主，用户行为建模以及以此为基础的行为特征获取的研究集中在Web日志挖掘(WebUsage Mining)领域，其数据来源主要是注册用户特征、服务器的Web日志、页面间链接的拓扑结构等，常用研究方法包括：①统计分析，如获取用户访问时间、频率；②关联规则分析，用于获取用户访问页面间的相关关系；③聚类分析，如将具有相似特征的用户或页面归并分组；④分类分析，根据用户特征进行归类；⑤序列模式分析，获取用户访问趋势。通过上述方法获得的行为模式可用于解决页面自动导航、Web应用系统性能提高、以及页面重要性评价等问题。

目前许多成熟的个性化Web服务系统，如PitKow、WebMiner、Site Helper等，都是基于Web挖掘进行行为建模的。然而，由于现有行为模型建模方法一般都是单纯地基于Web日志中的URL请求，而目前Web日志的设计主要是面向网站流量、热点链接、错误链接等分析应用，在内容上未涉及与应用系统相关的语义信息，因此现有行为模型建模方法缺乏描述行为语义的能力，在构建智能化的Web应用方面还存在很大局限性，只能外在描述用户在页面间的随机游走(Random Walks)过程，无法描述用户行为内在的语义信息，即难以描述用户行为应用层面的信息，如用户注册、登录、检索等具体行为含义。事实上，在用户与Web应用系统交互过程中，影响用户行为取向的关键因素是网页中蕴含的语义信息，而不是页面间的链接关系。因此，基于Web日志中URL请求分析所得到的行为特征，还难以作为应用层面给用户提供个性化、自适应服务的依据。

发明内容

本发明的目的在于克服上述现有技术的不足，提出一种基于Web页面元数据的用户访问行为形式化描述方法，首先提出了一种分层的用户行为结构，从“动作-活动-事务”三个层次定义了用户行为的框架结构，结合此结构，进一步提出基于页面元数据的Web用户行为形式化描述方法，并对其中的页面元数据获取以及页面访问动作、访问行为、访问事务之间的转化等问题进行了说明，不仅描述了用户访问序列信息，还增加了访问内容的局部主题、关键字等信息，得到行为模型有助于加强对用户行为的理解，对个性化网络服务系统的构建提供了更好的支持。

本发明的技术方案是这样实现的：

基于Web页面元数据的用户行为形式化描述方法，构造一种三层的行为框架，对行为从“动作”、“活动”、“事务”三个层面进行形式化描述，首先从Web日志文件对用户的访问行为进行动作分析，提取能描述用户访问过程的页面集作为用户动作序列；其次，对动作序列进行活动分析，结合所访问页面包含的元数据内容，构造带行为语义信息的访问活动序列；最后对用户访问活动序列进行事务分析，将同一访问过程中的活动子集归为一次访问事务，把全部活动序列依照访问时间先后和时间间隔大小划分为多个访问事务。

所述的对用户“动作”进行形式化描述，即是构造一种7维元组来描述Web页面访问动作序列(Action)：

(UserID，RequestID，Time，Delay，Method，URL，StateSet)

其中：

●UserID用于唯一标示某个Web用户的ID；

●RequestID用于唯一标示用户UserID的某个URL请求；

●Time表示当前URL请求的时间；

●Delay表示在所请求页面的浏览时长；

●Method表示URL请求所采用的HTTP方法；

●URL表示所请求的路径；

●StateSet是一个由变量、变量值构成的二元组集合，用来描述外部环境状态以及当前行为对环境状态的影响。

所述的对用户“活动”进行形式化描述，即是构造一种6维元组来描述用户访问活动(Activity)：

(UserID，ActivityID，ActivityName，Time，Delay，StateSet)；

其中：

●UserID用于唯一标示某个Web用户的ID；

●ActivityID用于唯一标示某个活动的ID；

●ActivityName表示当前活动的名称；

●Time表示本次活动序列的开始时间；

●Delay表示本次活动序列持续时长；

●StateSet包含和当前活动有关的局部语义信息变量，包括subject，title，keywords，hyperlinks。

所述的对用户“事务”进行形式化描述，即是构造一种6维元组来描述用户访问事务(Session)：

(UserID，SessionID，Time，Delay，StateSet，Activities)

其中：

●UserID用于唯一标示某个Web用户的ID；

●SessionID唯一标示当前事务；

●Time表示当前事务的开始时间；

●Delay表示在本次事务的持续时长；

●StateSet包含和当前事务有关的局部语义信息变量；

●Activities表示本事务中所包含活动序列中各个活动的ID集合。

所述的通过动作分析提取能描述用户访问过程的页面集作为用户动作序列的步骤是：首先提出一种用户访问页面空间距离的计算方法，即计算用户在页面A通过链接导航达到页面B的最小步骤作为页面A到页面B的空间距离，若页面A不能通过超链到达页面B，则页面A到页面B的距离为∞；其次，提出基于页面空间距离和页面环境变量的相同用户判定规则；最后，对传统方法得到的用户识别结果进行进一步分析，根据页面空间距离和页面环境变量以及用户判定规则识别出不同用户的动作序列。

所述的基于页面空间距离和页面环境变量的相同用户判定规则是：当环境状态不发生改变时，时间与相对距离相近的两个URL请求来自同一用户；当环境状态发生改变时，若其中两个URL请求中的页面具有直接链接关系且发生改变的环境变量在前一个URL对应页面中是可写的，则两个请求来自同一用户。

所述的对动作序列进行活动分析，即是结合所访问页面元数据内容构造带行为语义信息的活动序列的步骤是；首先，以网页标题以及状态变量构成的二元组作为被访问页面的描述性元数据，以访问页面中的超链集以及对应的标题作为被访问页面的结构性元数据，对页面元数据进行抽取；其次提出两条页面主题判定规则以及基于页面主题的页面间绝对距离和相对距离计算方法；再次根据页面相似距离计算结果，采用AGNES聚类方法对页面进行聚类分析；最后根据页面聚类划分结果对访问动作序列进行活动划分；其中以页面聚类簇的簇心页面元数据作为此活动划分的元数据描述信息，为此次活动的环境变量赋值。

所述的两条页面主题判定规则是：存在直接或间接链接关系的页面属于同一主题；页面内容，特别是标题相同或相似的页面属于同一主题。

所述的基于页面主题的页面间绝对距离和相似距离的计算方法是：

绝对距离D_A(p_i，p_j)＝D_R(p_i，p_j)·D_R(p_j，p_i)/(D_R(p_i，p_j)+D_R(p_j，p_i))

相似距离D_S(p_i，p_j)＝D_A(p_i，p_j)·S(p_i，p_j)

这里p_j、p_i是两个不同页面，S(p_i，p_j)是根据标题、变量所构成的向量空间得到页面p_j与p_i的相似度。

本发明所提出的基于Web页面元数据的行为描述及行为序列分析方法，能有效地对用户网络访问行为进行描述，其带页面元数据的语义信息有助于对用户行为的理解。并且，提出的行为分析方法，可有效提高行为活动划分精度，实验表明，该方法对日志进行分析后得到的活动划分和人工划分相对比，相似度达86％以上。

附图说明

附图是本发明的基于页面元数据的用户行为形式化描述图。

下面结合附图对本发明的内容作进一步详细说明。

具体实施方式

参照附图所示，页面元数据是指描述页面内容与结构的数据，对于理解Web用户行为的语义具有重要作用。针对现有行为描述方法难以描述行为语义的问题，结合上述行为分层框架结构，提出了一种基于页面元数据的用户行为形式化描述方法，如图所示。其基本思想为：首先，根据用户日志中的客户端IP地址、浏览器类型、操作系统类型以及URL对应页面中的变量分离出每个用户的访问序列(动作序列)，并根据页面元数据中的链接关系填充由于Cache机制丢失的访问请求；其次，根据页面元数据中的标题、变量、超链接等内容对特定用户的访问序列进行分析，获得用户的活动序列。

以下首先确定与行为描述相关的页面元数据，在此基础上，对行为形式化描述中动作分析、活动分析以及事务分析过程进行说明。

定义1：页面元数据

网页元数据可分为描述性元数据(Descriptive Metadata)与结构性元数据(Structural Metadata)两种类型，分别用于描述页面的内容与结构。

与用户访问行为相关的描述性元数据主要包括网页标题以及状态变量构成的二元组，其定义如式4，其中第二项为变量与对应读写属性构成的二元组集合。

Descriptive Metadata：(Title，{(Variable，ReadWrite)}) (式4)

例如，(’登录’，{(User，Writable)，(Pass，Writable)})，表示当前网页为一个登录页面，页面中包含用户与密码两个变量，这两个数据在当前页中都可修改。

与行为形式化描述相关的结构性元数据主要包括页面中的超链接以及对应的标题，定义如下：

Structural Metadata：({URL}) (式5)

下式是一个结构性网页元数据的实例，表示当前页面中包含“login.jsp？user&pass”与“registration.htm”两个超链接。

({login.jsp？user&pass，/registration.htm，...}) (式6)

动作分析

Web日志按访问时间顺序记录了所有Web用户的访问动作序列，是用户访问动作与Web系统交互过程中，由Web Server记录下来的。但由于用户动作与应用系统的交互一般都是通过匿名方式进行的，Web日志中的 UserID字段并未起到区分用户的作用。此外，代理服务器以及浏览器的Cache机制使得一些URL访问请求未能发送到Web服务器，也就未能记录在Web日志中。动作分析的作用就是从Web日志中识别出每个用户，并获得其完整的访问动作序列。

在Web挖掘日志中，一般是根据日志中的客户端IP地址、浏览器类型、操作系统类型等内容提出若干区分用户的规则。对于NAT网关与代理后面的客户端，上述三项内容完全一致的概率较大，在这种情况下，上述规则无法区分用户的URL请求。

现有Web应用系统一般都采用基于环境变量的动态页面技术，这类应用系统中的页面导航具有以下两个特点：一、描述环境状态的环境变量值在导航过程中具有相对稳定性；二、对于造成环境变量改变的页面，其URL请求的日志不会由于代理的Cache机制丢失。结合这两个特点，下面给出页面距离的概念，在此基础上，再提出两个新的用于区分用户的规则以及日志分析方法。需要说明的是两个规则都是针对客户端IP地址、浏览器类型、操作系统类型均相同的URL请求。

定义2.页面相对距离：

页面p_j相对p_i的距离是指p_i通过页面间的导航链接到达p_j的所需的最小步骤，记为D_R(p_i，p_j)。特别地，D_R(p_i，p_i)＝0；若p_i无法通过超链接到达p_j，则D_R(p_i，p_j)＝∞；若p_j∈p_i.metadata.url，则D_R(p_i，p_j)＝1，即页面间存在直接链接关系，其中，p_i.metadata.url是指页面p_i中超链接的集合。

规则1.

设ur_i为Web日志WL中的一个URL请求，

UR &Subset; WL

为与ur_i时间间隔小于特定阈值t₀且页面距离小于特定阈值l₀的后序URL请求的集合，即UR＝{ur|1≤D_R(ur_i.url，ur.url)＜l₀^(|ur.time-ur_i.time|)＜t₀^ur∈WL}，对于任何ur∈UR，若ur_i.StateSet＝ur.StateSet，则ur_i.UserID＝ur.UserID。

规则1的含义是：当环境状态不发生改变时，时间与相对距离相近的两个URL请求来自同一用户。

规则2.

设ur_i为Web日志WL中的一个URL请求，若不存在ur∈UR，使得ur_i.StateSet＝ur.StateSet，则当ur_i满足以下条件时，等式ur_i.UserID＝ur_j.UserID成立：

(1)ur_j∈UR；

(2)D_R(ur_i.url，ur_j.url)＝1；

(3)设ChangeSet＝ur.StateSet-ur_i.StateSet，并且构成ChangeSet的二元组元素中的变量属性在页面ur_i.url的元数据中是可写的。

规则2的含义是：当环境状态发生改变时，若其中两个URL请求中的页面具有直接链接关系且发生改变的环境变量在前一个URL对应页面中是可写的，则两个请求来自同一用户。

基于规则1、2，以下提出动作分析的方法：

输入：WebLog

输出：SerialSet＝{Serials₁，Serials₂，......，Serials_n}

过程：

GroupSet＝GroupedBy(IP，Browser，OS，{WebLog})

//解释：根据日志中的客户端IP地址、浏览器类型、操作系统类型对URL

请求进行分组，每个组中的URL请求具有相同的上述三个属性。

m＝|GroupSet| //m为分组的个数

forI＝1 to m do

{

RoughSerialSet_i＝Rule1(group_i)

//解释：对每个分组中的所有符合规则1的URL请求按照页面相对距

离从小到大的顺序进行归类，直到对所有符合规则1的URL请求都

进行了处理。

s＝|RoughSerialSet_i|

for j＝1 to s do

{

RepaireUrl(RoughSerial_ij)

//解释：根据页面的链接关系填充丢失的URL请求。

SerialSet_i＝Rule2(RoughSerialSet_i)

//解释：对每个分组中的所有符合规则2的URL请求进行归类。

}

SerialSet＝∪SerialSet_i

最后，每个分组中的每类URL请求对应于某个用户，若该分组中只有一类，则该分组对应于某个用户。通过上述算法，可实现将Web日志的访问请求按用户进行分组，并生成如式1所示的用户动作序列。

活动分析

活动分析是指将特定用户的动作序列转化为能够描述行为语义的活动序列。活动分析主要依据页面的聚类特性，这种特性体现在链接关系与页面内容两个方面。根据这些特性，结合页面主题信息采集研究中的Sibling和Pagerank的思想，我们得到以下规则用于判定页面是否属于同一主题。

规则3.

存在直接或间接链接关系的页面可能属于同一主题；若页面间相对距离越小，则属于同一主题可能性越大；若页面间互相存在链接关系，则属于同一主题可能性更大。

规则4.

页面内容(特别是标题)相同或相似的页面很可能属于同一主题。

结合这两个规则，我们提出活动分析的基本思路：首先，根据页面的超链接、标题以及变量三种元数据信息对页面进行聚类；其次，根据聚类结果将用户所有的动作序列划分为活动序列，并为每个活动设置标题。以下首先提出“页面绝对距离”与“相似距离”的概念，在此基础上，对活动分析的方法进行说明。

定义3.页面绝对距离DA：

页面p_j与p_i(p_i≠p_j)的绝对距离D_A(p_i，p_j)定义为：

D_A(p_i，p_j)＝D_R(p_i，p_j)·D_R(p_j，p_i)/(DR(p_i，p_j)+D_R(p_j，p_i))

显然，D_A(p_i，p_j)≤min(D_R(p_i,p_j)，D_R(p_j，p_i))。

定义4.相似距离D_S：

设S(p_i，p_j)是根据标题、变量所构成的向量空间得到页面p_j与p_i的相似度。相似距离D_S(p_i，p_j)定义为：

D_S(p_i，p_j)＝D_A(p_i，p_j)·S(p_i，p_j)

由规则3、4，D_S(p_i，p_j)越小，页面p_j与p_i属于同一主题的可能性越大。基于页面相似距离，我们采用AGNES聚类方法对页面进行聚类。

设动作序列中涉及的URL访问序列为ur₁，ur₂，..，ur_i，..，ur_m，对应的页面分别为p₁，p₂，..，p_i，..，p_m；根据对网站内所有页面聚类后的结果，我们提出如下的活动分析方法：

STEP1：寻找满足如下条件的子序列p_j，..，p_i(i≥j)：

(1)p_j，..，p_i属于同一类；

(2)p_j-1与p_i+1都不属于该类。

若找到，将ur_j，..，ur_i合并为一个活动。

STEP2：寻找p_i，..，p_i的中心，中心页面p_i应满足：

对于任意页面p_k(j≤k≤i)，

Σ_{x = j}^{i} D_{S} (p_{x}, p_{l}) \leq Σ_{x = j}^{i} D_{S} (p_{x}, p_{k}) .

STEP3：CurrentActivity.ActivityName＝p_l.title；

CurrentActivity.Delay＝ur_i.time-ur_j.time；

CurrentActivity.StateSet＝ur_i.StateSet

STEP4：重复STEP1、2、3，直到所有的URL访问行为都被合并到某一个活动中。

上述方法根据Web元数据将用户动作序列进行分组，并生成如式2所示的活动序列，该活动序列很好地体现了行为的语义信息，这为获取行为语义特征奠定了很好的基础。

事务分析

事务分析是从特定用户的一次访问序列中提取出为完成某特定目标而进行的活动序列，然而，通常情况下，用户的访问行为往往是随机的，有可能不带任何目标，也可能有一个或多个目标且各目标的访问活动交叉进行。因此，为方便起见，本发明中将用户一次访问序列中的所有活动的集合作为一次事务，即通过动作分析抽取本用户的动作序列，再依此进行活动分析，得到该用户此次访问行为的所有活动，构成如式3的事务模型。其中，事务的ID由此次事务访问时间戳和用户ID联合构成。

例如：此次事务时间戳为“20051226120000”，用户ID为“zhangsan”，则此事务id为“20051226120000-zhangsan”。

实施例

首先，在Web教学网站中收集一段时间内来自同一代理服务器的学习者的所有日志记录。其次，根据网站页面间的链接关系以及状态变量(特别是用户的登录名)进行动作分析，获得每个学习者的所有访问动作序列，见表1。第三，采用人工对动作行为进行标记，通过合并行为语义相关的URL访问行为生成活动序列。第四，采用本发明提出的活动分析方法将动作序列转化为活动序列。最后，将人工标记得到的活动序列与活动分析方法得到的序列进行对比，对比结果见表2。这里，我们采用简单匹配系数来描述两种方法得到的活动序列的相似度。活动序列s_i，s_j的相似度定义如下：

SD (s_{i}, s_{j}) = \frac{A (S_{i}, s_{j}) + D (s_{i}, s_{j})}{A (s_{i}, s_{j}) + B (s_{i} + s_{j}) + C (s_{i}, s_{j}) + D (s_{i}, s_{j})}

(式7)

其中，A(s_i，s_j)表示“两个访问动作所发的URL访问请求在两种活动序列中属于同一活动”这一现象的次数；D(s_i，s_j)表示“两个动作所发的URL访问请求在两种活动序列中都不属于同一活动”这一现象的次数；B(s_i，s_j)表示“两个动作所发的URL访问请求属于活动序列s_i中的某一活动，但不属于活动序列s_j中的对应活动”这一现象的次数；C(s_i，s_j)表示“两个动作所发的URL访问请求不属于活动序列s_i中的某一活动，但属于活动序列s_j中的对应活动”这一现象的次数。

表1用户URL序列解析

本试验目的是为了对比人工标记的活动序列和利用本发明方法机器标记的相似程度，为方便起见，本次试验中不对网站全部URL进行统一标识，只是结合用户ID，对试验涉及到的URL进行标记区分，方法为UserID+url序列中的序号，如表1中用户1，其访问动作请求的URL序列标号为(u_1.1，u_1.2，...，u_1.31)。利用所用方法，设置页面判定距离为2，进行活动划分，如下：

表2对比试验结果

通过与人工标记方法得到的活动序列进行对比，验证了本发明所提行为形式化描述方法能很好地生成体现行为语义的活动序列。其中，当一个活动包含的页面个数较多时，所获得的活动序列划分更加精确，这是因为当页面样本数越多，对页面聚类的结果精度就越高。

Claims

1. 基于Web页面元数据的用户行为形式化描述方法，其特征在于：提出一种三层结构的行为框架，从“动作”、“活动”、“事务”三个层面对用户的页面访问行为进行形式化描述：首先，通过动作分析从Web日志中识别出每个用户，并获得其完整的访问动作序列，访问动作序列可用一种7维元组描述：

Action＝<UserID，RequestID，Time，Delay，Method，URL，StateSet>

其中：

●UserID用于唯一标示某个Web用户的ID；

●RequestID用于唯一标示用户UserID的某个URL请求；

●Time表示当前URL请求的时间；

●Delay表示在所请求页面的浏览时长；

●Method表示URL请求所采用的HTTP方法；

●URL表示所请求的路径；

●StateSet是一个由变量、变量值构成的二元组集合，用来描述外部环境状态以及当前行为对环境状态的影响；

其次，根据所访问页面包含的元数据内容对用户的动作序列进行分析，获得能描述用户行为语义的页面访问活动序列，页面访问活动序列可用一种6维元组描述：

Activity＝<UserID，ActivityID，ActivityName，Time，Delay，StateSet>；

其中：

●UserID用于唯一标示某个Web用户的ID；

●ActivityID用于唯一标示某个活动的ID；

●ActivityName表示当前活动的名称；

●Time表示本次活动序列的开始时间；

●Delay表示本次活动序列持续时长；

●StateSet包含和当前活动有关的局部语义信息变量，包括subject，title，keywords，hyperlinks；

最后对特定用户的访问活动序列进行事务分析，将同一访问过程中的活动子集作为Web用户的一次访问事务，把全部活动序列依照访问时间先后和时间间隔大小划分为用户的多个访问事务，访问事务可用一种6维元组表示：

Session＝<UserID，SessionID，Time，Delay，StateSet，Activities>

其中：

●UserID用于唯一标示某个Web用户的ID；

●SessionID唯一标示当前事务；

●Time表示当前事务的开始时间；

●Delay表示在本次事务的持续时长；

●StateSet包含和当前事务有关的局部语义信息变量；

2. 根据权利要求1所述的基于Web页面元数据的用户行为形式化描述方法，其特征在于，所说的通过动作分析从Web日志中识别出每个用户，并获得其完整的访问动作序列的步骤是：首先提出一种用户访问页面空间距离的计算方法，即计算用户在页面A通过链接导航达到页面B的最小步骤作为页面A到页面B的空间距离，若页面A不能通过超链到达页面B，则页面A到页面B的距离为∞；其次，提出基于页面空间距离和页面环境变量的相同用户判定规则；最后，根据日志中的客户端IP、浏览器类型和操作系统类型对URL请求进行分组，并在各URL请求组内运用上述判定规则识别出不同用户的动作序列。

3. 根据权利要求2所述的基于Web页面元数据的用户行为形式化描述方法，其特征在于，所述的基于页面空间距离和页面环境变量的相同用户判定规则是：当环境状态不发生改变时，时间与相对距离相近的两个URL请求来自同一用户；当环境状态发生改变时，若其中两个URL请求中的页面具有直接链接关系且发生改变的环境变量在前一个URL对应页面中是可写的，则两个请求来自同一用户。

4. 根据权利要求1所述的基于Web页面元数据的用户行为形式化描述方法，其特征在于，所述的根据所访问页面包含的元数据内容对用户的动序列进行活动分析，获得能描述用户行为语义的页面访问活动序列的步骤是：首先，以网页标题以及状态变量构成的二元组作为被访问页面的描述性元数据，以访问页面中的超链接以及对应的标题作为被访问页面的结构性元数据，对页面元数据进行抽取；其次提出两条页面主题判定规则以及基于页面主题的页面间绝对距离和相对距离计算方法；再次根据页面相似距离计算结果，采用AGNES聚类方法对页面进行聚类分析；最后根据页面聚类划分结果对访问动作序列进行活动划分；其中以页面聚类簇的簇心页面元数据作为此活动划分的元数据描述信息，为此次活动的环境变量赋值。

5. 根据权利要求4所述的基于Web页面元数据的用户行为形式化描述方法，其特征在于，所述的两条页面主题判定规则是：存在直接或间接链接关系的页面属于同一主题；标题相同或相似的页面属于同一主题。

6. 根据权利要求4所述的基于Web页面元数据的用户行为形式化描述方法，其特征在于，所述的基于页面主题的页面间绝对距离和相似距离的计算方法是：

绝对距离D_A(p_i，p_j)＝D_R(p_i，p_j)·D_R(p_j，p_i)/(DR(p_i，p_j)+D_R(p_j，p_i))

相似距离D_S(p_i，p_j)＝D_A(p_i，p_j)·S(p_i，p_j)

这里p_j、p_i是两个不同页面，D_R(p_i，p_j)是页面p_i通过页面间的导航链接到达页面p_j所需的最小步骤，S(p_i，p_j)是根据标题、变量所构成的向量空间得到页面p_j与p_i的相似度。