CN102254004A

CN102254004A - 一种网络日志挖掘中的Web建模方法及系统

Info

Publication number: CN102254004A
Application number: CN2011101976224A
Authority: CN
Inventors: 李丽香; 彭海朋; 沈红斌; 钮心忻
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2011-07-14
Filing date: 2011-07-14
Publication date: 2011-11-23

Abstract

本发明公开了一种网络日志挖掘中的Web建模方法及系统，达到提高网站服务质量的目的。该方法包括：对网络日志进行预处理，获得可信网络日志；根据用户的访问兴趣以及该可信网络日志，进行特征网页选取和网址分段，基于加权随机索引的方法建立用户浏览访问模式矩阵；使用基于混沌蚁群优化的聚类算法对该用户访问模式矩阵进行优化聚类，并根据预设的类别标签标记用户所属的类别，建立用户公共档案；根据该用户公共档案以及预设的预取概率阈值，将预取概率超过预设的预取概率阈值的页面提取并保存到服务器的缓存中。本发明与现有预取技术相比，准确率有了大幅度的提高。

Description

一种网络日志挖掘中的Web建模方法及系统

技术领域

本发明涉及Web用户建模技术，尤其涉及一种网络日志挖掘中的Web建模方法及系统。

背景技术

随着Internet的迅速发展和广泛普及，信息快速增长与人们注意力有限性的矛盾在不断增加，网络用户日益关注如何能够在最短的时间内找到最适合自己的信息。各网站的运营商也越来越希望了解访问者在网站的活动情况，从庞大用户群的数据海洋中挖掘客户活动信息，根据用户的浏览模式来改进网站结构，以提高Web服务质量，并最终实现网站的个性化推荐，从而为用户提供更好的服务。

为了方便网络日志挖掘的应用，需要对Web日志中的数据进行形式化表示，使其成为聚类算法可以理解的输入形式。当前的Web用户建模技术只关注用户在页面级别的浏览行为，而对于Web用户活动之间的潜在联系或隐含特征很少关注，对与某种特定浏览模式之间有关的隐藏或无法观察的因素也研究甚少。在现有的Web用户行为分析方法中，都是考虑用户点击的URL集合或时间序列，研究对象都是以一个完整的URL为单位，而没有利用到URL的结构信息。随着处理任务的原始输入数据的维度急剧增大，现有的Web用户建模技术的性能也逐渐下降。

发明内容

本发明所要解决的技术问题是在于需要提供一种网络日志挖掘中的Web建模技术，达到提高网站服务质量的目的。

为了解决上述技术问题，本发明首先提供了一种网络日志挖掘中的Web建模方法，包括如下步骤：

对网络日志进行预处理，获得可信网络日志；

根据用户访问兴趣以及该可信网络日志，进行特征网页选取和网址分段，并基于加权随机索引的方法建立用户浏览访问模式矩阵；

使用基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，并根据预设的类别标签标记用户所属的类别，建立用户公共档案；

根据该用户公共档案以及预设的预取概率阈值，将预取概率超过预取概率阈值的页面提取并保存到服务器的缓存中。

其中，对该网络日志进行预处理的步骤，包括：

对该网络日志进行数据清洗、用户识别以及会话识别。

其中，对该网络日志进行该数据清洗的步骤，包括：

过滤网页中的图片，过滤动态网页以及点击率低于预设点击阈值的网页。

其中，根据用户访问兴趣以及该可信网络日志，进行特征网页选取和网址分段，并基于加权随机索引的方法建立用户浏览访问模式矩阵，包括：

从可信网络日志中过滤掉单个用户请求的页面以及只在一个会话中出现的页面，获得由众多用户感兴趣的页面所组成一个兴趣页面集合，这个兴趣页面集合中的网页就作为用户聚类的特征网页；

使用网址其中的斜线，将用户兴趣页面集合中的网址进行分段，得到一个网址分段之后的段落集合；

为每个用户建立上下文向量，对于出现在用户会话之中顺序出现的每个网址段落，为其选取一个上下文窗口，并生成该段落的随机索引向量，通过遍历文档，根据加权函数定义并计算该段落的权重，然后叠加到已有的上下文向量中，实现对该段落上下文向量的更新，迭代更新过程结束，获得一组单个用户的浏览模式向量(上下文向量)，该组向量形成一个可以反映了单个用户的浏览行为的矩阵，便是该用户浏览访问模式矩阵，得到后续用户聚类算法的输入。

其中，使用该基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行该优化聚类，并根据该预设的类别标签标记用户所属的类别，建立该用户公共档案的步骤，包括：

使用该基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，得到聚类中心的位置；

根据用户与各聚类中心的距离，采用该预设的类别标签标记用户所属的类别，根据用户所属的类别建立该用户公共档案。

本发明还提供了一种网络日志挖掘中的Web建模系统，包括：

预处理模块，用于对网络日志进行预处理，获得可信网络日志；

第一建立模块，用于根据用户的访问兴趣以及该可信网络日志，进行特征网页选取和网址分段，并基于加权随机索引的方法建立用户浏览访问模式矩阵；

第二建立模块，用于使用基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，并根据预设的类别标签标记用户所属的类别，建立用户公共档案；

预提取模块，用于根据该用户公共档案以及预设的预取概率阈值，将预取概率超过预取概率阈值的页面提取并保存到服务器的缓存中。

其中，该预处理模块用于对该网络日志进行数据清洗、用户识别以及会话识别，获得该可信网络日志。

其中，该预处理模块用于过滤网页中的图片，过滤动态网页以及点击率低于预设点击阈值的网页。

其中，该第一建立模块包括：

特征网页选取单元，用于从可信网络日志中过滤掉单个用户请求的页面以及只在一个会话中出现的页面，从而获得众多用户感兴趣的页面所组成一个兴趣页面集合；

网址分段单元，用于使用网址其中的斜线将用户兴趣页面集合中的网址进行分段，得到一个网址分段之后的段落集合；

用户浏览访问模式矩阵建立单元，用于为每个用户建立上下文向量，对于出现在用户会话之中顺序出现的每个网址段落，为其选取一个上下文窗口，并生成该段落的随机索引向量，通过遍历文档，根据加权函数定义并计算该段落的权重，然后叠加到已有的上下文向量中，实现对该段落上下文向量的更新，迭代更新过程结束，获得一组单个用户的浏览模式向量(上下文向量)，该组向量形成一个可以反映了单个用户的浏览行为的矩阵，便是该用户浏览访问模式矩阵，得到后续用户聚类算法的输入。

其中，该第二建立模块包括：

聚类单元，用于使用该基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，得到聚类中心的位置；

建立单元，用于根据用户与各聚类中心的距离，采用该预设的类别标签标记用户所属的类别，根据用户所属的类别建立该用户公共档案。

与现有技术相比，本发明具有以下优点：

针对网络日志海量、高维、数据规模多样的特点，本发明提出的基于加权随机索引的Web建模技术，适用于处理任务的原始输入数据的维度急剧增大的情况，在用户建模的过程中，能够将浏览模式中的隐藏信息加入其中，可以较为有效地指导Web用户聚类算法，改进网络日志挖掘的效果。同时，基于群体智能优化的混沌蚁群优化的聚类(CAS-C)技术，具有收敛效果好、适用于包含的类具有多个大小和密度的数据集、适用于高维数据的优点。这些优点可以解决网络用户聚类的难题，可以使聚类结果更加准确和稳定。另外，本发明提出的群组网页预取方案，与现有预取技术相比，准确率有了大幅度的提高。

本发明的技术方案可以用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、多处理器系统、网络PC、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

附图说明

图1是本发明实施例网络日志挖掘中的Web建模方法的流程示意图；

图2是本发明实施例网络日志挖掘中的Web建模系统的组成示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式。

本发明设计了一种网络日志挖掘中的Web建模方法及系统，以达到降低响应时间，提高网站服务质量的目的。

Web日志数据有其自身的特点，如数量大、更新速度快、结构复杂等。在网络日志挖掘中，为了方便聚类算法的应用，需要对Web日志中的数据进行形式化表示，使其成为聚类算法可以理解的输入形式。隐含变量模型，比如隐含语义分析(LSA)已经被用来发现Web链接信息中的隐含关系，寻找具有相关性的网页，以便高速有效地改进搜索的性能。针对LSA模型的一些现有问题和不足，作为LSA模型的改进和替代方案，随机索引(RI)是2000年被提出的一种渐进单词向量空间技术，它提供了一种高效和可伸缩的近似模型，来解决信息检索和自然语言处理领域中的分布性相似度问题。然而，随机索引的方法在Web挖掘领域，特别是对Web用户访问模式发现方面，却很少被应用。

随机索引技术可以由如下所述的一个具有两步操作的过程来描述：(1)对于每一个上下文窗口(如，一篇文档)，为其随机生成并且分配一个唯一的d维索引向量。这些索引向量是稀疏的、高维度的三值向量，也就是说，索引向量的维度d可能会是成千上万的数值，并且这个成千上万维的向量只含有很少数量的随机分布的+1和-1元素，其他的元素均为0；(2)通过遍历全部文本，生成词语的上下文向量。遍历时，每当一个词语在一个上下文窗口中出现了一次，便将该上下文窗口的d维索引向量加到这个词语的上下文向量上去。这样，每个词语都会由一个d维的上下文向量表示，该上下文向量是这个词语出现过的所有上下文窗口的索引向量之和。

随着处理任务的原始输入数据的维度急剧增大，随机索引技术的性能也逐渐下降，解决这种问题的一个办法是利用加权方程对随机索引进行修正。权重的生成过程中利用了每个术语和它所在的上下文的统计信息(例如，术语的频率)。加权后的上下文向量就不是单纯地叠加每个上下文的索引向量而产生，而是通过叠加每个独一无二的上下文的索引向量与其对应权重的乘积来计算。因此，基于加权随机索引的用户建模方法，借助自然语言处理领域“上下文”的概念，利用上下文的加权信息，对URL进行分段索引建模。这样，在用户建模的过程中，能够将浏览模式中的隐藏信息加入其中，可以较为有效地指导Web用户聚类算法，改进网络日志挖掘的效果。

用户浏览访问模式矩阵作为CAS-C算法的输入矩阵。在给定聚类数目k的前提下，CAS-C算法的执行步骤如下：

1.初始化。在CAS-C算法开始迭代之前，需要对其算法的参数进行预先设置，并赋给它们一定的初始值。令t＝1，并在搜索空间中为每个聚类中心随机生成g个蚂蚁的位置。

2.迭代开始，令t＝t+1，每个蚂蚁个体根据迭代方程式(1)进行位置移动，计算每个蚂蚁个体和它的邻居在前t步搜索到的最佳位置，以此计算目标函数的代价。

3.比较当前步骤的目标函数的代价与上一步迭代中的目标函数代价值。若当前值比之前的目标函数值小且未达到最大迭代步数，则前进，更新当前蚂蚁的位置，并更新目标函数的代价值。计算中选取欧几里德距离来度量各个蚂蚁在数据空间中的距离。

4.当算法执行步数达到预设的最大迭代步数，算法终止，并转到第5步，否则返回第2步。

5.标记聚类中心。迭代终止后，算法收敛到空间中的若干个点，即所有蚂蚁都会移动到数据空间中的几个固定位置，这几个点就是聚类算法最终得到的聚类中心。

6.划分数据，得到聚类结果。根据得到的聚类中心，依据最近距离的原则，将数据集中的各个数据标记到对应的类别中去，得到最终的聚类结果。

实施例一、一种网络日志挖掘中的Web建模方法

如图1所示，本实施例主要包括如下步骤：

步骤S110，对网络日志进行预处理，获得可信网络日志；该预处理主要包括数据清洗、用户识别和会话识别；其中的数据清洗包括过滤网页中的图片，过滤动态网页和点击率低于预设点击阈值的网页。

本实施例中，为网页预设的点击率阈值为2，点击率小于该点击率阈值的网页一般反映为用户的暂态行动，而不能代表用户的关注度和浏览兴趣。

步骤S120，根据用户的访问兴趣以及该可信网络日志，进行特征网页选取和网址分段，并基于加权随机索引的方法建立用户浏览访问模式矩阵；

其中包括：从可信网络日志中过滤掉单个用户请求的页面以及只在一个会话中出现的页面，获得由众多用户感兴趣的页面所组成一个兴趣页面集合，这个兴趣页面集合中的网页就作为用户聚类的特征网页；使用网址中的斜线将用户兴趣页面集合中的网址进行分段，得到一个网址分段之后的段落集合；为每个用户建立上下文向量，对于出现在用户会话之中顺序出现的每个网址段落，为其选取一个上下文窗口，并生成该段落的随机索引向量，通过遍历文档，根据加权函数定义并计算该段落的权重，然后叠加到已有的上下文向量中，实现对该段落上下文向量的更新，迭代更新过程结束，获得一组单个用户的浏览模式向量(上下文向量)，该组向量形成一个可以反映了单个用户的浏览行为的矩阵，便是该用户浏览访问模式矩阵，作为后续用户聚类算法的输入。

步骤S130，使用基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，并根据预设的类别标签标记用户所属的类别，建立用户公共档案；

其中包括：使用CAS-C算法对用户浏览访问模式矩阵进行优化聚类，得到聚类中心的位置；根据用户与各聚类中心的距离，采用预设的类别标签标记用户所属的类别，根据用户所属的类别建立该用户公共档案。

用户经过聚类之后归入哪个类别，便会被赋予该类别的标签。例如：100个用户经过聚类算法聚类之后被划分成6个类别，就会有6个相应的类别标签，每个用户都有其对应的类别标签。

步骤S140，根据该用户公共档案以及预设的预取概率阈值，将预取概率超过预取概率阈值的页面提取并保存到服务器的缓存中，作为未来用户访问过程中的缓存页面。当用户后续进行访问时，可以减少用户的访问时间，提高系统的响应速度，提高服务质量。

对于用户每一个类别，令P＝{p₁，p₂，...，p_m}为服务器端得到的m个用户感兴趣的网页集合，网页预取规则定义如下：

{p_{1}, p_{2}, . . ., p_{x}} \overset{c}{&RightArrow;} {q_{1}, q_{1}, . . . q_{l}}

其中，P₁＝{p₁，p₂，...，p_x}为用户已访问的网页集合，P₂＝{q₁，q₂，...q_l}为预取网页集合，则

c为预取概率阈值，表示为在已经访问了P₁的用户群中访问了P₂的用户比例。

步骤S110中的数据清洗，就是将不一致的、无关的数据从Web日志数据源中清除掉，把Web日志转化为适合数据挖掘的可靠的精确数据，即可信网络日志。

首先从多个服务器中读取合并有关Web日志数据，然后进行分析并将它们存入相应的数据字段中。Web日志数据中包括用户IP地址、用户ID、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数、错误代码、用户代理等属性。用户的一次请求可能会让浏览器自动下载多个附属物，如一些图片等，下载的所有文件构成一个页面视图，构成一次请求对应多个日志项的情况。

数据清洗可以根据分析对Web日志记录进行缩减，主要包括以下三个方面的清洗工作。

(1)URL扩展名：一般信息网站中，只是内容页面与用户的请求有关，一些图片类的页面请求(后缀名为gif，jpg等)和脚本类文件(后缀名为js，cgi，css的文件)可以被认为是与用户请求无关的文件，应将其删除。因为通常情况下，用户不会明确指定去请求某个网页上的全部图片和脚本文件，日志中的图片和脚本文件大多是进行网页框架配置的脚本内容的网页中携带的图片信息，在用户浏览页面文字内容时作为附属文件自动下载的，因此，这些图片和脚本文件并不能真实反应出用户的请求行为，在数据清洗过程中将会被移除。

(2)动作：GET动作是用户请求页面的动作，其它的如POST(POST通常为用户提交表单的动作)动作等则可以过滤掉，而保留用户请求页面的动作。

(3)状态码：状态码指示用户请求的结果，以2开头的表示请求成功，如200表示交易成功，206表示服务器已经完成了部分用户的GET请求；以3开头的表示请求被成功转向，如302表示找到请求的页面，303表示建议客户端访问其他URL或者采用其他方式，305表示请求的资源必须从服务器指定的地址得到；以4开头的表示链接出错，如400表示错误请求(如语法错误)，401表示请求授权失败；以5开头的表示产生服务器错误，如500表示服务器产生内部错误，501表示服务器不支持请求的函数。在进行数据清洗时应该过滤掉以4和5开头的信息；总之，过滤请求错误和产生服务器错误的信息，而获取或者保留请求成功以及请求被成功转向的信息。

步骤S110中的用户识别。如果对用户访问模式的挖掘或者对用户进行聚类分析，用户识别问题则显得至关重要，因为群体是由个体组成，只有对个体有比较清楚的了解，才能够识别群体的特征。由于本地缓存，代理服务器和防火墙的存在使得用户识别变得很复杂。目前用户识别的方法主要有IP地址和代理(agent)，嵌入会话标识(sessionID)，注册，Cookie，代理软件，修改浏览器等几种方法。经过用户识别之后，选择m个用户。

步骤S110中的会话识别。会话是指同一用户在一次浏览过程中连续请求的页面序列，它代表了用户对服务器的一次有效访问。会话识别(SessionIdentification)是在用户识别之后，把每个用户在一段时间内的访问序列进行分解，从而得到相应的会话。显然不同用户请求的页面属于不同的会话。常用的会话识别方法是超时法，即设定超时阈值。系统默认的时间阈值为30分钟。

为了方便聚类算法的应用，需要对Web日志中的数据进行形式化表示，使其成为聚类算法可以理解的输入形式。

上述步骤S120具体可以分为特征网页选取、网址分段和基于加权随机索引的方法建立用户浏览访问模式矩阵三个过程。

步骤S120中的特征网页选取。为发掘公共用户兴趣，预处理之后的用户日志进行需要进一步过滤。只有一个用户请求的页面无法代表群体用户的兴趣，将被过滤；同时只在一个会话当中出现的页面，只能反映用户的暂态关注，不能代表用户的持续兴趣，也需要被过滤。经过以上处理之后，获得一个由m个用户感兴趣的网页网址组成的兴趣网页集合L＝{URL₁，URL₂，…，URL_m}，这个兴趣页面集合中的网页就作为用户聚类的特征网页。

步骤S120中的网址分段。网址分段是指将用户兴趣页面集合P中的URL网址利用其中的斜线“/”切分开来，得到一个URL的片段集合S，它包含了所有对用户兴趣页面集合P中的URL进行分段之后的段落。

步骤S120中的基于加权随机索引的方法建立用户浏览访问模式矩阵。在兴趣网页集合L和对URL网址进行分段的基础上，为每个用户建立一个初始状态全为0的用户上下文向量u_j(j＝1，2，...，m)，其中m是用户总数。对于出现在用户会话中的每一个URL段落s_i(i＝1，2，...，w)，生成一个d维的随机索引向量R_i，其中w是片段集合S中的段落总数。使用加权函数计算它们相应的权重，然后对每个用户的上下文向量u_j进行更新。更新的方式为：在上下文窗口(窗口大小预先设置好)中出现的每个片段，计算出它们相应的权重值，并在现有上下文向量u_j上加上该段落所对应的随机索引向量R_i与其对应权值的乘积。最后，一组单个用户的浏览模式向量(上下文向量)创建成型，该组向量形成一个m×d大小的矩阵A＝{u₁，u₂，...，u_m}^T，该矩阵反应了单个用户的浏览行为，便是用户浏览模式矩阵。该用户浏览访问模式矩阵的每一行代表一个用户，每一列代表各个特征网页，用户浏览访问模式矩阵的每一个元素的取值为1或0，表示某用户是否点击了这个特征网页。这个用户浏览访问模式矩阵将作为用户聚类算法的输入。

实施例二、一种网络日志挖掘中的Web建模系统

结合图1所示实施例，如图2所示的本实施例主要包括预处理模块210、第一建立模块220、第二建立模块230以及预提取模块240，其中：

预处理模块210，用于对网络日志进行预处理，获得可信网络日志；

第一建立模块220，与该预处理模块210相连，用于根据用户的访问兴趣以及该可信网络日志，进行特征网页选取和网址分段，基于加权随机索引的方法建立用户浏览访问模式矩阵；

第二建立模块230，与该第一建立模块220相连，用于使用基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，并根据预设的类别数目标记用户所属的类别，建立用户公共档案；

预提取模块240，与第二建立模块230相连，用于根据该用户公共档案，将预取概率超过预设的预取概率阈值的页面提取并保存到服务器的缓存中。

其中，该预处理模块210用于对该网络日志进行数据清洗、用户识别以及会话识别，获得该可信网络日志。

其中，该预处理模块210用于过滤网页中的图片、过滤动态网页以及点击率低于预设点击阈值的网页。

其中，该第一建立模块220包括：

网址分段单元，用于使用URL网址其中的斜线“/”将URL网址进行分段，得到一个URL的片段集合；

其中，该第二建立模块230包括：

建立单元，用于根据用户与各聚类中心的距离，采用该类别标签标记用户所属的类别，根据用户所属的类别建立该用户公共档案。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种网络日志挖掘中的Web建模方法，其特征在于，包括如下步骤：

对网络日志进行预处理，获得可信网络日志；

根据用户的访问兴趣以及该可信网络日志，进行特征网页选取和网址分段，并基于加权随机索引的方法建立用户浏览访问模式矩阵；

使用基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，并根据预设的类别标签，标记用户所属的类别，建立用户公共档案；

根据该用户公共档案以及预设的预取概率阈值，将预取概率超过预设的预取概率阈值的页面提取并保存到服务器的缓存中。

2.根据权利要求1所述的方法，其特征在于，对该网络日志进行预处理的步骤，包括：

对该网络日志进行数据清洗、用户识别以及会话识别。

3.根据权利要求2所述的方法，其特征在于，对该网络日志进行该数据清洗的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，根据用户的访问兴趣以及该可信网络日志，进行特征网页选取和网址分段，并基于加权随机索引的方法建立用户浏览访问模式矩阵的步骤，包括：

从可信网络日志中过滤掉单个用户请求的页面以及只在一个会话中出现的页面，获得由众多用户感兴趣的页面所组成一个兴趣页面集合。

5.根据权利要求4所述的方法，其特征在于，对网址进行分段的步骤，包括：

使用网址中的斜线将该网址进行分段，得到关于一个网址分段之后的段落集合。

6.根据权利要求4所述的方法，其特征在于，基于该加权随机索引的方法建立该用户浏览访问模式矩阵的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，使用该基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，根据该类别标签标记用户所属的类别，建立该用户公共档案的步骤，包括：

使用该基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，得到聚类中心的位置。

8.根据权利要求7所述的方法，其特征在于，建立该用户公共档案的步骤，包括：

根据用户与各聚类中心的距离，采用该类别标签标记用户所属的类别，根据用户所属的类别建立该用户公共档案。

9.一种网络日志挖掘中的Web建模系统，其特征在于，包括：

第二建立模块，用于使用基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类，并根据预设的类别数目标记用户所属的类别，建立用户公共档案；

预提取模块，用于根据该用户公共档案以及预设的预取概率阈值，将预取概率超过预设的预取概率阈值的页面提取并保存到服务器的缓存中。

10.根据权利要求9所述的系统，其特征在于：

该预处理模块用于对该网络日志进行数据清洗、用户识别以及会话识别，获得该可信网络日志。

11.根据权利要求9所述的系统，其特征在于：

该预处理模块用于过滤网页中的图片，过滤动态网页以及点击率低于预设点击阈值的网页。

12.根据权利要求9所述的系统，其特征在于，该第一建立模块包括：

特征网页提取单元，用于从可信网络日志中过滤掉单个用户请求的页面以及只在一个会话中出现的页面，从而获得众多用户感兴趣的页面所组成一个兴趣页面集合；

网址分段单元，用于使用网址中的斜线将该用户兴趣页面集合中的网址进行分段，得到一个网址分段之后的段落集合；

13.根据权利要求9所述的系统，其特征在于，该第二建立模块包括：