CN102054004A

CN102054004A - 一种网页推荐方法和装置

Info

Publication number: CN102054004A
Application number: CN2009102368695A
Authority: CN
Inventors: 方奇; 刘奕群; 马少平; 张敏; 金奕江; 佟子健; 茹立云
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2009-11-04
Filing date: 2009-11-04
Publication date: 2011-05-11
Anticipated expiration: 2029-11-04
Also published as: CN102054004B

Abstract

本发明公开了一种网页推荐方法和装置，属于数据挖掘领域。所述方法包括：获得网页访问记录；根据网页访问记录获得网页之间的跳转关系信息库；当需要为用户进行网页推荐时，根据所述网页之间的跳转关系信息库为用户进行网页推荐。本发明提供的方案，使得用户可以在推荐网页集中查看摘要或点击浏览，较早地搜索到自己所需的网页，减少了冗余时间，提高了效率，提高了用户的使用体验，此方法的复杂度低，能支持在线实时计算，并在实验测试数据上取得了较好的性能，满足了实际应用中的需要。

Description

一种网页推荐方法和装置

技术领域

本发明涉及数据挖掘领域，特别涉及一种网页推荐方法和装置。

背景技术

随着计算机技术的发展和Internet因特网的普及，Web网络数据突破传统意义上的数据格式的限制，变得越来越重要，成为Web用户更好的获得信息地一个有效的途径。

Web访问日志数据是记录用户对Web站点访问信息的数据，保存有大量的路径信息，通过挖掘这些日志信息所得到的用户访问模式，在个性化信息服务、改进门户站点设计和服务、开展有针对性的电子商务、构建智能化Web站点、提高网站的声誉和效益等方面都将起到重要的作用。Web访问日志的内容通常包括以下几项：用户IP、Session标识符、用户访问的目标站点URL(Uniform Resource Locator，网页地址)、访问时间、跳转来源等等。用户可以在浏览器地址栏中输入目标网页URL，或点击超链接来搜索得到想要的目标网页。

发明人在实现本发明的过程中发现，现有技术至少存在以下缺点：用户在搜索时，一般需要构造并输入查询词，才能引导搜索引擎完成搜索工作，有时由于获得了一些无关的内容项，使得会获得一些垃圾网站，无法得到用户真正需要的网页。

发明内容

为了使用户能尽快地搜索到自己所需要的网页，得到有价值的推荐网页，减少冗余时间，提高处理效率，提高用户体验，本发明实施例提供了一种网页推荐方法和装置，所述技术方案如下：

一种网页推荐方法，所述方法包括：

获得网页访问记录；

根据网页访问记录获得网页之间的跳转关系信息库；

当需要为用户进行网页推荐时，根据所述网页之间的跳转关系信息库为用户进行网页推荐。

所述网页访问记录至少包括用户会话标识，目标网页标识以及所述目标网页的跳转来源网页标识，根据网页访问记录获得网页之间的跳转关系信息包括：

至少基于所述用户会话标识对所述网页访问记录进行分类；

对拥有相同用户会话标识的网页访问记录，根据目标网页标识以及所述目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支，在所述跳转连通分支中，各网页以网页节点的形式存在；

汇集各用户标识下对应的所述跳转连通分支，形成网页跳转关系信息库。

所述网页访问记录还包括：从所述跳转来源网页跳转至目标网页的跳转时间；

所述至少根据所述用户会话标识对所述网页访问记录进行分类还包括：对拥有相同会话标识的网页访问记录按照所述跳转时间递增的顺序进行排序；

所述根据目标网页标识以及所述目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支还包括：在建立所述跳转连通分支的过程中，参考所述跳转时间对特定的网页跳转记录进行筛选。

所述汇集各用户标识下对应的所述跳转连通分支，形成网页跳转关系信息库包括：

同一用户会话标识下的跳转连通分支构成同一用户会话中的网页跳转关系有向树；

汇集所述各有向树构建代表网页跳转关系的点击树模型，所述点击树模型成为网页之间的跳转关系信息库。

所述汇集各有向树构建代表网页跳转关系的点击树模型包括：

汇集所述各有向树构建网页跳转关系森林；

为所述构建的网页跳转关系森林添加虚拟根节点，形成点击树模型。

所述方法还包括：根据快速检索需要，对所述网页跳转关系信息库进行优化。

所述根据快速检索需求，对所述网页跳转关系信息库进行优化包括：

为所述点击树模型中的所有不同的节点建立索引指针，所述索引指针用于指向按照前序遍历方式遍历时和用户查询的当前网址相同的第一个节点；

为所述点击树模型中的每一个节点添加一个链接指针，所述链接指针用于指向按照前序遍历方式遍历时和当前节点相同的后续最近的节点。

在所述跳转关系信息库中各网页以网页节点的形式存在，所述根据所述网页之间的跳转关系信息库为用户进行网页推荐包括：

获得用户当前访问的网页的第一网页标识；

在所述跳转关系信息库中查找所述第一网页标识对应的至少一个第一网页节点，所述第一网页节点的标识与所述第一网页标识相同；

在所述跳转关系信息库中查找从所述第一网页节点经过至少一跳而跳转到的后续网页节点，所述查找到的后续网页节点构成所述第一网页的推荐网页候选集；

根据预置策略在所述推荐网页候选集中选取至少一个网页为所述用户进行推荐。

根据预置策略在所述推荐网页候选集中选取至少一个网页为所述用户进行推荐包括：

获得所述推荐网页候选集中的网页和当前访问网页之间的平均点击距离；

获得所述推荐网页候选集中的网页和当前访问网页之间的访问概率；

根据所述网页之间的平均点击距离、所述网页之间的访问概率以及所述候选推荐网页集，为用户进行网页推荐。

所述根据所述网页之间的平均点击距离、所述网页之间的访问概率以及所述候选推荐网页集，为用户进行网页推荐包括：

对所述网页之间的平均点击距离以及访问概率进行线性加权处理，获得所述候选推荐网页集中的各网页的得分值；

将所述计算出的各网页得分值，根据由高到低的顺序进行排序；

根据所述得分值的排序结果，生成推荐网页。

所述对所述网页之间的平均点击距离以及访问概率进行线性加权处理，获得所述候选推荐网页集中的各网页的得分值包括：

当访问概率一定时，所述平均点击距离越远，所述网页得分值越高；

相应地，当所述平均点击距离一定时，所述访问概率越高，所述网页得分值越高。

所述网页之间的平均点击距离是通过平均点击距离公式获得，所述平均点击距离公式包括：

平均点击距离

其中，n(a，b)为同时出现了网页a和网页b的会话个数，d代表两个网页之间的点击距离，a和b代表所述候选推荐网页集中的任意2个网页；

相应地，所述两个网页之间的访问概率是通过网页之间的访问概率的公式获得，所述网页之间的访问概率的公式包括：

其中，N是所有会话的总数，n(b)为出现了网页b的会话个数，n(a，b)为同时出现了网页a和网页b的会话个数；

相应地，所述线性加权公式具体为：v(a，b)＝λ×d(a，b)+(1-λ)×p(a，b)，其中，λ为融合参数，λ的取值范围为0≤λ≤1，d(a，b)代表平均点击距离、p(a，b)代表访问概率、a和b代表所述候选推荐网页集中的任意2个网页。

所述获得网页访问记录包括：获得Web访问日志。

所述目标网页标识具体是目标网页的网址，所述目标网页的跳转来源网页标识具体是所述跳转来源网页的网址。

一种网页推荐装置，所述装置包括：网页访问记录模块、网页跳转关系模块、网页推荐模块；

所述网页访问记录模块，用于获得网页访问记录；

所述网页跳转关系模块，用于根据所述网页访问记录模块获得的网页访问记录获得网页之间的跳转关系信息库；

所述网页推荐模块，用于当需要为用户进行网页推荐时，根据所述网页跳转关系模块获得的网页之间的跳转关系信息库为用户进行网页推荐。

所述网页访问记录模块获得的网页访问记录至少包括用户会话标识，目标网页标识以及所述目标网页的跳转来源网页标识，所述网页跳转关系模块包括：分类单元、建立单元、构建单元；

所述分类单元，用于基于所述用户会话标识对所述网页访问记录模块获得的网页访问记录进行分类；

所述建立单元，用于对拥有相同用户会话标识的网页访问记录，根据目标网页标识以及所述目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支，在所述跳转连通分支中，各网页以网页节点的形式存在；

所述构建单元，用于汇集各用户标识下对应的所述跳转连通分支，形成网页跳转关系信息库。

所述网页访问记录模块获得的网页访问记录还包括：从所述跳转来源网页跳转至目标网页的跳转时间；

所述分类单元还包括：排序子单元；

所述排序子单元，用于对拥有相同会话标识的网页访问记录按照所述跳转时间递增的顺序进行排序；

所述建立单元还包括：筛选子单元；

所述筛选子单元，用于在建立所述跳转连通分支的过程中，参考所述跳转时间对特定的网页跳转记录进行筛选。

所述构建单元包括：构成子单元、汇集子单元；

所述构成子单元，用于同一用户会话标识下的跳转连通分支构成同一用户会话中的网页跳转关系有向树；

所述汇集子单元，用于汇集所述各有向树构建代表网页跳转关系的点击树模型。

所述汇集子单元包括：汇集子单元1、汇集子单元2；

所述汇集子单元1，用于汇集所述各有向树构建网页跳转关系森林；

所述汇集子单元2，用于为所述汇集子单元1构建的网页跳转关系森林添加虚拟根节点，形成点击树模型。

所述装置还包括：优化模块；

所述优化模块用于根据快速检索需要，对所述网页跳转关系模块获得的网页跳转关系信息库进行优化。

所述优化模块包括：索引指针建立单元、链接指针添加单元；

所述索引指针建立单元，用于为所述点击树模型中的所有不同的节点建立索引指针，所述索引指针用于指向按照前序遍历方式遍历时和用户查询的当前网址相同的第一个节点；

所述链接指针添加单元，用于为所述点击树模型中的每一个节点添加一个链接指针，所述链接指针用于指向按照前序遍历方式遍历时和当前节点相同的后续最近的节点。

在所述跳转关系信息库中各网页以网页节点的形式存在，所述推荐模块包括：网页标识获得单元、网页节点查找单元、推荐网页候选集查找单元、推荐网页选取单元；

所述网页标识获得单元，用于获得用户当前访问的网页的第一网页标识；

所述网页节点查找单元，用于在所述跳转关系信息库中查找所述第一网页标识对应的至少一个第一网页节点；

所述推荐网页候选集查找单元，用于在所述跳转关系信息库中查找从所述第一网页节点经过至少一跳而跳转到的后续网页节点，所述查找到的后续网页节点构成所述第一网页的推荐网页候选集；

所述推荐网页选取单元，用于根据预置策略在所述推荐网页候选集中选取至少一个网页为所述用户进行推荐。

所述推荐网页选取单元包括：平均点击距离计算子单元、访问概率计算子单元、推荐子单元；

所述平均点击距离计算子单元，用于获得所述推荐网页候选集中的网页和当前访问网页之间的平均点击距离；

所述访问概率计算子单元，用于获得所述推荐网页候选集中的网页和当前访问网页之间的访问概率；

所述推荐子单元，用于根据所述平均点击距离计算子单元获得的网页和当前访问网页之间的平均点击距离、所述访问概率计算子单元获得的网页和当前访问网页之间的访问概率以及所述候选推荐网页集，为用户进行网页推荐。

所述推荐子单元包括：线性加权处理子单元、排序子单元、生成子单元；

所述线性加权处理子单元，用于对所述网页之间的平均点击距离以及访问概率进行线性加权处理，获得所述候选推荐网页集中的各网页的得分值；

所述排序子单元，用于将所述计算出的各网页得分值，根据由高到低的顺序进行排序；

所述生成子单元，用于根据所述得分值的排序结果，生成推荐网页。

本发明实施例提供的技术方案的有益效果是：通过对访问日志进行数据预处理，获得只包含对用户有用的内容项；对获得的对用户有用的内容项进行离线构建点击树模型；利用点击树模型生成候选推荐网页集，从中选择出满足实际需求的网页集合，用户可以较早地搜索到自己所需的网页，减少了冗余时间，提高了效率，满足了实际应用中的需要。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的一种网页推荐方法的流程图；

图2是本发明实施例1提供的一种网页推荐方法的示意图；

图3是本发明实施例2提供的一种网页推荐方法的详细流程图；

图4是本发明实施例2提供的点击树模型构建示意图；

图5是本发明实施例2提供的前端浏览器插件demo的截图；

图6是本发明实施例3提供的一种网页推荐装置的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了协助互联网用户更好地进行网络浏览，提出基于Web访问日志分析的网页推荐方法。该方法涉及到前端(即用户浏览器客户端)展现方式和后台(网页推荐服务器)推荐计算两个部分。前端通过开发浏览器插件，实时获取用户当前浏览的网页URL，将其发送至后台服务器，然后接收后台服务器计算出的推荐结果并在浏览器侧边栏中显示出来。对于推荐结果，用户可以查看摘要或点击浏览。后台服务器通过对互联网用户访问网页行为的宏观分析，过滤Web访问日志中可能存在的垃圾和噪音信息，将具有点击跳转关系的网页相关联，离线构建出点击树模型，在给定某用户已访问过的网页资源情况下，在线计算出访问概率高且点击距离较远的网页，生成推荐结果。具体内容描述如下：

1、互联网用户在浏览网页过程中，会在浏览器地址栏输入目标网页URL，或点击当前浏览网页中的超链接。这些操作都会使浏览器发出对新网页的请求。通过用户主动在浏览器上安装的工具条，这些操作将会被记录在Web访问日志中，日志数据反映了用户浏览网页的行为习惯；

2、依照Web访问日志中的网页跳转关系，将日志数据自动划分成大量的点击序列，每个点击序列称为一个会话，会话之间相对独立，会话内的网页具有点击跳转关系，每个会话都代表着一个用户在一段时期内的一个访问意图；

3、从用户的访问意图上看，同一个会话里的网页都有一个共同的主题。两个网页在所有会话中同时出现的频度越高，说明越多的用户认为它们具有相同的主题，越可能被同时访问。在给定网页a的条件下，通过计算网页b与网页a共同出现的频度以及一些全局信息，得到用户访问网页a之后将会访问网页b的概率；

4、从用户操作上来看，同一个会话中的网页，根据点击跳转关系，将构成一个树结构。树结构中的点表示该会话中的网页，树结构中的边表示点击跳转关系。当且仅当对应的网页有直接点击跳转关系，两个点在树中相邻。在给定网页a的条件下，通过计算网页b在某个树结构中与网页a的距离，得到它们在对应会话里的点击距离。通过计算网页b在所有会话中与网页a的点击距离，得到它们的平均点击距离。网页b与网页a的平均点击距离越大，表示用户从网页a访问到达网页b需要进行的点击跳转操作越多；

5、已知当前浏览的网页a，根据访问概率和平均点击距离两大因素，将所有候选网页进行排序，选取排名靠前的网页，这就构成了推荐结果。

6、通过开发前端浏览器插件，实现网页推荐的实际应用，浏览器插件负责输入和输出任务，即实时将用户当前浏览的网页URL发送至后台服务器，并将推荐结果显示出来，供用户点击浏览。

请参见下述实施例，对本方法作进一步的说明。

实施例1

本发明实施例提供了一种网页推荐的方法，参见图1，该方法包括：

步骤101：获得网页访问记录。

其中，网页访问记录可以是Web访问日志。网页访问记录至少包括：用户会话标识，目标网页标识以及所述目标网页的跳转来源网页标识。为了达到更好的效果，网页访问记录还可以包括从跳转来源网页跳转至目标网页的跳转时间，后续会对这种优选情况进行更详细的说明。

步骤102：根据网页访问记录获得网页之间的跳转关系信息库。

其中，根据网页访问记录获得网页之间的跳转关系信息库具体包括：

至少基于用户会话标识对网页访问记录进行分类；对拥有相同用户会话标识的网页访问记录，根据目标网页标识以及目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支，在跳转连通分支中，各网页以网页节点的形式存在。汇集各用户标识下对应的跳转连通分支，形成网页跳转关系信息库。

至少根据用户会话标识对网页访问记录进行分类还包括：对拥有相同会话标识的网页访问记录按照跳转时间递增的顺序进行排序；根据目标网页标识以及目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支还包括：在建立跳转连通分支的过程中，参考跳转时间对特定的网页跳转记录进行筛选。

汇集各用户标识下对应的跳转连通分支，形成网页跳转关系信息库包括：同一用户会话标识下的跳转连通分支构成同一用户会话中的网页跳转关系有向树；汇集各有向树构建代表网页跳转关系的点击树模型，点击树模型成为网页之间的跳转关系信息库。汇集各有向树构建代表网页跳转关系的点击树模型包括：汇集各有向树构建网页跳转关系森林；为构建的网页跳转关系森林添加虚拟根节点，形成点击树模型。

步骤103：当需要为用户进行网页推荐时，根据网页之间的跳转关系信息库为用户进行网页推荐。

其中，根据网页之间的跳转关系信息库为用户进行网页推荐具体包括：获得用户当前访问的网页的第一网页标识；在跳转关系信息库中查找第一网页标识对应的至少一个第一网页节点，第一网页节点的标识与第一网页标识相同；在跳转关系信息库中查找从第一网页节点经过至少一跳而跳转到的后续网页节点，查找到的后续网页节点构成第一网页的推荐网页候选集；

根据预置策略在推荐网页候选集中选取至少一个网页为用户进行推荐，具体包括：获得推荐网页候选集中的网页和当前访问网页之间的平均点击距离；获得推荐网页候选集中的网页和当前访问网页之间的访问概率；根据网页之间的平均点击距离、网页之间的访问概率以及候选推荐网页集，为用户进行网页推荐。

本发明实施例提供的方法，通过对访问日志进行数据预处理，获得网页访问记录，根据网页访问记录获得网页之间的跳转关系信息库，当需要为用户进行网页推荐时，根据网页之间的跳转关系信息库为用户进行网页推荐。用户可以在推荐网页集中查看摘要或点击浏览，较早地搜索到自己所需的网页，减少了冗余时间，提高了效率，提高了用户的使用体验，此方法的复杂度低，能支持在线实时计算，并在实验测试数据上取得较好性能，满足实际应用中的需要。

为了对上述本发明实施例提供的方法进行详细说明，请参见如下实施例：

实施例2

为了使用户能尽快地搜索到自己所需要的网页，减少冗余时间，提高处理效率，本发明实施例提供了一种网页推荐方法，具体内容如下：

参见图2，图2中给出了网页推荐的示意图，结合图2，对各个部分的主要工作方式进行详细的描述：

首先，对Web访问日志进行数据预处理，获得网页访问记录，详见下文描述：

数据预处理部分：网页推荐所依据的数据集合来自于互联网用户的Web访问日志，对于某个Web访问日志而言，它至少包括：SessionID、Dst URL、Src URL、还可以包括Time，参见表1，表1为供网页推荐的Web访问日志包括的内容，包括记录内容和记录位数两项内容，其中，记录的位数表明了SessionID、DstURL、Src URL、Time中的内容通过编码格式的转换，将统一的编码格式转换为字符串形式所占据的存储空间大小。

表1供网页推荐的Web访问日志包括的内容

具体为：SessionID表示用户会话标识符，用以区别不同用户的不同会话；Dst URL表示被访问的目标网页URL；Src URL表示目标网页的跳转来源URL，其中，null表示为空；Time表示用户访问目标网页的时间，即从跳转来源网页跳转至目标网页的时间。

其中，SessionID的位数为32位，即4个字节(32/8＝4)，给SessionID分配4个字节的存储空间；同理DstURL的位数为256位，即32个字节，给DstURL分配32个字节的存储空间；同理Src URL的位数为256位，即32个字节，给Src URL分配32个字节的存储空间；同理Time的位数为32位，即4个字节，给Time分配4个字节的存储空间。

然后，根据网页访问记录获得网页之间的跳转关系信息库，详见下文描述：

构建点击树模型部分：拥有相同SessionID的日志数据，并不一定都具有点击跳转关系，因为日志中SrcURL可以为null，表示用户并没有点击超链接，而是在地址栏进行了手工输入操作。此时可以认为用户浏览主题发生了偏移。为了确保推荐网页的相关性，需要对原始会话作进一步的划分。

为拥有相同SessionID的日志数据构建点击关系有向图G＝(V，E)。其中V代表访问目标网页集合，E表示点击跳转关系集合。构建方式具体为：

1、V＝{}，E＝{}

2、按访问时间顺序递增遍历每一条目(SessionID，DstURL，SrcURL，Time)，

if DstURL &NotElement; V, V = V \cup {DstURL};

if SrcURL≠null and SrcURL∈V and

E＝E∪{(SrcURL，DstURL)}

由于，有向图G是一个森林，用图论里的划分连通分支算法能将森林G切割成若干棵有向树。其中，划分连通分支算法具体为：对拥有相同用户会话标识的网页访问记录，根据目标网页网址以及目标网页的跳转来源网页网址建立代表网页跳转关系的跳转连通分支，在跳转连通分支中，各网页以网页节点的形式存在，汇集各用户标识下对应的跳转连通分支，形成网页跳转关系信息库。同一用户会话标识下的跳转连通分支构成同一用户会话中的网页跳转关系有向树；汇集各有向树构建代表网页跳转关系的点击树模型，点击树模型成为网页之间的跳转关系信息库。汇集各有向树构建代表网页跳转关系的点击树模型包括：汇集各有向树构建网页跳转关系森林；为构建的网页跳转关系森林添加虚拟根节点，形成点击树模型。

其中，具体为：对每一个拥有相同SessionID的日志数据集合都利用划分连通分支算法对日志数据集合进行划分，这样所有日志数据将被划分成大量的有向树。此时每一棵有向树对应着一个相对独立的最终会话(区别于从Web访问日志直接得到的原始会话，以后会话就是指最终会话)，树的数目就是最终会话的数目。以树中任一节点a为根的子树，对应着用户在同一会话中访问完a之后所访问的所有网页集合，全部有向树构成了一个森林，在对这个森林添加一个虚拟的根节点，就构成了点击树模型。

最后，根据网页之间的跳转关系信息库为用户进行网页推荐，其中，当运算的数据量不大时，可以采用离线的方式生成推荐网页，在实际应用中，一般数据量会较大，全部计算完需要很久，只能在线的计算，本发明实施例优选在线生成推荐网页，具体实现方式，本发明实施例对此不作限制。详见下文描述：

1、在线计算平均点击距离部分：用户访问完网页a之后访问网页b，网页a与网页b在某一会话里的点击距离定义为在该会话对应的点击树的子树中，网页a与网页b对应节点的距离。假设共有n(a，b)个会话同时出现了网页a和网页b，其中，n代表会话的个数，对应的点击距离为d₁、d₂...d_n(a，b)，则平均点击距离

2、在线计算访问概率部分：网页b对网页a的访问概率p(a，b)定义为：用户访问完网页a之后将会访问网页b的概率，即p(a，b)＝log(N/n(b))×n(a，b)，其中N是所有会话的总数，n(b)为出现了网页b的会话个数，n(a，b)为同时出现了网页a和网页b的会话个数。

其中，该访问概率公式借鉴了信息检索中tf-idf公式的思想，能有效地去除网页b的背景噪音，所谓的背景噪音指的是用户经常点击的网页，浏览率较高的网页，对于用户而言，当输入一个点击率低的网页的URL时，这个网页一定是用户所需要的，而浏览率较高的网页不一定是用户所真正需要的，这时可以利用上述公式，去除掉经常点击的网页，推荐点击率低的网页，满足用户的真正需求。

根据平均点击距离、访问概率，得到线性加权公式，其中，

线性加权公式v(a，b)＝λ×d(a，b)+(1-λ)×p(a，b)，其中v代表得分值，λ为融合参数，λ的取值范围为0≤λ≤1，实际应用中可根据需要对λ的取值范围进行调整，本发明实施例对此不作限制。

其中，根据线性加权公式得到的得分值，对得到的得分值进行由高到低的排序，根据实际应用中的需要，选择排名前面的一个或多个网页，生成推荐网页集合。

下面结合图2中的网页推荐的示意图，对本发明实施例提供的方法进行说明，参见图3，具体过程如下：

步骤201：进行Web访问日志编码转换，将服务器记录的编码格式转换成统一的编码格式。

其中，优选地，服务器所记录的编码格式为URI格式，统一的编码格式为国家标准汉字编码的GBK格式，本发明实施例以URI格式、GBK格式进行说明，具体实现时，本发明实施例对此不作限制。

步骤202：去除SessionID、Dst URL、Src URL、Time以外的信息，利用步骤201中统一的编码格式，将SessionID、Dst URL、Src URL、Time转化成字符串形式。

其中，在用户日志里可能包括多种内容，例如：URL中出现的title、对网页进行说明的信息等。按照表1中罗列出的内容，将SessionID、Dst URL、SrcURL、Time以外的内容去除掉，利用步骤201中统一的编码格式，将SessionID、Dst URL、Src URL、Time转化成字符串形式，按照分配的存储空间存储到计算机的硬盘中。

其中，Web访问日志中还会包括IP信息，在某些特定的情况下，有可能存在同一个Session ID对应有不同IP的情况，例如Session ID为111，可能对应的IP地址分别为192.168.30.148和192.168.30.149。同样地，在某些特定的情况下，也可能存在拥有同一个IP的记录对应着不同的Session ID，例如IP地址为192.168.30.148，可能对应的Session ID分别为111和112。当出现上述这两种情况时，这些访问记录将被认为不是同一个会话，这些记录的信息需要Session ID和IP共同确定，因此，需要将原有的IP和Session ID联合起来构成新的Session ID，形成新的区分标准，判断Session ID和IP是否都相同，即只有在Session ID和IP都相同时，才认为在同一个主题下，是同一个会话。

步骤203：通过字符串匹配技术将步骤202中的字符串形式进行过滤，获得网页访问记录。

其中，主要过滤掉目标URL和来源URL的噪声信息，包括违禁的网页和垃圾网页等。

步骤204：对步骤203中获得的网页访问记录进行排序。

将所有网页访问记录按SessionID递增的顺序进行排序，将相同的SessionID的条目放在一起，例如，参见图4，其中，图4中共有8组数据，按照SessionID的分类，将这8组数据分成2组，分别为SessionID A0000000、SessionID B0000000。

其中，在实际应用中，由于Web访问日志常常涉及整个互联网，因此，日志信息的数据量巨大，需使用外部排序算法对日志数据进行排序，例如采用C语言中的字符串排序法。当完成排序之后，若具有相同SessionID的日志数据有多个，再按访问时间递增的顺序对具有相同SessionID的日志数据进行排序。步骤205：拥有相同的SessionID的日志划分连通分支，形成有向树，所有有向树、就构建成了一个森林。

例如：参见图4，图4中，A、B、C、D是1个有向树；同理，F、G是1个有向树；同理，C、F、D、B、G是1个有向树，即，图4中有3个有向树，这3个有向树就构成了森林。

其中，根据访问时间可以对特定的网页跳转记录进行筛选，具体可以为将先前访问过的网页跳转记录筛选掉，例如：参见图4，当8:10:05时，从A节点跳转到C节点，8:16:34时，从C节点跳转到D节点，假如8点20时又从A节点跳转到C节点，这时，，因在树形结构中在8:10:05时经已经建立了A节点到C节点这一跳转关系，根据访问时间故可将8点20时A节点到C节点的跳转记录筛掉。

步骤206：根据构建的森林，添加虚拟根节点，构建点击树模型。

参见图4，往步骤205中构建的森林中添加一个虚拟根节点root，将所有有向树的根作为其子节点，这样森林就变成了一棵树，称为点击树模型(T)。

其中，优选地，可以添加链接和索引信息对点击树模型(T)进行优化，来加快访问概率和点击距离的计算速度，使其加快了快速的检索，具体实现时，本发明实施例对此不作限制。

对点击树模型(T)进行优化，主要包括以下两点，具体为：

一、为点击树模型(T)中的所有不同的节点建立索引指针。

其中，每一个节点的索引指针，指针指向按前序遍历方式遍历点击树模型(T)时和用户查询的当前网址相同的第一个节点；例如，参见图4，点击树模型中有两个C节点，即当用户浏览的当前网页和C节点的网址相同时，索引指针指向了左支树中的C节点。

二、为点击树模型(T)中的每一个节点增加一个链接指针。

其中，链接指针指向按前序遍历方式遍历时且和当前节点相同的后续最近的节点。

例如，参见图4，找节点F的下一个链接节点，按照前序遍历的方式，中间树中节点F的后续最近的节点F位于右树中，即，在中间树节点F处增加一个链接指针，就可以直接连接到右树中的节点F，若一个点击树模型(T)中有10个F，就可以增加9个链接指针，将这10个节点F链接在一起，加快了执行速度。例如：给定用户当前浏览的网页，记为a，可以通过索引指针直接定位到点击树模型(T)中的包含a的第一个节点，对应着a在第一个会话中的位置。访问以a为根的子树，就能得到对应会话中a的后续点击网页。处理完该会话之后，可以通过“链接指针”直接定位到下一个包含有a的会话，不需要其他冗余操作，加快了执行的速度。其中，当点击树模型中没有相同的节点，则对该节点添加的链接指针指向的内容为空。

步骤207：根据步骤206构建的点击树模型(T)，生成候选推荐网页集。

假设当前浏览的网页为a，其对应的生成候选推荐网页集的方式是：找出点击树模型(T)中每一个包含a的节点，假设共有n(a)个，其中，n代表节点的个数，记为r₁、r₂...r_n(a)，以这些节点为根节点，它们的子树记为R₁、R₂...R_n(a)，子树的集合R＝R₁∪R₂...∪R_n(a)，即为推荐网页的候选集。例如：共有3个包含a的节点，分别记为r₁、r₂、r₃，其中，r₁的子树为R₁、R₂，r₂的子树为R₃，r₃的子树为R₄、R₅，则，子树的集合R＝R₁∪R₂∪R₃∪R₄∪R₅。

步骤208：计算平均点击距离。

根据平均点击距离公式，对步骤207中生成的候选推荐网页集中的每一个网页，都计算出相对当前浏览网页a的平均点击距离d(a，b)。

例如：共有会话1、会话2、会话3，3个会话同时出现了网页a和网页b，会话1中网页a与网页b对应节点的距离为d₁、会话2中网页a与网页b对应节点的距离为d₂、会话3中网页a与网页b对应节点的距离为d₃，则，平均点击距离

d (a, b) = Σ_{i = 1}^{3} d_{i} / 3 = (d_{1} + d_{2} + d_{3}) / 3 .

步骤209：计算网页b对网页a的访问概率p(a，b)。

其中，利用访问概率p(a，b)的计算公式对步骤207中生成的候选推荐网页集中的每一个网页，都计算出相对当前浏览网页a的访问概率。

例如：所有会话的总数是10，出现网页b的会话个数是5，同时出现了网页a和网页b的n(a，b)的会话个数是3，则，网页b对网页a的访问概率

p (a, b) = \log (\frac{10}{5}) \times 3 = 3 \log (2)

步骤210：根据线性加权公式、步骤208中获得的平均点击距离以及步骤209中获得的访问概率，对候选集合中的每一个网页，都计算出得分v值。

将平均点击距离d(a，b)、访问概率p(a，b)带入到线性加权公式中，其中，从该公式可以看出，当λ一定时，p(a，b)一定时，v(a，b)随着d(a，b)的增大而增大；同理，当λ一定时，d(a，b)一定时，v(a，b)随着p(a，b)的增大而增大。

步骤211：将步骤210中计算出的得分v值，按照由高到低的顺序进行排序。

步骤212：根据预置策略，按步骤211中得分v值的排序结果，选出至少一个网页，生成推荐网页集合。

其中，选择网页的个数所依据的选择标准按照实际应用中的需求来决定，可以根据预先的设定，选取一个或多个网页，生成推荐网页集合，本发明实施例对此不作限制。例如：候选网页的个数为10个，实际应用中只需要前5个网页，即k＝5，则，将前5个网页生成推荐网页集合。

下面以Sogou公司(http://www.sogou.com/)提供的面向全网的Web访问日志为例，就以上方法进行详细说明：

本发明实施例所使用的日志包括了在2008年12月19日至2008年12月25日的7天时间内面向互联网的Web访问日志。在7天时间内，用户浏览的不同的URL约有2.28亿个，点击跳转次数约有6.60亿次，计算机硬盘的存储规模约为140G。其中，日志中包括的信息参见表2，表2中给出了Web访问日志包含的信息项。

表2：Web访问日志包含的信息项

在数据预处理中，对Web访问日志进行了数据预处理，主要包括：对原始Web访问日志进行统一编码(将日志中记录的UTF-8编码，统一转换为GBK的编码格式)，去除掉SessionID、Dst URL、Src URL、Time以外的信息，将上述日志转换成字符串的形式，利用字符串匹配技术过滤掉无用的信息(仅保留网页推荐各步骤所需的信息项)和违禁条目。

对于上述步骤生成的网页访问记录，按SessionID对日志数据进行由高到低排序，然后构建点击树。具体为：以网页为点，跳转关系为边，具有相同SessionID的条目集合将构成一个图。对每个图划分连通分支，每个连通分支将是一棵树，这样所有日志数据将被划分成大量的有向树。最后添加一个虚拟根节点，指向所有有向树的根。为其中，还可以对点击树的每个节点增加链接指针和索引指针。构建完毕的点击树存储规模约为19G，即存储规模比较小，参见图4，图4是构建点击树的方法示例。

利用上述步骤构建的点击树，后台服务器可以针对当前用户浏览的网页高效计算出其他网页的平均点击距离和访问概率，从而根据线性加权公式生成推荐列表，返回给前端。参见图5，图5是前端浏览器插件对推荐结果的展示。从图5中的左侧栏中可以获得当前网页推荐的结果，即卡巴斯基反病毒软件20098.0.0.506简体中文版下载排名最高，有需要的用户可以直接点击进入该网站，无需进行网页搜索。

综上所述，本发明实施例提供的一种网页推荐方法，通过对访问日志进行数据预处理，获得网页访问记录，根据网页访问记录获得网页之间的跳转关系信息库，当需要为用户进行网页推荐时，根据网页之间的跳转关系信息库为用户进行网页推荐。用户可以在推荐网页集中查看摘要或点击浏览，较早地搜索到自己所需的网页，减少了冗余时间，提高了效率，提高了用户的使用体验，此方法的复杂度低，能支持在线实时计算，并在实验测试数据上取得了较好的性能，满足了实际应用中的需要。

实施例3

参加图6，本发明实施例还提供了一种网页推荐装置，该装置包括：网页访问记录模块301、网页跳转关系模块302、推荐模块303；

网页访问记录模块301，用于获得网页访问记录；

网页跳转关系模块302，用于根据网页访问记录模块301获得的网页访问记录获得网页之间的跳转关系信息库；

推荐模块303，用于当需要为用户进行网页推荐时，根据网页跳转关系模块302获得的网页之间的跳转关系信息库为用户进行网页推荐。

其中，网页访问记录模块301获得的网页访问记录至少包括用户会话标识，目标网页标识以及目标网页的跳转来源网页标识；

网页访问记录模块301获得的网页访问记录还包括：从跳转来源网页跳转至目标网页的跳转时间；

网页跳转关系模块302包括：分类单元302A、建立单元302B、构建单元302C；

其中，分类单元302A，用于基于用户会话标识对网页访问记录模块301获得的网页访问记录进行分类；

建立单元302B，用于对拥有相同用户会话标识的网页访问记录，根据目标网页标识以及目标网页的跳转来源网页标识建立代表网页跳转关系的跳转连通分支，在跳转连通分支中，各网页以网页节点的形式存在；

构建单元302C，用于汇集各用户标识下对应的跳转连通分支，形成网页跳转关系信息库。

其中，分类单元302A还包括：排序子单元；

排序子单元，用于对拥有相同会话标识的网页访问记录按照跳转时间递增的顺序进行排序；

建立单元302B还包括：筛选子单元；

筛选子单元，用于在建立跳转连通分支的过程中，参考跳转时间对特定的网页跳转记录进行筛选。

其中，构建单元302C包括：构成子单元、汇集子单元；

构成子单元，用于同一用户会话标识下的跳转连通分支构成同一用户会话中的网页跳转关系有向树；

汇集子单元，用于汇集各有向树构建代表网页跳转关系的点击树模型。

汇集子单元包括：汇集子单元1、汇集子单元2；

汇集子单元1，用于汇集各有向树构建网页跳转关系森林；

汇集子单元2，用于为汇集子单元1构建的网页跳转关系森林添加虚拟根节点，形成点击树模型。

其中，该装置还包括：优化模块；

优化模块，用于根据快速检索需要，对网页跳转关系模块302获得的网页跳转关系信息库进行优化。

优化模块包括：索引指针建立单元、链接指针添加单元；

索引指针建立单元，用于为点击树模型中的所有不同的节点建立索引指针；

链接指针添加单元，用于为点击树模型中的每一个节点添加一个链接指针；

其中，索引指针用于指向按照前序遍历方式遍历时和用户查询的当前网址相同的第一个节点；

链接指针用于指向按照前序遍历方式遍历时和当前节点相同的后续最近的节点。

推荐模块303包括：网页标识获得单元303A、网页节点查找单元303B、推荐网页候选集查找单元303C、选取单元303D；

网页标识获得单元303A，用于获得用户当前访问的网页的第一网页标识；

网页节点查找单元303B，用于在跳转关系信息库中查找第一网页标识对应的至少一个第一网页节点；

推荐网页候选集查找单元303C，用于在跳转关系信息库中查找从第一网页节点经过至少一跳而跳转到的后续网页节点，查找到的后续网页节点构成第一网页的推荐网页候选集；

选取单元303D，用于根据预置策略在推荐网页候选集中选取至少一个网页为用户进行推荐。

选取单元303D包括：平均点击距离计算子单元、访问概率计算子单元、推荐子单元；

平均点击距离计算子单元，用于获得推荐网页候选集中的网页和当前访问网页之间的平均点击距离；

访问概率计算子单元，用于获得推荐网页候选集中的网页和当前访问网页之间的访问概率；

推荐子单元，用于根据平均点击距离计算子单元获得的的网页之间的平均点击距离、访问概率计算子单元获得的网页之间的访问概率以及候选推荐网页集，为用户进行网页推荐。

推荐子单元包括：线性加权处理子单元、排序子单元、生成子单元；

线性加权处理子单元，用于对网页之间的平均点击距离以及访问概率进行线性加权处理，获得候选推荐网页集中的各网页的得分值；

排序子单元，用于将计算出的各网页得分值，根据由高到低的顺序进行排序；

生成子单元，用于根据得分值的排序结果，生成推荐网页。

综上所述，本发明实施例提供的一种网页推荐装置，通过对访问日志进行数据预处理，获得网页访问记录，根据网页访问记录获得网页之间的跳转关系信息库，当需要为用户进行网页推荐时，根据网页之间的跳转关系信息库为用户进行网页推荐。用户可以在推荐网页集中查看摘要或点击浏览，较早地搜索到自己所需的网页，减少了冗余时间，提高了效率，提高了用户的使用体验，此方法的复杂度低，能支持在线实时计算，并在实验测试数据上取得了较好的性能，满足了实际应用中的需要。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页推荐方法，其特征在于，所述方法包括：

获得网页访问记录；

根据网页访问记录获得网页之间的跳转关系信息库；

2.根据权利要求1所述的方法，其特征在于，所述网页访问记录至少包括用户会话标识，目标网页标识以及所述目标网页的跳转来源网页标识，根据网页访问记录获得网页之间的跳转关系信息包括：

至少基于所述用户会话标识对所述网页访问记录进行分类；

3.根据权利要求2所述的方法，其特征在于，所述网页访问记录还包括：从所述跳转来源网页跳转至目标网页的跳转时间；

4.根据权利要求2所述的方法，其特征在于，所述汇集各用户标识下对应的所述跳转连通分支，形成网页跳转关系信息库包括：

5.根据权利要求4所述的方法，其特征在于，所述汇集各有向树构建代表网页跳转关系的点击树模型包括：

汇集所述各有向树构建网页跳转关系森林；

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：根据快速检索需要，对所述网页跳转关系信息库进行优化。

7.根据权利要求6所述的方法，其特征在于，所述根据快速检索需求，对所述网页跳转关系信息库进行优化包括：

8.根据权利要求1所述的方法，其特征在于，在所述跳转关系信息库中各网页以网页节点的形式存在，所述根据所述网页之间的跳转关系信息库为用户进行网页推荐包括：

获得用户当前访问的网页的第一网页标识；

9.根据权利要求8所述的方法，其特征在于，根据预置策略在所述推荐网页候选集中选取至少一个网页为所述用户进行推荐包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述网页之间的平均点击距离、所述网页之间的访问概率以及所述候选推荐网页集，为用户进行网页推荐包括：

根据所述得分值的排序结果，生成推荐网页。

11.根据权利要求10所述的方法，其特征在于，所述对所述网页之间的平均点击距离以及访问概率进行线性加权处理，获得所述候选推荐网页集中的各网页的得分值包括：

12.根据权利要求11所述的方法，其特征在于，所述网页之间的平均点击距离是通过平均点击距离公式获得，所述平均点击距离公式包括：

平均点击距离其中，n(a，b)为同时出现了网页a和网页b的会话个数，d代表两个网页之间的点击距离，a和b代表所述候选推荐网页集中的任意2个网页；

13.根据权利要求1至12中任意一项所述的方法，其特征在于，所述获得网页访问记录包括：获得Web访问日志。

14.根据权利要求3至7中任一项所述的方法，其特征在于，所述目标网页标识具体是目标网页的网址，所述目标网页的跳转来源网页标识具体是所述跳转来源网页的网址。

15.一种网页推荐装置，其特征在于，所述装置包括：网页访问记录模块、网页跳转关系模块、网页推荐模块；

所述网页访问记录模块，用于获得网页访问记录；

16.根据权利要求15所述的装置，其特征在于，所述网页访问记录模块获得的网页访问记录至少包括用户会话标识，目标网页标识以及所述目标网页的跳转来源网页标识，所述网页跳转关系模块包括：分类单元、建立单元、构建单元；

17.根据权利要求16所述的装置，其特征在于，所述网页访问记录模块获得的网页访问记录还包括：从所述跳转来源网页跳转至目标网页的跳转时间；

所述分类单元还包括：排序子单元；

所述建立单元还包括：筛选子单元；

18.根据权利要求16所述的装置，其特征在于，所述构建单元包括：构成子单元、汇集子单元；

19.根据权利要求18所述的装置，其特征在于，所述汇集子单元包括：汇集子单元1、汇集子单元2；

20.根据权利要求16所述的装置，其特征在于，所述装置还包括：优化模块；

21.根据权利要求20所述的装置，其特征在于，所述优化模块包括：索引指针建立单元、链接指针添加单元；

22.根据权利要求15至21中任一项所述的装置，其特征在于，在所述跳转关系信息库中各网页以网页节点的形式存在，所述推荐模块包括：网页标识获得单元、网页节点查找单元、推荐网页候选集查找单元、推荐网页选取单元；

23.根据权利要求22所述的装置，其特征在于，所述推荐网页选取单元包括：平均点击距离计算子单元、访问概率计算子单元、推荐子单元；

24.根据权利要求23所述的装置，其特征在于，所述推荐子单元包括：线性加权处理子单元、排序子单元、生成子单元；