CN104077288A

CN104077288A - 网页内容推荐方法和网页内容推荐设备

Info

Publication number: CN104077288A
Application number: CN201310100347.9A
Authority: CN
Inventors: 杨华; 邹纲; 张军; 松尾昭彦
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-03-26
Filing date: 2013-03-26
Publication date: 2014-10-01
Anticipated expiration: 2033-03-26
Also published as: CN104077288B

Abstract

公开了一种网页内容推荐方法和设备，该方法包括：推荐网页确定步骤，基于当前用户访问的当前网页，从预定数据库存储的多个候选网页中确定要推荐给当前用户的推荐网页；网页类型判断步骤，根据预定数据库判断推荐网页的类型，并确定用于从推荐网页提取网页内容的内容提取规则；网页内容提取步骤，如果推荐网页的类型是基于内容的网页，则直接利用所确定的内容提取规则提取推荐网页的网页内容，而如果推荐网页的类型是基于查询的网页，则识别当前网页中包含的查询词，利用所识别的查询词在推荐网页中进行查询以得到查询结果页，然后利用所确定的内容提取规则来提取查询结果页的网页内容；以及网页内容推荐步骤，将所提取的网页内容推荐给当前用户。

Description

网页内容推荐方法和网页内容推荐设备

技术领域

本技术涉及信息处理领域，并且具体地，涉及一种能够基于用户当前访问的网页向用户推荐期望的网页内容的网页内容推荐方法和网页内容推荐设备。

背景技术

近年来，用于根据用户当前访问的网页向用户推荐其接下来可能访问的网页的网页推荐技术已得到了广泛应用，诸如情景应用（SA）等。所推荐的网页根据其特性可以被分为两类：基于内容的网页，即网页本身的内容即是用户所需内容的网页，诸如企业内部的考勤系统中的刷卡时间网页、输入请假单网页等；以及基于查询的网页，即需要用户输入查询词后返回的查询结果页的内容才是用户所需内容的网页，如谷歌、天气预报等。然而，根据传统的网页推荐方法，对于基于内容的网页，该方法能够向用户推荐该网页的内容，而对于基于查询的网页，该方法仅能够将该网页本身推荐给用户，并且需要用户自己输入查询词以获取期望的信息。因此，在采用传统的网页推荐方法的情况下，对于基于查询的网页，如果用户想要得到期望的信息，还需要用户手动输入查询词进行查询，从而浪费了用户的时间且给用户带来了不便，此外，所查询到的信息本身有可能会导致用户偏离主题。

发明内容

在下文中给出了关于本技术的简要概述，以便提供关于本技术的某些方面的基本理解。但是，应当理解，这个概述并不是关于本技术的穷举性概述。它并不是意图用来确定本技术的关键性部分或重要部分，也不是意图用来限定本技术的范围。其目的仅仅是以简化的形式给出关于本技术的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于上述情形，因此本技术的目的是提供一种网页内容推荐方法和网页内容推荐设备，其能够基于用户当前访问的网页确定要推荐给该用户的网页，并且对于作为基于内容的网页的推荐网页，能够利用预定的内容提取规则提取该网页的内容并推荐给用户，而对于作为基于查询的网页的推荐网页，能够自动识别当前网页内容中包含的查询词，利用该查询词在推荐网页中进行查询以得到返回的查询结果页，然后利用预定的内容提取规则提取查询结果页的内容并推荐给用户。

根据本技术的一方面，提供了一种网页内容推荐方法，该方法可以包括：推荐网页确定步骤，基于当前用户访问的当前网页，从预定数据库中存储的多个候选网页中确定要推荐给当前用户的推荐网页；网页类型判断步骤，根据预定数据库判断推荐网页的类型，并确定用于从推荐网页提取网页内容的内容提取规则；网页内容提取步骤，如果推荐网页的类型是基于内容的网页，则直接利用所确定的内容提取规则提取推荐网页的网页内容，而如果推荐网页的类型是基于查询的网页，则识别当前网页中包含的查询词，利用所识别的查询词在推荐网页中进行查询以得到查询结果页，然后利用所确定的内容提取规则来提取查询结果页的网页内容；以及网页内容推荐步骤，将所提取的网页内容推荐给当前用户。

根据本技术的优选实施例，推荐网页确定步骤可以进一步包括：在前网页集合确定子步骤，对于候选网页中的每个候选网页，基于所有用户的网页访问历史，将所有访问过该候选网页的用户在紧挨该候选网页之前所访问的预定数量的在前网页的集合确定为关于该候选网页的在前网页集合；相似度计算子步骤，计算当前网页与每个在前网页集合之间的相似度；第一访问概率确定子步骤，基于相似度，确定在当前网页之后访问每个候选网页的第一访问概率；以及推荐网页选择子步骤，基于第一访问概率，从候选网页中选择推荐网页。

根据本技术的另一优选实施例，推荐网页确定步骤可以进一步包括：网页序列统计子步骤，基于所有用户的网页访问历史，统计在预定时段内由各个数量的连续访问网页构成的各个网页序列的出现次数；以及第二访问概率确定子步骤，基于所统计的各个网页序列的出现次数，确定在当前网页之后访问每个候选网页的第二访问概率。优选地，在推荐网页选择子步骤中，还可以基于第二访问概率来选择推荐网页。

根据本技术的又一优选实施例，如果推荐网页的类型是基于查询的网页，则网页内容提取步骤可以进一步包括：规则确定子步骤，基于当前网页和推荐网页，在预定规则库中确定与当前网页和推荐网页对应的规则；查询词识别子步骤，根据所确定的规则中包括的查询词出现位置，从当前网页中识别查询词；查询结果页获取子步骤，根据所确定的规则中包括的查询词与网址之间的转换规则，将所识别的查询词转换为相应的网址从而获得查询结果页；以及查询结果页内容提取子步骤，利用所确定的内容提取规则提取查询结果页的内容。

根据本技术的再一优选实施例，预定规则库可以通过以下步骤进行训练得到：转换规则确定步骤，针对所有用户的网页访问历史中的每个基于查询的网页，对利用查询词在该基于查询的网页中进行查询所得到的查询结果页进行统计，以确定查询词与查询结果页的网址之间的转换规则；以及查询词出现位置确定步骤，针对每个基于查询的网页，根据关于该基于查询的网页的查询词，对所述网页访问历史中的各个网页进行统计，以确定该网页的查询词出现位置。

根据本技术的另一方面，还提供了一种网页内容推荐设备，其可以包括：推荐网页确定单元，被配置成基于当前用户访问的当前网页，从预定数据库中存储的多个候选网页中确定要推荐给当前用户的推荐网页；网页类型判断单元，被配置成根据预定数据库判断推荐网页的类型，并确定用于从推荐网页提取网页内容的内容提取规则；网页内容提取单元，被配置成如果推荐网页的类型是基于内容的网页，则直接利用所确定的内容提取规则提取推荐网页的网页内容，而如果推荐网页的类型是基于查询的网页，则识别当前网页中包含的查询词，利用所识别的查询词在推荐网页中进行查询以得到查询结果页，然后利用所确定的内容提取规则来提取查询结果页的网页内容；以及网页内容推荐单元，被配置成将所提取的网页内容推荐给当前用户。

根据本技术的又一方面，还提供了一种存储介质，该存储介质包括机器可读的程序代码，当在信息处理设备上执行程序代码时，该程序代码使得信息处理设备执行根据本技术的网页内容推荐方法。

此外，根据本技术的再一方面，还提供了一种程序产品，该程序产品包括机器可执行的指令，当在信息处理设备上执行指令时，该指令使得信息处理设备执行根据本技术的网页内容推荐方法。

因此，根据本技术的实施例，根据用户当前访问的网页，基于网页访问历史和网页内容之间的相似度两者来确定要推荐给该用户的网页，从而提高了推荐网页与用户的偏好的匹配度。此外，对于基于内容的网页以及基于查询的网页，均能够自动地提取这些网页中所包括的用户所需内容并将所提取的内容推荐给用户，从而为用户带来了便利性。

在下面的说明书部分中给出本技术实施例的其它方面，其中，详细说明用于充分地公开本技术实施例的优选实施例，而不对其施加限定。

附图说明

本技术可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本技术的优选实施例和解释本技术的原理和优点。其中：

图1是示出根据本技术的实施例的网页内容推荐方法的示例的流程图；

图2是示出图1所示的推荐网页确定步骤中的详细处理示例的流程图；

图3是示出图1所示的网页内容提取步骤中的详细处理示例的流程图；

图4是示出根据本技术的实施例的预定规则库的训练过程的流程图；

图5是示出根据本技术的实施例的网页内容推荐设备的功能配置示例的框图；

图6是示出图5所示的推荐网页确定单元的详细功能配置的示例的框图；

图7是示出图5所示的网页内容提取单元的详细功能配置的示例的框图；以及

图8是示出作为本技术的实施例中所采用的信息处理设备的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本技术的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本技术，在附图中仅仅示出了与根据本技术的方案密切相关的设备结构和/或处理步骤，而省略了与本技术关系不大的其它细节。

以下将参照图1至图8来描述根据本技术的实施例的网页内容推荐方法和网页内容推荐设备。

首先，将参照图1来描述根据本技术的实施例的网页内容推荐方法的示例处理流程。

如图1所示，根据本技术的网页内容推荐方法可以包括推荐网页确定步骤S110、网页类型判断步骤S120、网页内容提取步骤S130和网页内容推荐步骤S140。以下将分别详细描述各个步骤中的处理。

首先，在推荐网页确定步骤S110中，可以基于当前用户访问的当前网页，从预定数据库中存储的多个候选网页中确定要推荐给当前用户的推荐网页。该数据库是通过对网页访问历史进行统计而预先确定的，并且可用于判断网页的类型以及确定适合于各个网页的内容提取规则。

以下将参照图2详细描述推荐网页确定步骤S110中的处理流程示例。

如图2所示，推荐网页确定步骤S110可以包括在前网页确定子步骤S210、相似度计算子步骤S220、第一访问概率确定子步骤S230和推荐网页选择子步骤S240。优选地，推荐网页确定步骤S110还可以包括网页序列统计子步骤S250和第二访问概率确定子步骤S260。以下将详细描述各个步骤中的处理。

在在前网页确定子步骤S210中，对于候选网页中的每个候选网页，基于所有用户的网页访问历史，将所有访问过该候选网页的用户在紧挨该候选网页之前所访问的预定数量的在前网页的集合确定为关于该候选网页的在前网页集合。

具体地，在在前网页集合确定子步骤S210中，假设预定数据库中存在M个候选网页C₁至C_M，则对于其中任意一个候选网页C_i（1≦i≦M，i为整数），根据所有用户的网页访问历史，将所有访问过网页C_i的用户在紧挨候选网页C_i之前所访问的预定数量（在本实施例中例如为两个）的在前网页的集合确定为关于候选网页C_i的在前网页集合V_i。作为示例，用户的网页访问历史例如可以由浏览器插件从各个用户终端来获取，该历史信息可以包括例如用户访问过的网页的网址、访问时间、IP地址等等，并且该历史信息可以被保存为例如json格式。

应理解，尽管在本技术中采用各个用户紧挨在某一网页之前所访问的两个网页的集合作为在前网页集合，但是这仅是示例而非限制，并且本领域技术人员可以根据实际需要而选择任意数量的网页作为在前网页集合。

接下来，在相似度计算子步骤S220中，计算当前网页与每个在前网页集合之间的相似度。

具体地，假设当前网页为W_c，则在相似度计算子步骤S220中，计算当前网页W_c与在步骤S210中所确定的每个在前网页集合V_i之间的相似度S_c|i。

优选地，作为示例，这里采用基于中心向量的算法来计算当前网页W_c与在前网页集合V_i之间的相似度。具体来说，首先，采用例如TF-IDF（词频-反文档频率）方法将所有网页均表示为向量形式，然后计算每个在前网页集合V_i中的所有网页的中心向量（即，所有网页的平均向量），并且计算表示当前网页的向量与该中心向量之间的余弦距离作为当前网页W_c与在前网页集合V_i之间的相似度S_c|i。该基于中心向量的算法是本领域公知的，在此不再赘述。

应理解，以上介绍的相似度计算方法仅是示例而非限制，并且本领域技术人员可以采用本领域公知的任何方法来计算网页文本之间的相似度。

接下来，在第一访问概率确定子步骤S230中，基于在步骤S220中所确定的相似度，确定在当前网页之后访问每个候选网页的第一访问概率。

应理解，当前网页W_c与在前网页集合V_i之间的相似度S_c|i越大，则在当前网页之后访问候选网页C_i的概率越大。基于该理解，优选地，在步骤S230中，根据在步骤S220中确定的相似度来确定在当前网页之后访问每个候选网页C_i的第一访问概率P_1i，以使得使P_1i与S_c|i成正比。

然后，在推荐网页选择子步骤S240中，可以基于在步骤S230中所确定的第一访问概率，从候选网页当中选择推荐网页。

优选地，可以选择第一访问概率大于预定阈值的候选网页作为推荐网页，或者可以按照第一访问概率的降序，选择排序靠前的预定数量的候选网页作为推荐网页。

在上述推荐网页确定处理中，仅考虑了网页之间的相似度，优选地，还可以同时考虑用户的网页访问历史。以下将详细描述在考虑了用户的网页访问历史的情况下确定推荐网页的处理。

参照图2，在网页序列统计子步骤S250中，基于所获得的所有用户的网页访问历史，统计在预定时段内由各个数量的连续访问网页构成的各个网页序列的出现次数。

具体地，例如，根据所有用户在每天的7：00至22：00之间的网页访问历史记录，统计在该时段内的单个网页的出现次数，如{{A:100},{B:45},…}，然后统计任意两个网页连续出现的次数，如{{AB:45},{AC:20},…}，并依次统计任意三个、四个等数量的网页连续出现的次数，其中A、B、C分别代表用户所访问的网页。

接下来，在第二访问概率确定子步骤S260中，基于在步骤S250中所统计的各个网页序列的出现次数，确定在当前网页之后访问每个候选网页的第二访问概率。

具体地，假设T_{i-1,i}为用户在访问完网页序列{i-1}之后访问候选网页C_i的次数，T_i-1为网页序列{i-1}被访问的次数，则第二访问概率P_2i=T_{i-1,i}/T_i-1，其中网页序列{i-1}的长度为经验值，其是通过实验、根据测试序列长度与实际的推荐准确率之间的关系而预先确定的。例如，假设通过实验证明最佳序列长度为2，并且在所统计的时段内，网页{A}被访问的次数为100次，网页序列{AB}出现的次数为45次，网页序列{AC}则出现的次数为30次，则在网页A之后访问网页B的概率为45/100=0.45，在网页A之后访问网页C的概率为30/100=0.3。类似地，可以分别计算当网页序列长度为3、4等情况下的第二访问概率。

优选地，在推荐网页选择子步骤S240中，除了第一访问概率之外，还可以基于在步骤S260中确定的第二访问概率来选择推荐网页。即，在当前网页之后访问候选网页C_i的概率P_i=αP_1i+（1-α）P_2i，其中α为预定的权重系数，其可以是经验值或者可以根据有限次实验来确定。优选地，在推荐网页选择子步骤S240中，可以将概率P_i大于预定阈值的候选网页选择为推荐网页，或者也可以按照概率P_i的降序，选择排序靠前的预定数量的候选网页作为推荐网页。

应理解，以上参照图2描述的推荐网页确定处理仅是示例而非限制，例如，可以仅基于第一访问概率和第二访问概率中的一个来确定推荐网页，或者也可以采用本领域公知的其它方法来确定推荐网页。

接下来，返回参照图1，在确定了推荐网页之后，在网页类型判断步骤S120中，可以根据预定数据库判断在步骤S110中所确定的推荐网页的类型，并确定用于从推荐网页提取网页内容的内容提取规则。

具体地，由于每个网页的格式是固定的并且用户所需要的内容的位置也是固定的，因此可以在数据库中预先定义适合于提取每个网页的内容的内容提取规则。在网页类型判断步骤S120中，当在步骤S110中确定了推荐网页之后，可以通过查询如上所述的预定数据库来判断每个推荐网页的类型，并且从该数据库中预先存储的内容提取规则中选择适合于各个推荐网页的内容提取规则。

然后，在网页内容提取步骤S130中，如果在步骤S120中判断推荐网页的类型是基于内容的网页，则可以直接利用在步骤S120中确定的内容提取规则来提取该推荐网页的内容；而如果判断推荐网页的类型是基于查询的网页，则识别当前网页中所包含的查询词，利用所识别的查询词在推荐网页中进行查询以得到查询结果页，然后利用在S120中确定的内容提取规则来提取查询结果页的网页内容。以下将参照图3来详细描述在推荐网页为基于查询的网页的情况下所执行的网页内容提取处理。

如图3所示，在推荐网页为基于查询的网页的情况下，网页内容提取步骤可以进一步包括规则确定子步骤S310、查询词识别子步骤S320、查询结果页获取子步骤S330和查询结果页内容提取子步骤S340。以下将分别描述各个步骤中的处理。

首先，在规则确定子步骤S310中，可以基于当前网页和推荐网页，在预定规则库中确定与当前网页和推荐网页对应的规则。

通过浏览网页访问历史可以发现，当前网页的固定位置处的内容通常包含用于在接下来要访问的推荐网页中进行查询的查询词，并且该查询词与该推荐网页的网址之间存在映射关系。基于该发现，可以通过对用户的网页访问历史进行训练而得到上述预定规则库，该规则库可以用来自动识别当前网页中包含的查询词，并且确定查询词与推荐网页的网址之间的转换规则。下面将参照图4描述如何通过训练来得到该预定规则库。

如图4所示，该训练过程可以包括转换规则确定步骤S410和查询词出现位置确定步骤S420。

首先，在转换规则确定步骤S410中，针对所有用户的网页访问历史中的每个基于查询的网页，对利用查询词在该基于查询的网页中进行查询所得到的查询结果页进行统计，以确定查询词与查询结果页的网址之间的转换规则。

具体地，在转换规则确定步骤S410中，可以统计关于各个基于查询的网页的大量查询结果页的网址的变化部分，同时确定查询词与变化部分之间的映射关系，从而根据映射关系确定查询词与网址之间的转换规则。

例如，以天气预报的网页为例，其查询词通常为地名，通过统计发现，其网址的变化部分为该地名的拼音和该地名表示的地方所属的省、自治区或直辖市的首字母缩写。例如，如果查询词为“北京”，则在天气预报网页的网址中与其对应的部分可能为“BJ/beijing”，而如果查询词为“广州”，则网址中与其对应的部分可能为“GD/guangzhou”等等。由此，通过统计，可以确定对于各种基于查询的网页的查询词与网址之间的转换规则。

应理解，尽管这里以拼音映射关系为例进行了说明，但是也存在其它映射关系，诸如数字编码映射关系或任意其它编码映射关系。仍以上述查询词“北京”为例，在数字编码映射关系的情况下，天气预报网页的网址中与其对应的变化部分可以为“101010100”。

接下来，在查询词出现位置确定步骤S420中，针对每个基于查询的网页，根据关于该基于查询的网页的查询词，对网页访问历史中的各个网页进行统计，以确定该网页的查询词出现位置。

具体地，在查询词出现位置确定步骤S420中，可以统计网页访问历史中的各个网页的架构（例如，DOM（文档对象模型）架构），并找到经常出现查询词的DOM标签，然后根据所确定的DOM标签并结合所统计的查询词的属性特征（诸如“地名”、“人名”等等），确定各个网页中的查询词出现位置。

仍以天气预报网页为例，假设当前访问网页为例如企业内部所使用的日程安排网页，则可以通过统计日程安排网页的DOM架构，找到经常出现用于在天气预报网页中进行查询的查询词的DOM标签，假设在本示例中该标签为“广州出差”。此外，由于所统计的天气预报网页的查询词的属性特征例如为地名，从而识别该日程安排网页中所包含的查询词为“广州”。

根据参照图4所描述的训练过程，可得到用于从当前网页中自动识别查询词并将该查询词转换为推荐网页的相应网址以得到查询结果页的预定规则库。此外，根据上述训练过程可知，在该预定数据库中，每条规则与一个当前网页和一个推荐网页相对应，也就是说，在当前网页和推荐网页确定的情况下，即可在该预定数据库中定位与其对应的规则。

接下来，返回参照图3，在查询词识别子步骤S320中，可以根据在步骤S310所确定的规则中包括的查询词出现位置，从当前网页中识别用于在推荐网页中进行查询的查询词。

然后，在查询结果页获取子步骤S330中，可以根据在步骤S310中所确定的规则中包括的查询词与网址之间的转换规则，将在步骤S320中所识别的查询词转换为相应的网址从而得到查询结果页。

接下来，在查询结果页内容提取子步骤S340中，可以利用在网页类型判断步骤S120中确定的内容提取规则来提取在步骤S330中所获得的查询结果页的网页内容。

返回参照图1，在提取了推荐网页（包括基于内容的网页和基于查询的网页）的内容之后，在网页内容推荐步骤S140中，将所提取的网页内容推荐给当前用户。

根据以上对根据本技术实施例的网页内容推荐方法的描述可以看出，本技术基于用户当前访问的网页，结合网页内容相似度和网页访问历史将用户可能需要的网页内容而不是网页本身推荐给用户，不但提高了推荐匹配度而且减轻了用户操作负担，从而大大改善了用户体验。

虽然上面结合图1至图4详细描述了根据本技术实施例的网页内容推荐方法的示例，但是本领域的技术人员应当明白，附图所示的流程图仅仅是示例性的，并且可以根据实际应用和具体要求的不同，对上述方法流程进行相应的修改。此外，应理解，以上示例并不构成对本技术的限制，本领域技术人员可以基于所教导的原理，对上述过程进行适当的修改而应用于其它应用场合。

与上述网页内容推荐方法相对应，本技术还提供了一种网页内容推荐设备。以下将参照图5至图7来描述根据本技术实施例的网页内容推荐设备的功能配置示例。

首先，如图5所示，根据本技术实施例的网页内容推荐设备500可以包括推荐网页确定单元510、网页类型判断单元520、网页内容提取单元530和网页内容推荐单元540。优选地，该网页内容推荐设备500还可以包括训练单元550。以下将分别详细描述各个单元的功能配置。

推荐网页确定单元510可以被配置成基于当前用户访问的当前网页，从预定数据库中存储的多个候选网页中确定要推荐给当前用户的推荐网页。优选地，该数据库是通过对网页访问历史进行统计而预先确定的，并且可用于判断网页的类型以及确定适合于各个网页的内容提取规则。

优选地，如图6所示，推荐网页确定单元510可以进一步包括在前网页集合确定模块610、相似度计算模块620、第一访问概率确定模块630和推荐网页选择模块640。此外，优选地，推荐网页确定单元510还可以包括网页序列统计模块650和第二访问概率确定模块660。

在前网页集合确定模块610可以被配置成对于候选网页中的每个候选网页，基于所有用户的网页访问历史，将所有访问过该候选网页的用户在紧挨该候选网页之前所访问的预定数量的在前网页的集合确定为关于该候选网页的在前网页集合。

优选地，在本技术的实施例中，根据由浏览器插件从各个用户终端获得的网页访问历史，将所有访问过候选网页的用户在紧挨候选网页之前所访问的两个网页的集合确定为关于该候选网页的在前网页集合。但是应理解，这仅是示例而非限制，并且可以根据实际需要而将任意数量的在前网页的集合确定为在前网页集合。

相似度计算模块620可以被配置成计算当前网页与关于各个候选网页的在前网页集合之间的相似度。

优选地，在本技术的实施例中，相似度计算模块620可以采用基于中心向量的算法来计算当前网页与在前网页集合之间的相似度。关于相似度的具体计算方法可以参见以上在方法实施例中的相应描述，在此不再重复。

应指出的是，该相似度计算方法仅为示例而非限制，并且本领域技术人员可以采用任意公知方法来计算网页文本之间的相似度。

第一访问概率确定模块630可以被配置成基于由相似度确定模块620所确定的相似度来确定在当前网页之后访问每个候选网页的第一访问概率。

可以理解，当前网页与关于某一候选网页的在前网页集合之间的相似度越高，则在当前网页之后访问该候选网页的概率越高，从而可以优先将该候选网页确定为推荐网页。基于该理解，第一访问概率确定模块630优选地可以基于相似度来确定在当前网页之后访问每个候选网页的第一访问概率，以使得第一访问概率与相似度成正比。

推荐网页选择模块640可以被配置成基于由第一访问概率确定模块630确定的第一访问概率，从候选网页当中选择满足预定条件的推荐网页。例如，可以选择第一访问概率大于预定阈值的候选网页作为推荐网页，或者可以按照第一访问概率的降序，选择排序靠前的预定数量的候选网页作为推荐网页。

优选地，推荐网页确定单元510还可以包括网页序列统计模块650和第二访问概率确定模块660。

网页序列统计模块650可以被配置成基于所获得的所有用户的网页访问历史，统计在预定时段内由各个数量的连续访问网页构成的各个网页序列的出现次数。

具体的网页序列统计过程可以参见以上方法实施例中的相应位置的描述，在此不再重复。

第二访问概率确定模块660可以被配置成基于所统计的各个网页序列的出现次数，确定在当前网页之后访问每个候选网页的第二访问概率。

第二访问概率的具体计算过程可以参见以上方法实施例中的相应位置的描述，在此不再重复。应指出的是，计算第二访问概率时所采用的网页序列的长度是通过实验、根据测试序列长度与实际的推荐准确率之间的关系而预先确定的。

优选地，推荐网页选择模块640可以基于第一访问概率和第二访问概率的加权组合，选择满足预定条件的候选网页作为推荐网页。在该情况下，由于在选择推荐网页时不仅考虑了网页内容之间的相似度而且还考虑了网页访问历史，因此大大提高了所确定的推荐网页的准确率，即，所确定的网页能够更好地匹配用户的需要。

当然，推荐网页选择模块640也可以仅基于第一访问概率和第二访问概率中的一个来选择推荐网页，本技术对此不做限制。

以上参照图6描述的推荐网页确定单元510的功能配置仅为示例，并且本领域技术人员可以在本技术的原理范围内对其进行任何修改。

接下来，返回参照图5，网页类型判断单元520可以被配置成根据预定数据库来判断所确定的推荐网页的类型，并确定用于从该推荐网页提取网页内容的内容提取规则。

具体地，由于每个网页的内容格式是固定的并且用户所需要的内容的位置也是固定的，因此可以在数据库中预先定义适合于提取每个网页的内容的内容提取规则，从而网页类型判断单元520可以通过查询数据库来确定网页类型和相应的内容提取规则。

网页内容提取单元530可以被配置成如果推荐网页为基于内容的网页，则直接利用所确定的内容提取规则来提取推荐网页的内容，而如果推荐网页为基于查询的应用，则识别当前网页中包含的查询词，利用该查询词在推荐网页中进行查询以得到查询结果页，然后利用所确定的内容提取规则来提取查询结果页的内容。

参照图7，其示出了网页内容提取单元530的详细功能配置的示例。如图7所示，网页内容提取单元530可以进一步包括规则确定模块710、查询词识别模块720、查询结果页获取模块730和查询结果页内容提取模块740。以下将描述各个模块的功能配置。

规则确定模块710可以被配置成在推荐网页为基于查询的网页的情况下，基于当前网页和推荐网页在预定规则库中确定与当前网页和推荐网页对应的规则。

该预定规则库是例如利用网页内容推荐设备500中包括的训练单元550对用户的网页访问历史进行训练而得到的，其可以用于自动识别网页中包含的查询词并且将该查询词转换为相应的网址以得到查询结果页。

具体地，训练单元550可以被配置成通过执行以上参照图4描述的训练过程来得到预定规则库。具体的训练过程可以参照以上在方法实施例中的相应位置的描述，在此不再重复。

此外，优选地，在该预定规则库中，每条数据记录与一个推荐网页和一个当前网页相对应，因此，基于当前网页结合所确定的推荐网页，即可在规则库中定位适当的规则。

应理解，尽管这里作为示例，将训练单元550实现为网页内容推荐设备500的一部分，但是应理解，训练单元550完全可以独立于网页内容推荐设备500，例如，训练单元550可以位于网页内容推荐设备500外部的。

查询词识别模块720可以被配置成根据由规则确定模块710所确定的规则中包括的查询词出现位置，从当前网页中识别用于在推荐网页中进行查询的查询词。

查询结果页获取模块730可以被配置成根据所确定的规则中包括的查询词与网址之间的转换规则，将由查询词识别模块720所识别的查询词转换为相应的网址从而得到查询结果页。

查询结果页内容提取模块740可以被配置成利用由网页类型判断单元520所确定的内容提取规则来提取所获得的查询结果页的网页内容。

接下来，返回参照图5，网页内容推荐单元540可以被配置成将所提取的网页内容推荐给当前用户。

尽管以上参照图5至图7描述了根据本技术的实施例的网页内容推荐设备的示例功能配置，但是应理解，本领域技术人员可以根据需要而对上述结构进行修改，例如增加或省略某些功能单元，或者对功能单元进行组合，并且这些变型都认为落在本技术的实质范围内。

需要说明的是，本技术实施例所述的网页内容推荐设备是与前述方法实施例相对应的，因此，设备实施例中未详述的部分，请参见方法实施例中相应位置的介绍，这里不再赘述。

此外，应该指出，根据本技术的网页内容推荐方法和网页内容推荐设备优选地可以应用于企业内部的一些应用软件（诸如上述考勤系统、日程安排系统等等），但是本技术并不限于此，而是也可以广泛应用于在用户访问任何网页时向其推荐适当的网页内容的任何情况。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图8所示的通用个人计算机800安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图8中，中央处理单元（CPU）801根据只读存储器（ROM）802中存储的程序或从存储部分808加载到随机存取存储器（RAM）803的程序执行各种处理。在RAM 803中，也根据需要存储当CPU 801执行各种处理等等时所需的数据。

CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件连接到输入/输出接口805：输入部分806，包括键盘、鼠标等等；输出部分807，包括显示器，比如阴极射线管（CRT）、液晶显示器（LCD）等等，和扬声器等等；存储部分808，包括硬盘等等；和通信部分809，包括网络接口卡比如LAN卡、调制解调器等等。通信部分809经由网络比如因特网执行通信处理。

根据需要，驱动器810也连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘（包含软盘（注册商标））、光盘（包含光盘只读存储器（CD-ROM）和数字通用盘（DVD））、磁光盘（包含迷你盘（MD）（注册商标））和半导体存储器。或者，存储介质可以是ROM 1002、存储部分808中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

还需要指出的是，执行上述系列处理的步骤可以自然地根据说明的顺序按时间顺序执行，但是并不需要一定根据时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本技术及其优点，但是应当理解在不脱离由所附的权利要求所限定的本技术的精神和范围的情况下可以进行各种改变、替代和变换。而且，本技术实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

根据本技术的实施例，还公开了以下附记：

附记1．一种网页内容推荐方法，包括：

推荐网页确定步骤，基于当前用户访问的当前网页，从预定数据库中存储的多个候选网页中确定要推荐给所述当前用户的推荐网页；

网页类型判断步骤，根据所述预定数据库判断所述推荐网页的类型，并确定用于从所述推荐网页提取网页内容的内容提取规则；

网页内容提取步骤，如果所述推荐网页的类型是基于内容的网页，则直接利用所确定的内容提取规则提取所述推荐网页的网页内容，而如果所述推荐网页的类型是基于查询的网页，则识别所述当前网页中包含的查询词，利用所识别的查询词在所述推荐网页中进行查询以得到查询结果页，然后利用所确定的内容提取规则来提取所述查询结果页的网页内容；以及

网页内容推荐步骤，将所提取的网页内容推荐给所述当前用户。

附记2．根据附记1所述的方法，其中，所述推荐网页确定步骤进一步包括：

在前网页集合确定子步骤，对于所述候选网页中的每个候选网页，基于所有用户的网页访问历史，将所有访问过该候选网页的用户在紧挨该候选网页之前所访问的预定数量的在前网页的集合确定为关于该候选网页的在前网页集合；

相似度计算子步骤，计算所述当前网页与每个在前网页集合之间的相似度；

第一访问概率确定子步骤，基于所述相似度，确定在所述当前网页之后访问每个候选网页的第一访问概率；以及

推荐网页选择子步骤，基于所述第一访问概率，从所述候选网页中选择所述推荐网页。

附记3．根据附记2所述的方法，其中，所述预定数量为两个。

附记4．根据附记2所述的方法，其中，所述推荐网页确定步骤进一步包括：

网页序列统计子步骤，基于所有用户的网页访问历史，统计在预定时段内由各个数量的连续访问网页构成的各个网页序列的出现次数；以及

第二访问概率确定子步骤，基于所统计的各个网页序列的出现次数，确定在所述当前网页之后访问每个候选网页的第二访问概率，

其中，在所述推荐网页选择子步骤中，还基于所述第二访问概率来选择所述推荐网页。

附记5．根据附记1所述的方法，其中，如果所述推荐网页的类型是基于查询的网页，则所述网页内容提取步骤进一步包括：

规则确定子步骤，基于所述当前网页和所述推荐网页，在预定规则库中确定与所述当前网页和所述推荐网页对应的规则；

查询词识别子步骤，根据所确定的规则中包括的查询词出现位置，从所述当前网页中识别查询词；

查询结果页获取子步骤，根据所确定的规则中包括的查询词与网址之间的转换规则，将所识别的查询词转换为相应的网址从而获得所述查询结果页；以及

查询结果页内容提取子步骤，利用所确定的内容提取规则提取所述查询结果页的内容。

附记6．根据附记5所述的方法，其中，所述预定规则库是通过以下步骤进行训练得到的：

转换规则确定步骤，针对所有用户的网页访问历史中的每个基于查询的网页，对利用查询词在该基于查询的网页中进行查询所得到的查询结果页进行统计，以确定查询词与基于查询的网页的网址之间的转换规则；以及

查询词出现位置确定步骤，针对每个基于查询的网页，根据关于该基于查询的网页的查询词，对所述网页访问历史中的各个网页进行统计，以确定该网页的查询词出现位置。

附记7．根据附记6所述的方法，其中，在所述转换规则确定步骤中，统计所述查询结果页的网址的变化部分，同时确定查询词与所述变化部分之间的映射关系，从而根据所述映射关系确定所述转换规则。

附记8．根据附记6所述的方法，其中，在所述查询词出现位置确定步骤中，统计所述网页访问历史中的各个网页的文档对象模型架构，以找到出现所述查询词的文档对象模型标签，从而根据所述文档对象模型标签和所统计的查询词的属性特征，确定所述查询词出现位置。

附记9．一种网页内容推荐设备，包括：

推荐网页确定单元，被配置成基于当前用户访问的当前网页，从预定数据库中存储的多个候选网页中确定要推荐给所述当前用户的推荐网页；

网页类型判断单元，被配置成根据所述预定数据库判断所述推荐网页的类型，并确定用于从所述推荐网页提取网页内容的内容提取规则；

网页内容提取单元，被配置成如果所述推荐网页的类型是基于内容的网页，则直接利用所确定的内容提取规则提取所述推荐网页的网页内容，而如果所述推荐网页的类型是基于查询的网页，则识别所述当前网页中包含的查询词，利用所识别的查询词在所述推荐网页中进行查询以得到查询结果页，然后利用所确定的内容提取规则来提取所述查询结果页的网页内容；以及

网页内容推荐单元，被配置成将所提取的网页内容推荐给所述当前用户。

附记10．根据附记9所述的设备，其中，所述推荐网页确定单元进一步包括：

在前网页集合确定模块，被配置成对于所述候选网页中的每个候选网页，基于所有用户的网页访问历史，将所有访问过该候选网页的用户在紧挨该候选网页之前所访问的预定数量的在前网页的集合确定为关于该候选网页的在前网页集合；

相似度计算模块，被配置成计算所述当前网页与每个在前网页集合之间的相似度；

第一访问概率确定模块，被配置成基于所述相似度，确定在所述当前网页之后访问每个候选网页的第一访问概率；以及

推荐网页选择模块，被配置成基于所述第一访问概率，从所述候选网页中选择所述推荐网页。

附记11．根据附记10所述的设备，其中，所述预定数量为两个。

附记12．根据附记10所述的设备，其中，所述推荐网页确定单元进一步包括：

网页序列统计模块，被配置成基于所有用户的网页访问历史，统计在预定时段内由各个数量的连续访问网页构成的各个网页序列的出现次数；以及

第二访问概率确定模块，被配置成基于所统计的各个网页序列的出现次数，确定在所述当前网页之后访问每个候选网页的第二访问概率，

其中，所述推荐网页选择模块被配置成还基于所述第二访问概率来选择所述推荐网页。

附记13．根据附记9所述的设备，其中，所述网页内容提取单元进一步包括：

规则确定模块，被配置成如果所述推荐网页的类型是基于查询的网页，则基于所述当前网页和所述推荐网页，在预定规则库中确定与所述当前网页和所述推荐网页对应的规则；

查询词识别模块，被配置成根据所确定的规则中包括的查询词出现位置，从所述当前网页中识别查询词；

查询结果页获取模块，被配置成根据所确定的规则中包括的查询词与网址之间的转换规则，将所识别的查询词转换为相应的网址从而获得所述查询结果页；以及

查询结果页内容提取模块，被配置成利用所确定的内容提取规则提取所述查询结果页的内容。

附记14．根据附记13所述的设备，还包括：训练单元，其被配置成执行以下步骤以得到所述预定规则库：

转换规则确定步骤，针对所有用户的网页访问历史中的每个基于查询的网页，对利用查询词在该基于查询的网页中进行查询所得到的查询结果页进行统计，以确定查询词与查询结果页的网址之间的转换规则；以及

附记15．根据附记14所述的设备，其中，所述训练单元被配置成在所述转换规则确定步骤中，统计所述查询结果页的网址的变化部分，同时确定查询词与所述变化部分之间的映射关系，从而根据所述映射关系确定所述转换规则。

附记16．根据附记14所述的设备，其中，所述训练单元被配置成在所述查询词出现位置确定步骤中，统计所述网页访问历史中的各个网页的文档对象模型架构，以找到出现所述查询词的文档对象模型标签，从而根据所述文档对象模型标签和所统计的查询词的属性特征，确定所述查询词出现位置。

附记17．一种存储介质，所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据附记1至8中任一项所述的网页内容推荐方法。

附记18．一种程序产品，所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据附记1至8中任一项所述的网页内容推荐方法。

Claims

1.一种网页内容推荐方法，包括：

2.根据权利要求1所述的方法，其中，所述推荐网页确定步骤进一步包括：

3.根据权利要求2所述的方法，其中，所述推荐网页确定步骤进一步包括：

4.根据权利要求1所述的方法，其中，如果所述推荐网页的类型是基于查询的网页，则所述网页内容提取步骤进一步包括：

5.根据权利要求4所述的方法，其中，所述预定规则库是通过以下步骤进行训练得到的：

6.一种网页内容推荐设备，包括：

7.根据权利要求6所述的设备，其中，所述推荐网页确定单元进一步包括：

8.根据权利要求7所述的设备，其中，所述推荐网页确定单元进一步包括：

9.根据权利要求6所述的设备，其中，所述网页内容提取单元进一步包括：

10.根据权利要求9所述的设备，还包括：训练单元，其被配置成执行以下步骤以得到所述预定规则库：