CN101399818A

CN101399818A - 基于导航路径信息的主题相关网页过滤方法和系统

Info

Publication number: CN101399818A
Application number: CNA2007101518643A
Authority: CN
Inventors: 李建强; 赵彧
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2007-09-25
Filing date: 2007-09-25
Publication date: 2009-04-01
Anticipated expiration: 2027-09-25
Also published as: US8140579B2; JP2009151749A; CN101399818B; US20090083244A1; JP4936401B2

Abstract

本发明提供了一种基于导航路径信息的主题相关网页过滤方法和系统。所述方法包括：获取一个或多个网页集合中的所有网页；收集所述所有网页之间的链接关系；基于所述链接关系提取出所述获取的所有网页的导航路径集合；以及基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。在一些实施例中，导航路径的提取优选地是针对网页之间的导航链接进行的，因此本发明还可以包括从所有链接关系中删除掉非导航链接的过程。相比现有技术，本发明可以更充分地利用网页之间的上下文信息来进行网页过滤，从而提高网页过滤的精确性和客观性。

Description

基于导航路径信息的主题相关网页过滤方法和系统

技术领域

本发明一般地涉及信息获取或信息提取，尤其是网页搜索或网页挖掘，具体而言，本发明涉及采用网页的导航路径集合作为上下文信息来进行主题相关的网页过滤的方法和系统。

背景技术

随着因特网上电子信息的不断增多，在Web上积累了大量多样化的信息，并且这种积累仍在以令人吃惊的速度快速增长。因此，帮助网民从大量信息中找到有用信息是一项很有挑战性的任务。

信息获取(information retrieval，IR)是一种在文件集合中搜索信息的技术，它可被进一步划分成以下几类：搜索包含在文件中的一段信息；搜索文件本身；搜索描述文件的元数据(metadata)；或者在数据库中搜索文本、声音、图像或数据。信息提取(information extraction，IE)是IR技术中的一种，其目标在于从非结构化的机器可读文件中自动提取结构化或半结构化的信息。Web搜索引擎(例如Google和百度)是一种文件获取系统，其被专门设计以用于帮助用户找到存储在Web上的信息，这允许用户寻找满足特定条件的内容(通常是包含给定词或短语的内容)并且得到匹配这些条件的项目列表。最近，一种新的Web搜索引擎，即垂直搜索引擎，在Web上变得越来越流行。其利用某些信息提取或Web挖掘技术从高度细化的数据库或网站中提取出关于特定主题的结构化信息，从而向对特定领域感兴趣的用户提供更精确和更有价值的信息。

在所有这些信息获取或信息提取技术中，无论对于一般(或垂直)搜索引擎还是特定的Web挖掘系统，网页过滤都起着非常重要的作用。

从技术上讲，网页过滤的过程主要分成两个步骤：首先，针对特定过滤目的，选择适当并且有效的网页特征；然后，基于这些所选特征来建模过滤机制。从所选特征的角度来看，现有的网页过滤方案被粗略分成四类，即基于内容的过滤、基于网页类型的过滤、基于链接的过滤和基于扩展锚(anchor)的过滤。下面将对这四类过滤方法作简单介绍。

基于内容的过滤：这种方法是依赖于查询的算法，即其无论何时提交查询，都分别给每个Web网页一个相似性得分。其基本思想是这样的：出现在网页中的单词被用于获取相关网页，即给那些在文件中较早出现查询项或者以大字体或黑体形式出现查询项的网页赋予较高得分。然后，基于向量空间模型(VSM)，可以通过计算夹角余弦来计算该网页和相应查询之间的相似性，并根据相似性得分来实现相关网页过滤。

基于网页类型的过滤：考虑到大多数因特网用户可以通过查看网页来识别该网页所属的文件类型，因此可以得出这样的结论，即人们不仅可以基于网页内容，还可以基于其各种格式和设计信息来评价网页。鉴于此，网页的内容和其结构化特征被一起提供到基于规则的分类器以进行网页类型分类。基本的结构化特征包括内嵌的图像的大小和数目、链接的种类和数目、URL串等等。基于相似网页的内部特征(例如锚文本、关键字、标题、URL等等)，可以采用基于机器学习的方法来进行网页分类。

基于链接的过滤：由于Web是一个超级链接的集合，因此除了各个网页的文本内容之外，这些集合的链接结构也可能包含网页过滤所需的有用信息。基于模拟网络浏览用户的随机浏览模型，一种基于链接结构的方法被用于网页的重要度排名。其利用Web的链接结构来计算每个网页的质量排名(quality ranking)，这种质量排名被称为PageRank得分。由于网页的排名得分是根据网页在Web的链接结构中的位置单独确定的，因此其与查询无关并且可以在查询之前被计算出。最后，来自基于内容的方法和基于链接的方法的排名值被合并，以得到最终的相似性得分。

基于扩展锚的过滤：当采用Web的超级链接结构进行网页过滤时，出现在链接上的文本，即锚文本也可以被用于网页排名。锚文本不仅与链接所在的网页有关，还与链接指向的网页有关。尤其针对第二种情况，锚文本通常比网页本身提供更精确的网页描述。而且其有助于搜索非文本信息，从而将搜索覆盖扩展到例如图像、程序和数据库。因此，基于扩展锚的网页过滤方法被提出。首先，出现在网页中并且将Web浏览器从主页导航到每个目标网页的所有锚文本都被收集，以建立扩展的锚列表。然后，出现在扩展锚列表中的关键字被用于目标网页过滤。

但是，现有的网页过滤方案具有缺陷。首先，基于内容、网页类型和链接方法所采用的信息获取模型将每个网页看作一个独立文件，即基于单页执行索引和排名，这意味着返回的网页必须包括查询中的所有关键字。它们忽略了网页的内部内容通常不是自包含的这一事实。由于这些技术方案的索引功能基于网页的内部内容来单独地索引网页，因此从这种受限的内容中生成的网页过滤结果的质量往往无法令人满意。

通常，在用户进行Web导航的过程中，特定网页的上下文信息(例如该网页所在的域(domain)、目录以及从其它网页到该网页的导航超级链接)处于用户的思维内并且提供了关于网页内容的重要指示。但是，在现有技术中，这种上下文信息没有得到充分利用。

基于内容的方法将Web作为传统的文件库来处理，因此Web和网页的特殊特性(例如上下文信息)没有被用于网页过滤。网页的文本内容对于高度精确的网页过滤而言是不足够的。

对于基于网页类型的方法，虽然它利用了网页的某些结构化特性来进行网页过滤，但是Web中的超级链接信息未被考虑在内。由于超级链接集合的链接结构通常反映了用户关于目标网页的暗示推荐，因此它应该有助于提高网页过滤结果的质量。

虽然Web中的超级链接信息在基于链接和基于扩展锚的方法中有被用到，但是这种利用并不充分。对于基于链接的方法，假设用户对链接的点击是随机的，但是实际上这种点击可能不是随机的。另一方面，用户可以利用锚文本来导航它们的Web浏览，通常出现在导航路径中的锚文本能够提供关于目的地网页的重要指示。但是，在基于扩展锚的方法中，只有锚文本信息在网页过滤中被考虑到，网页标题中的文本、URL文本，甚至网页所属的域都没有涉及。然而，这些未被涉及的项目通常也提供了关于网页内容的重要指示，因此对于网页过滤也是十分重要的。

发明内容

鉴于上述问题，作出了本发明。本发明的网页过滤方法和系统可以解决现有技术中存在的技术问题，提高网页过滤结果的质量。

根据本发明的一个方面，提供了一种网页过滤方法，该方法包括：获取一个或多个网页集合中的所有网页；收集所述所有网页之间的链接关系；基于所述链接关系提取出所述获取的所有网页的导航路径集合；以及基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。其中，所述导航路径是由网页标题、锚文本、URL的组合、网页内容以及域名构成的列表。在某些实施例中，所述网页集合可以是域、子域或目录。优选地，为了实现更加精确而有效的网页过滤，导航路径集合可以仅针对网页之间的导航链接而非所有链接来提取，因此在某些实施例中，在提取导航路径集合之前或者在其过程中需要对链接集合进行过滤以得到导航链接，然后再基于过滤出的导航链接获得所需导航路径集合。并且优选地，所述网页过滤可以是基于主题的过滤。

根据本发明的另一方面，提供了一种网页过滤系统，该系统包括：网页获取装置，用于获取一个或多个网页集合中的所有网页；链接关系收集装置，用于收集所述所有网页之间的链接关系；导航路径提取装置，用于基于所述链接关系提取出所述获取的所有网页的导航路径集合；以及网页过滤装置，用于基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。其中，所述导航路径是由网页标题、锚文本、URL的组合、网页内容以及域名构成的列表。在某些实施例中，所述网页集合可以是域、子域或目录。优选地，为了实现更加精确而有效的网页过滤，所述导航路径提取装置可以仅针对网页之间的导航链接而非所有链接来提取导航路径集合，因此在某些实施例中，在提取导航路径集合之前或者在其过程中需要对链接集合进行过滤以得到导航链接，然后再基于过滤出的导航链接获得所需导航路径集合。并且优选地，所述网页过滤装置可以对网页组执行基于主题的过滤。

根据本发明，网页的导航路径被提取出，作为相应网页的上下文信息，并结合网页一起被索引来生成索引表。这样一来，不仅网页的链接结构还有引导用户在Web中导航的所有潜在文本都可以被用于高质量的网页过滤。

另外，一个给定网页可能具有多条导航路径，其中每条导航路径可能是由不同作者设计的，用于指向该网页。如果出现在每条导航路径中的文本被看作从一个特定方面关于目标网页的内容的一种概括或陈述，则可以通过这些导航路径的集合反映出来自多个作者或上下文的多个视角，这可以确保网页过滤的客观性。

另外，每条导航路径所涉及的信息不局限于一个网页，而是包含一组相关网页。因此，Web中的超级链接直接或间接地暗示出很多陈述，其中主语是源网页，谓语是锚文本，宾语是指向的目的地网页。基于此，语义推断(semantic inference)功能可被并入到网页过滤过程中。

从下面结合附图的详细描述中，可以看出本发明的其他特征和优点。注意，本发明并不限于图中所示的示例或者任何具体的实施例。

附图说明

结合附图，从下面对本发明优选实施例的详细描述，将更好地理解本发明，附图中类似的参考标记指示类似的部分，其中：

图1是示出根据本发明第一实施例的网页过滤系统100的结构框图；

图1A示出一条示例性的网页导航路径；

图1B是针对图1A的网页结构示出基于导航路径的方法与现有技术的方法的网页索引的比较图表；

图1C是示出图1所示网页过滤系统100的操作的流程图；

图2A是示出根据本发明第二实施例的网页过滤系统100a的结构框图，其中在提取导航路径集合之前执行链接过滤以得到导航链接；

图2B是图2A所示网页过滤系统的替换方式100b，其在提取导航路径集合之前输入感兴趣的主题，并对网页组执行预过滤；

图3A是示出图2A所示网页过滤系统100a的操作的流程图；

图3B是示出图2B所示网页过滤系统100b的操作的流程图；

图4是示出根据本发明第二实施例的导航链接过滤过程的流程图；

图5是用于说明图4所示导航链接过滤的一个网站结构示例的图；

图6是示出根据本发明第二实施例的导航路径集合提取过程的流程图；

图7是示出根据本发明第三实施例的网页过滤系统100c的结构框图，其中在提取导航路径集合的过程中执行导航链接过滤；

图8是示出根据本发明第三实施例的导航路径集合提取过程的流程图；

图9是示出根据本发明的网页过滤系统的主题相关网页过滤过程的流程图；以及

图10是被用于实现本发明的计算机系统的示意性框图。

具体实施方式

如上文所述，网页的上下文信息能够提供关于网页内容的重要信息，因此对于网页过滤具有重要作用。但是，在现有技术中，对于上下文信息的利用并不充分。相对照地，本发明提供了一种利用上下文信息进行网页过滤的方法和系统，其利用Web中的超级链接信息建立关于网页的导航路径集合，并以此作为上下文信息进行网页过滤，从而提高网页过滤的精确性和客观性。

这里所述的“导航路径”被指定作为给定网页的用于索引的上下文，其被定义为包括网页标题、锚文本、URL的组合、网页内容以及域名的列表。导航路径可被用于记录Web用户在特定网站中导航到目标网页的潜在浏览路径。(用户可以点击网页上的链接并使用锚文本在网站内执行导航以找到感兴趣的信息。)导航路径通常是依赖于网站的，即每个网站具有其自身的导航路径集合。指向同一网页的所有导航路径提供了关于该网页在网站中的上下文的复杂描述。每个导航路径都与其目的地网页相关联，并且每个网页可能具有多个关联的导航路径。关于导航路径的详细说明随后将参考图3A和3B给出。

这里所述的“导航链接”是网页作者希望网页读者通过其被导航到另一内容相关网页的链接。导航链接不包括在目录结构上由子网页反指向父网页的链接，以及被目录结构上的多个同层网页所共享的链接和被一个网页上的语义块(semantic block)中的多个网页所共享的链接。在提取导航路径时，为了得到更有效的过滤，可以通过某些启发式规则从网页的所有链接中过滤掉非导航链接，从而仅针对导航链接执行导航路径的提取。在此情况下，导航路径则可被定义为通过导航链接连接的多个网页的级联锚文本和标题的路径链。其开始于源网页的标题并终止于目的地网页的标题。关于导航链接以及导航链接过滤的详细描述随后给出。

下面参考附图描述根据本发明的示例性实施例。应当意识到，所描述的实施例仅是用于举例说明的目的，本发明并不限于所述具体实施例。

图1是示出根据本发明第一实施例的网页过滤系统100的总体框图。如图所示，网页过滤系统100主要包括提供本发明核心功能的路径排名(ranking)与网页过滤模块10和与之交互的多个数据库，即用于存储利用网络爬虫等收集的网页集合的网页数据库106、用于存储导航路径的导航路径数据库107、用于存储索引表的索引表数据库108和用于存储过滤结果网页的结果网页数据库109。多个数据库被存储在计算机系统中的永久存储设备中，以存储用于支持网页过滤模块10的运行的资源。网页过滤模块10进一步包括网页获取装置101、链接关系收集装置102、导航路径提取装置103、索引装置104和网页过滤装置105。这里应该注意，网页数据库106中存储有通过网络爬虫&网页解析模块(未示出)从网络上取得的一个或多个网页集合的所有网页，所述网页集合例如是一个域(网站)、子域或目录。

下面，首先利用图1A和1B简要介绍导航路径以及基于导航路径的索引。图1A示出一条示例性的网页导航路径，图1B是针对图1A的网页结构示出基于导航路径的方法与现有技术的方法的网页索引的比较图表。

如图1A所示，该示例包括四个网页，即网页P1、P2、P3和P4。A1、A2和A3分别代表包括在网页P1、P2、P3中的锚文本。Ti、Ui、Wi(i＝1、2、3和4)分别代表网页Pi的标题、URL和文本内容。如图1B所示，当基于内容或基于网页类型的索引被使用时，网页P4的索引被定义为{T4，W4}，当基于链接的索引被使用时，网页P4的索引被定义为{U4，T4，W4，A3}，当基于扩展锚的索引被使用时，网页P4的索引被定义为{A1+A2+A3，T4，W4}，而当根据本发明的基于导航路径的索引被使用时，网页P4的索引被定义为{T1+A1+T2+A2+T3+A3+T4，U1+U2+U3+U4，W4，域名}。由此可见，本发明所使用的基于导航路径的方法可以更充分的利用网页之间的上下文信息来进行网页过滤。

图1C是示出图1所示网页过滤系统100的操作的流程图。首先，在步骤101a中，网页获取装置101从网页数据库106获取一个或多个网页集合中的所有网页。前面已经提到，所述网页集合可以是一个域、子域或目录。在以下描述中，将以域(即网站)作为示例来描述本发明。但是，本领域技术人员显而易见，本发明并不局限于这样的示例，而是可以针对其他具有索引页的网页集合，例如子域或目录，来同样地执行。然后，在步骤102a中，链接关系收集装置102收集关于获取的所有网页的链接关系。然后，根据这些收集的链接关系中，在步骤103a中，导航路径提取装置103可以提取出所有网页的导航路径集合。然后在步骤104a中，索引装置104基于提取出的导航路径集合与获取的网页一起被索引，并将索引结果存储在索引表数据库108中以备后用。这里所述的索引步骤可以使用本领域公知的任意索引手段，例如参考文档索引。具体而言，在索引步骤中，所获取的每个网页与其相对应的一个或多个导航路径集合被索引以生成索引表，该索引表的一列存储网页id，而另一列存储对应于该网页的导航路径集合。由于索引技术是本领域所公知的，因此在以下描述中不再赘述。然后，在步骤105a中，存储的索引结果被应用到网页过滤装置105，该网页过滤装置105基于获取的所有网页的提取出的导航路径集合对所有网页进行过滤。关于导航路径提取过程和网页过滤过程是本发明的关键，随后会参考附图作出详细描述。

上面已经提到，导航链接是网站内部所有链接关系的一个子集，其不包括在目录结构上由子网页反指向父网页的链接，以及被目录结构上的多个同层网页所共享的链接和被一个网页上的语义块中的多个网页所共享的链接。之所以这样限定，是为了获取更有效的网站导航，去除对于导航路径提取可能产生不利影响的因素，从而提高网页过滤的效率和精确性。鉴于此，可以设想，为了获取更准确的导航路径集合，优选地，可以从网页的所有链接中过滤出所有导航链接，并基于导航链接来提取每个网页的导航路径集合。根据实际应用需求，导航链接过滤可以在提取导航路径集合之前先行进行，也可以在导航路径集合提取过程中逐步去除非导航链接，从而更有效而且准确地实现导航路径集合的提取。随后将针对第二和第三实施例来详细描述基于导航链接提取导航路径集合的情况。

图2A是示出根据本发明第二实施例的网页过滤系统100a的结构框图，其中在提取导航路径集合之前执行链接过滤以得到导航链接集合。

如图2A所示，相对于图1所示框图，除了其它共有组件之外，网页过滤系统100a还包括目录结构收集装置112、导航链接过滤器110和主题输入器111。在该实施例中，为了执行主题相关的网页过滤，主题输入器111被耦合到网页过滤装置105，用于输入用户感兴趣的主题。网页过滤装置105进而根据输入的主题基于网页的导航路径集合对网页进行过滤。但是，本发明并不局限于这里所述的主题相关的过滤，本领域公知的其他过滤规则也可以被采用。

图2B是图2A所示网页过滤系统的一种替换方式100b。在此情况下，取决于实际运行环境的应用情形不同，主题输入器111没有被耦合到网页过滤装置105，而是被耦合到预过滤装置113。预过滤装置113被耦合在网页获取装置101和链接关系收集装置102之间，用于在收集网页的链接关系之前，先行初步地对获取的网页进行主题相关的预过滤。在此情况下，导航路径集合的提取仅涉及某些主题相关的网页。这意味着在提取导航路径之前，已经执行了一级网页过滤，而随后在网页过滤装置105处执行的基于导航路径的过滤应该被视为二级网页过滤。在所述二级网页过滤中，可以应用更加细化的过滤规则来实现更加精确的过滤。相反，在图2A所示的系统中，用户感兴趣的主题通过主题输入器111被输入到网页过滤装置105，因此，首先针对所有网页收集链接关系和目录结构，并且针对所有网页提取导航路径集合，然后网页过滤装置105再执行相应的主题相关的过滤。如果仅有一种主题被涉及，则图2B所示系统比图2A的系统具有更高的性能。但是，当有新主题输入时，图2B所示的系统需要再次执行导航路径的提取。对于图2A所示的系统，由于导航路径提取装置103已经提取出涉及所有网页的导航路径集合，因此即使改变主题，也仅需要重新运行网页过滤的过程即可。因此，在主题经常改变的情况下，图2A所示的系统具有更高的效率。

下面将分别对照图3A和3B来描述图2A和2B所示系统100a和100b的操作。其中图3A是示出图2A所示网页过滤系统100a的操作的流程图，而图3B是示出图2B所示网页过滤系统100b的操作的流程图。

首先参考图3A，该过程开始于获取一个或多个域中的所有网页(步骤301a)。然后，在步骤302a中，获取的网页之间的链接关系和目录结构被收集。这里不同于第一实施例，为了从所有链接中过滤出导航链接，除了链接关系之外还有必要收集所有域中的目录结构以作为过滤的参考。例如，链接关系的提取可以通过解析每个文件的HTML源代码来实现。通常，文件集合的链接关系被表示为一个二元组{源，目标|源和目标在所涉及的文件集合内，并且从源到目标存在至少一个超级链接}。同时，目录结构可以通过检查Web服务器的分层目录结构来获取，所述分层目录结构通常用Web文件的URL来体现。提取出的文件集合的目录结构也可以被表示为一个二元组{父，子|父和子在所涉及的文件集合内，并且父在目录结构中是子的父}。收集链接关系和目录结构的方法属于本领域公知的技术，因此这里不再对此进行详述。

接下来，在步骤303a，从收集的链接中根据目录结构过滤出导航链接，并基于导航链接的集合提取出每个网页的导航路径集合(步骤304a)。在步骤305a，提取出的导航路径集合与在步骤301a处获取的网页集合一起被索引，并将索引结果存储到索引表数据库中。然后在步骤306a中，输入用户感兴趣的主题。在输入了用户感兴趣的主题之后，在步骤307a，根据在步骤303a处提取出的导航路径集合对获取的网页执行主题相关的过滤。然后，该过程结束。

与图3A类似，该过程开始于获取一个或多个域中的所有网页(步骤301b)。然后在步骤302b中，通过主题输入器输入用户感兴趣的主题。在步骤303b中，根据用户输入的主题首先对获取的所有网页进行预过滤，以初步过滤掉与主题无关的某些网页。然后在步骤304b中，仅针对在步骤303b中预过滤出的网页收集链接关系和目录结构信息。随后与图3A所示过程类似，在步骤305b中，根据目录结构过滤出导航链接。在步骤306b中，基于导航链接的集合提取出经预过滤得到的每个网页的导航路径集合。在步骤307b中，提取出的导航路径集合与获取的网页集合一起被索引，并将索引结果存储到索引表数据库中。在步骤308b中，根据提取出的导航路径集合对获取的网页执行主题相关的过滤。然后，该过程结束。

下面将参考图4、5、6来详细描述根据本发明第二实施例的导航链接过滤和导航路径提取过程。其中，图4是示出根据本发明第二实施例的导航链接过滤过程的流程图；图5是用于说明图4所示导航链接过滤的一个网站结构示例的图；和图6是示出根据本发明第二实施例基于导航链接来提取导航路径集合的过程的流程图。

参考图4，导航链接的过滤包括三层过滤，即图4所示的第一过滤步骤401、第二过滤步骤402和第三过滤步骤403。在步骤401中，首先删除目录结构上由子网页指向父网页的反向链接。例如，参考图5，在该网站结构中，网页A1是网页A12的父，网页A2是网页A21的父，但是从子网页A12存在到父网页A1的反向链接L1，并且从子网页A21存在到父网页A2的反向链接L2。因此，在第一过滤步骤中，首先删除掉目录结构中的所有这样的反向链接L1和L2。然后在步骤402中，删除目录结构上的同一层次上的所有兄弟网页指向同一网页的链接。例如，参考图5，网页A11、A12、A21和A22处于一个层次上，并且分别通过链接L5、L6、L7和L8指向同一网页A222。在此情况下，在第二过滤步骤中，将删除掉这样的链接L5、L6、L7和L8。然后在步骤403处，删除同一语义块中的所有网页指向同一网页的链接。例如，在图5的情况下，假设处于同一层次上的网页A11和A12处于同一语义块并且分别通过链接L3和L4指向同一网页A111。在第三过滤步骤中，则删除掉这样的链接L3和L4。这样一来，经过导航链接过滤，得到导航链接的集合。

参考图6，将描述提取获取的每个网页的导航路径集合的过程。首先，在步骤601，针对获取的一个网页，在步骤602中，找到该网页所在域(例如网站)的索引页作为源网页，并建立针对该域的网页队列。然后在步骤603中，从该源网页开始，对该网页的所有导航链接进行处理。注意，这里已经通过先前的导航链接过滤删除了所有非导航链接，因此仅针对导航链接进行处理。假设针对网页a的导航链接L，在步骤604处，首先判断L所指向的网页与网页a是否处于同一域内。如果是，则在步骤605处，将L的锚文本和L指向网页的标题添加到a的导航路径并将L指向的网页添加到该域的网页队列。如果确定L所指向的网页与网页a不在同一域内，则在步骤606，将L的锚文本和L指向网页的标题添加到a的导航路径，但不将L指向的网页添加到该域的网页队列。然后，过程返回步骤602，以针对该网页重新找到其所在域的主页作为源网页，并建立新域的网页队列。接下来，针对这个找到的新域，重复步骤602以下的过程。在步骤605之后，判断针对该网页是否还存在下一导航链接。如果是，则针对下一导航链接(步骤608)重复以上过程。如果不存在下一导航链接，则在步骤609处判断该域的网页队列中是否存在下一待处理的网页。如果是，则提取出下一网页(步骤610)并返回步骤603以对该新获取的网页的所有导航链接进行处理。如果不再有剩余网页，则过程结束。

以上参考附图描述了本发明的第二实施例，其中在提取导航路径集合之前先行对链接集合进行过滤以得到导航链接，并基于过滤出的导航链接提取导航路径集合，从而提高网页过滤的准确性。下面将参考图7和8来描述本发明的第三实施例。

图7是示出根据本发明第三实施例的网页过滤系统100c的结构框图。与图2A和2B所示第二实施例的情况相比，网页过滤系统100c的区别在于导航链接过滤器110被包括在导航路径提取装置103中，以在提取导航路径的过程中逐步实现导航链接的过滤，而不是像第二实施例那样，在提取之前就已经先行过滤出导航链接。图7所示系统100c的其他组件与第二实施例类似，因此这里不再对它们进行详述。值得注意的是，图7中示出主题输入器111被耦合到网页过滤装置105的情况，但是与第二实施例一样，主题输入器111也可以被耦合到并入在网页获取装置101和链接关系收集装置102之间的预过滤装置113，从而实现在提取导航路径之前对网页组进行的主题相关的预过滤，如图2B所示。

图8是示出图7所示根据本发明第三实施例的系统100c的导航路径提取过程的流程图。这里应该注意，第三实施例中除了导航路径提取过程之外的其他步骤类似于第二实施例，因此可以参考图3A和3B所示过程及其描述，这里不再赘述。该过程开始于步骤801，其中针对获取的一个网页，在步骤802中，找到该网页所在域(例如网站)的主页作为源网页，并建立针对该域的网页队列。然后在步骤803中，从该源网页开始，对每个网页的所有链接进行处理。注意，不同于第一实施例，这里并未对链接进行先行过滤，因此该步骤需要针对每个网页的所有链接进行处理。然后，针对网页a的链接L，在步骤804处，首先判断L所指向的网页与网页a是否处于同一域内。如果是，过程则前进至步骤805，在该步骤中，将对链接L是否是导航链接进行判断。如果在步骤804处确定L所指向的网页与网页a不在同一域内，则在步骤806中，将L的锚文本和L指向网页的标题添加到a的导航路径，但不将L指向的网页添加到该域的网页队列。然后，过程返回步骤802，以针对该网页重新找到其所在域的主页作为源网页，并建立新域的网页队列。接下来，针对这个找到的新域，重复步骤802以下的过程。当在步骤804处已经确定L所指向的网页与网页a处于同一域内时，则进一步判断L所指向的网页是否已存在于该域的网页队列中(步骤805)，即判断链接L所指向的网页是否已经在先前提取出的导航路径中出现过。如果是，则认为该链接L不是导航链接，并且过程前进到步骤809以针对下一链接重复以上过程。如果在步骤805处确定L指向的网页尚未出现过，则认定该链接是导航链接，并且过程前进到步骤807，其中将L的锚文本和L指向网页的标题添加到a的导航路径并将L指向的网页添加到该域的网页队列。然后，在步骤808，判断针对该网页是否还存在下一链接。如果是，则针对下一链接(步骤809)重复以上过程。如果不存在下一链接，则在步骤810处判断该域的网页队列中是否存在下一待处理的网页。如果是，则提取出下一网页(步骤811)并返回步骤803以对该新获取的网页的所有链接进行处理。如果不再有剩余网页，则过程结束。

以上已经描述了根据本发明第二实施例和第三实施例的基于导航链接的导航路径集合提取过程。由于导航路径在随后将描述的网页过滤中起到非常重要的作用，因此提取方法需要被仔细地设计，以保证提取出的导航路径集合的质量和最后得到的网页过滤结果的质量。但是，本领域技术人员将会理解，过滤导航链接以及提取导航路径的过程并不局限于这里描述的两个实施例。可以根据实际需求设计和采用其他提取方法。

返回参考图3A或3B，在导航路径集合被提取出之后，利用获取的网页集合中的网页对提取出的导航路径集合进行索引，然后索引结果被用于主题相关的网页过滤。下面将参考图9描述主题相关的网页过滤过程的一个示例。

如上所述，用户可以通过主题输入器111输入感兴趣的主题。通常，对于一个网页，如果其URL、标题或指向其的锚文本之一包括与主题相关的关键字，则判定该网页为明确主题相关页。如果确定一个网页是明确主题相关页，则可以从该明确主题相关页导航到的所有网页都也被认为是可能的主题相关网页。并且，通常沿着导航路径离明确主题相关页越近的网页是主题相关网页的可能性越高。因此，为了充分利用导航路径信息，通常应该预先准备好若干与主题相关的本体(ontology)术语(与主题相关的关键字)。并且为了进一步提高精确性，还可以可选地预先准备与主题无关的本体术语(与主题无关的关键字)。例如，在一个公司网站内，假设用户需要获取与产品(主题)相关的网页。则用户可以预先确定与产品相关的本体术语(关键字)“产品”、“方案”、“服务”等等，同时还可以确定与产品无关的本体术语，例如“新闻”、“论坛”、“支持”等等。

参考图9，在步骤901，首先通过主题输入器111输入用户感兴趣的主题。然后在步骤902，根据输入的主题来选择预先存储的相关本体术语和无关本体术语。在步骤903，针对获取的网页组中的一个网页a，在步骤904中，根据选择出的本体术语判断网页a是否是明确主题相关页或明确主题无关页。这里的判断方法可以采用本领域已知的相似性测量技术。如果在步骤904处确定网页a是明确主题相关页，则保存网页a(步骤905)。如果在步骤904处确定网页a是明确主题无关页，则丢弃网页a(步骤906)。如果在步骤904处无法明确判定网页a的类型，过程则前进至步骤907。在步骤907，判断该网页a能够从其他明确主题相关页导航到。如果能，则确定网页a为候选网页(步骤908)，如果否，则丢弃网页a(步骤909)。在确定网页a为候选网页之后，在步骤910，进一步判断网页a沿导航路径与任意明确主题相关页之间的最短距离是否小于阈值。如果是，则确定网页a为主题相关网页并保存网页a(步骤911)，如果不小于阈值，则在步骤912中将该网页a视为未决网页。对于未决网页，在步骤913中，进一步判断该网页a是否能够沿导航路径被任意明确主题无关页导航到。如果能够被导航到，则删除该网页a(步骤914)，如果否，则确定网页a为主题相关网页并保存网页a(步骤915)。然后，对获取的网页组中的下一网页(步骤916)重复上述过程，以对其进行过滤，直到所有网页都被处理过为止。

需要指出的是，图9所示过程仅仅是根据本发明的网页过滤过程的一个示例，本发明并不局限于该示例。本领域技术人员可以设想，在其他应用中，可以根据实际需求来具体设计过滤规则，并且过滤方法也不局限于主题相关的网页过滤。

图10是被用于实现本发明的计算机系统1000的示意性框图。如图所示，该计算机系统1000包括CPU 1001、用户接口1002、外围设备1003、存储器1005、永久存储设备1006以及将它们彼此相连的总线1004。存储器1005中包含有路径排名与网页过滤模块、网络爬虫&网页解析模块、操作系统(OS)等等。本发明主要与路径排名与网页过滤模块相关，其例如是图1所示的路径排名与网页过滤模块10。网络爬虫&网页解析模块可被用于从网络上获取网页，并将其存储在网页数据库中。永久存储设备1006存储了本发明所涉及的各种数据库，例如网页数据库106、导航路径数据库107、索引表数据库108、结果网页数据库109等等。

以上分别描述了根据本发明第一实施例和第二实施例的基于导航路径集合的网页过滤系统及其操作过程。根据上述描述可以看出，网页的导航路径被提取出，作为相应网页的上下文信息，并且提取出的导航路径集合结合网页被索引以生成索引表。这样一来，不仅网页的链接结构还有引导用户在Web中导航的所有潜在文本都被用于高质量的网页过滤。另外，一个给定网页可能具有多条导航路径，其中每条导航路径可能是由不同作者设计的，用于指向该网页。如果出现在每条导航路径中的文本被看作从一个特定方面关于目标网页的内容的一种概括或陈述，则可以通过这些导航路径的集合反映出来自多个作者或上下文的多个视角，这可以确保网页过滤的客观性。

上面已经参考附图描述了根据本发明的具体实施例。但是，本发明并不限于图中示出的特定配置和处理。并且，为了简明起见，这里省略对这些已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明的元素可以实现为硬件、软件、固件或者它们的组合，并且可以用在它们的系统、子系统、部件或者子部件中。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种网页过滤方法，该方法包括以下步骤：

获取一个或多个网页集合中的所有网页；

收集所述所有网页之间的链接关系；

基于所述链接关系提取出所述获取的所有网页的导航路径集合；以及

基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。

2.如权利要求1所述的网页过滤方法，还包括：

在提取出所述导航路径集合之后，利用所述获取的每个网页对所述提取出的导航路径集合进行索引；以及

基于所述经索引的导航路径集合对所述所有网页进行过滤。

3.如权利要求1所述的网页过滤方法，还包括：

收集各个所述网页集合的目录结构；以及

根据所述目录结构从相应网页集合的链接关系中删除掉所有非导航链接以获得导航链接集合，并且

基于所述导航链接集合提取出每个所述网页的所述导航路径集合。

4.如权利要求3所述的网页过滤方法，其中所述非导航链接是以下三种链接中的至少一种：

所述目录结构上由子指向父的链接；

所述目录结构上的同一层次上的所有兄弟网页指向同一网页的链接；以及

所述目录结构上同一语义块中的所有网页指向同一网页的链接。

5.如权利要求3所述的网页过滤方法，其中提取所述导航路径集合包括：

a.从所述获取的所有网页中选择一个网页；

b.建立所述网页所属网页集合的网页队列并以该网页集合的索引页作为源网页；并且

c.从所述源网页开始，针对该网页的每条导航链接：

如果该导航链接指向的网页与所述网页处于同一网页集合，则将对应于该导航链接的锚文本和该导航链接指向的网页的标题添加到所述网页的导航路径，并将该导航链接指向的网页添加到所述网页所属网页集合的网页队列并返回步骤c考虑所述网页的下一导航链接；否则

如果该导航链接指向的网页与所述网页处于不同的网页集合，则将对应于该导航链接的锚文本和该导航链接指向的网页的标题添加到所述网页的导航路径，并且返回步骤b以建立该导航链接指向的网页所属网页集合的网页队列并以该网页集合的索引页作为源网页继续步骤c的处理。

6.如权利要求1所述的网页过滤方法，其中提取所述导航路径集合包括：

a.从所述获取的所有网页中选择一个网页；

c.从所述源网页开始，针对该网页的每条链接：

如果该链接指向的网页与所述网页处于同一网页集合，则判断该链接指向的网页是否已存在于该网页集合的网页队列中，如果否，则将对应于该链接的锚文本和该链接指向的网页的标题添加到所述网页的导航路径，并将该链接指向的网页添加到所述网页所属网页集合的网页队列，如果是，则返回步骤c考虑所述网页的下一链接；否则如果该链接指向的网页与所述网页处于不同的网页集合，则将对应于该链接的锚文本和该链接指向的网页的标题添加到所述网页的导航路径，并且返回步骤b以建立该链接指向的网页所属网页集合的网页队列并以该网页集合的索引页作为源网页继续步骤c的处理。

7.如权利要求1所述的网页过滤方法，其中所述网页过滤是主题相关的过滤，所述方法还包括：

在所述提取之后输入预定主题；并且

基于所述导航路径集合，根据所述预定主题对所述获取的所有网页进行过滤以得到所述所需网页。

8.如权利要求1所述的网页过滤方法，其中所述网页过滤是主题相关的过滤，所述方法还包括：

在所述提取之前输入预定主题；

根据所述预定主题对所述获取的所有网页执行主题相关的预过滤；

提取出所述经预过滤的网页的导航路径集合；并且

基于所述导航路径集合，根据所述预定主题对所述经预过滤的网页进行过滤以得到所述所需网页。

9.如权利要求7或8所述的网页过滤方法，其中执行所述主题相关的过滤包括：

根据所述预定主题选择相关本体术语和无关本体术语；

根据所述相关本体术语和无关本体术语来判断网页是否是明确主题相关页和明确主题无关页；

保存所述明确主题相关页作为所述所需网页，并且丢弃所述明确主题无关页；并且

对于既不属于所述明确主题相关页也不属于所述明确主题无关页的网页：

如果该网页无法经由任意导航路径从任意所述明确主题相关页被导航到，则丢弃该网页，否则将该网页视为候选网页；

如果所述候选网页与任意所述具有明确主题相关页之间的距离小于预定阈值，则保存该网页作为所述所需网页，否则将该网页视为未决网页；

如果所述未决网页可以通过任意导航路径从任意所述明确主题无关页被导航到，则丢弃该网页，否则保存该网页作为所述所需网页。

10.如权利要求1所述的网页过滤方法，其中所述网页集合是域、子域或目录。

11.一种基于网页的导航路径集合的网页过滤方法，其中所述导航路径是由在从顶端网页到目标网页的路径上的网页的标题、锚文本、URL的组合构成的列表，该方法包括以下步骤：

获取一个或多个网页集合中的所有网页；

收集所述所有网页之间的链接关系；

12.一种网页过滤系统，包括：

网页获取装置，用于获取一个或多个网页集合中的所有网页；

链接关系收集装置，用于收集所述所有网页之间的链接关系；

导航路径提取装置，用于基于所述链接关系提取出所述获取的所有网页的导航路径集合；以及

网页过滤装置，用于基于所述提取出的导航路径集合对所述所有网页进行过滤以得到所需网页。

13.如权利要求12所述的网页过滤系统，还包括：

耦合在所述导航路径提取装置和所述网页过滤装置之间的索引装置，用于利用所述获取的每个网页对所述提取出的导航路径集合进行索引，并且

所述网页过滤装置被配置为基于所述经索引的导航路径集合对所述所有网页进行过滤以得到所需网页。

14.如权利要求12所述的网页过滤系统，还包括：

目录结构收集装置，用于收集各个所述网页集合的目录结构；以及

导航链接过滤器，用于根据所述目录结构从相应网页集合的链接关系中删除掉所有非导航链接以获得导航链接集合，

其中所述导航路径提取装置基于所述导航链接集合提取出每个所述网页的所述导航路径集合。

15.如权利要求14所述的网页过滤系统，其中所述非导航链接是以下三种链接中的至少一种：

所述目录结构上由子指向父的链接；

16.如权利要求14所述的网页过滤系统，其中所述导航路径提取装置被配置为：

a.从所述获取的所有网页中选择一个网页；

c.从所述源网页开始，针对该网页的每条导航链接：

如果该导航链接与所述网页处于同一网页集合，则将对应于该导航链接的锚文本和该导航链接指向的网页的标题添加到所述网页的导航路径，并将该导航链接指向的网页添加到所述网页所属网页集合的网页队列并返回步骤c考虑所述网页的下一导航链接；否则

如果该导航链接与所述网页处于不同的网页集合，则将对应于该导航链接的锚文本和该导航链接指向的网页的标题添加到所述网页的导航路径，并且返回步骤b以建立该导航链接指向的网页所属网页集合的网页队列并以该网页集合的索引页作为源网页继续步骤c的处理。

17.如权利要求12所述的网页过滤系统，其中所述导航路径提取装置被配置为：

a.从所述获取的所有网页中选择一个网页；

c.从所述源网页开始，针对该网页的每条链接：

如果该链接与所述网页处于同一网页集合，则判断该链接指向的网页是否已存在于该网页集合的网页队列中，如果否，则将对应于该链接的锚文本和该链接指向的网页的标题添加到所述网页的导航路径，并将该链接指向的网页添加到所述网页所属网页集合的网页队列，如果是，则返回步骤c考虑所述网页的下一链接；否则

如果该链接与所述网页处于不同的网页集合，则将对应于该链接的锚文本和该链接指向的网页的标题添加到所述网页的导航路径，并且返回步骤b以建立该链接指向的网页所属网页集合的网页队列并以该网页集合的索引页作为源网页继续步骤c的处理。

18.如权利要求12所述的网页过滤系统，其中所述网页过滤是主题相关的过滤，所述系统还包括：

耦合到所述网页过滤装置的主题输入器，用于输入预定主题；

其中所述网页过滤装置基于所述导航路径集合，根据所述预定主题对所述获取的所有网页进行过滤以得到所述所需网页。

19.如权利要求12所述的网页过滤系统，其中所述网页过滤是主题相关的过滤，所述系统还包括：

耦合在所述网页获取装置和所述链接关系收集装置之间的预过滤装置；以及

耦合到所述预过滤装置的主题输入器，用于输入预定主题；

其中所述预过滤装置根据通过所述主题输入器输入的所述预定主题对所述获取的所有网页执行主题相关的预过滤，所述导航路径提取装置提取出所述经预过滤的网页的导航路径集合，并且所述网页过滤装置基于所述导航路径集合，根据所述预定主题对所述经预过滤的网页进行过滤以得到所述所需网页。

20.如权利要求18或19所述的网页过滤系统，所述网页过滤装置被配置为：

根据所述预定主题选择相关本体术语和无关本体术语；

如果该网页无法经由任意导航路径从任意所述明确主题相关页被

导航到，则丢弃该网页，否则将该网页视为候选网页；

如果所述候选网页与任意所述具有明确主题相关页之间的距离小于预定阈值，则保存该网页作为所述所需网页，否则将该网页视为未决

网页；

如果所述未决网页可以通过任意导航路径从任意所述明确主题无

关页被导航到，则丢弃该网页，否则保存该网页作为所述所需网页。

21.如权利要求12所述的网页过滤系统，其中所述网页集合是域、子域或目录。

22.一种基于网页的导航路径集合的网页过滤系统，其中所述导航路径是在从顶端网页到目标网页的路径上的网页的标题、锚文本、URL的组合构成的列表，所述网页过滤系统包括：