CN102902793B

CN102902793B - 网页类别知识库的建立系统及方法

Info

Publication number: CN102902793B
Application number: CN201210376391.8A
Authority: CN
Inventors: 卢宏林
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2012-09-29
Filing date: 2012-09-29
Publication date: 2016-12-21
Anticipated expiration: 2032-09-29
Also published as: CN102902793A

Abstract

本发明公开了一种网页类别知识库的建立系统，涉及互联网技术领域，该系统包括：样本页面框架ID计算模块，适于抽取样本网页的页面框架，计算样本网页的页面框架ID；模式累计模块，适于累计相同ID的页面框架数量达到阈值时，计算样本网页的页面框架模式；知识库建立模块，适于建立样本网页的类别和所述页面框架模式的映射关系以生成网页类别知识库；其中，所述知识库建立模块进一步包括权重设定模块和映射表建立模块。本发明还公开了一种网页类别知识库的建立方法。根据本发明的网页类别知识库的建立系统及方法可以建立识别网页类别的知识库以快速识别网页类别，由此解决了全网搜索无法区分网页类别的问题，取得了快速识别网页类别的有益效果。

Description

网页类别知识库的建立系统及方法

技术领域

本发明涉及互联网技术领域，具体涉及一种网页类别知识库的建立系统及方法。

背景技术

在搜索技术中，基本上分为两大类。一类是以整个互联网为对象，抓取全部网页（目前在一个站点内会限制抓取深度，且一般不处理js（java script），而且只是处理部分动态页面），并对网页进行处理和分析的网页搜索，即全网搜索。另一类是只针对某类页面进行抓取和分析处理的垂直搜索，如：图片搜索、视频搜索、博客搜索、论坛搜索、新闻搜索等。对于大部分垂直搜索来说，目前都是基于种子（也称作列表页）进行处理。垂直搜索的处理可分为两个部分：其一是找种子；其二是从种子页面上发现具体产品页面，即不同类别（图片、视频、新闻等）的页面，然后对这些产品页面进行处理。

现有的全网搜索，基本上不考虑垂直搜索的需求，无法分类不同的产品，即无法区分网页类别，只能为垂直搜索辅助发掘一些有用的信息。如果既有垂直搜索，由于网页搜索，两者的分析处理方式不同。系统之间互相独立，全网搜索下载、分析处理过的页面，垂直搜索还会独立的进行下载和分析处理，无法共享资源，两者不能有机的整合使垂直搜索共享全网搜索的资源。因此，建立能够自动识别网页类别的知识库是亟待解决的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页类别知识库的建立系统及方法。

依据本发明的一个方面，提供了网页类别知识库的建立系统，包括：

样本页面框架ID计算模块，适于抽取样本网页的页面框架，计算样本网页的页面框架ID；

模式累计模块，适于累计相同ID的页面框架数量达到阈值时，计算样本网页的页面框架模式；

知识库建立模块，适于建立样本网页的类别和所述页面框架模式的映射关系以生成网页类别知识库。

可选地，所述知识库建立模块进一步包括：

权重设定模块，适于按照不同样本网页的类别，为该类别的页面框架模式中的各个网页特征赋予预先设定权重；

映射表建立模块，适于建立样本网页的类别与该类别的各个网页特征及权重的关系映射表，以生成网页类别知识库。

可选地，页面框架ID计算模块进一步包括：页面框架抽取模块，适于根据样本网页源代码中的html语言标签抽取所述样本网页的页面框架。

可选地，页面框架ID计算模块进一步包括：页面框架抽取模块，适于按标点识别出样本网页的正文，去除正文以得到所述样本网页的页面框架。

可选地，所述模式累计模块进一步包括：

待定列表页识别模块，适于判断是否有位于页面内固定位置块内且稳定存在一定时间的链接，若有，则设定所述样本网页为待定列表页；

列表页框架模式确定模块，适于每隔一段时间内调度一次所述待定列表页，如果所述链接不断更新为新链接，就将所述样本网页的页面框架模式设为列表页框架模式。

根据本发明的另一方面，提供了网页类别知识库的建立方法，包括以下步骤：

抽取样本网页的页面框架，计算样本网页的页面框架ID；

累计相同I D的页面框架数量达到阈值时，计算样本网页的页面框架模式；

建立样本网页的类别和所述页面框架模式的映射关系，以生成网页类别知识库。

可选地，所述建立样本网页的类别和所述页面框架模式的映射关系以生成网页类别知识库具体包括：

按照不同样本网页的类别，为该类别的页面框架模式中的各个网页特征赋予预先设定权重；

建立样本网页的类别与该类别的各个网页特征及权重的关系映射表，以生成网页类别知识库。

可选地，抽取所述样本网页的页面框架的方式为：根据样本网页源代码中的html语言标签抽取所述样本网页的页面框架。

可选地，抽取所述样本网页的页面框架的方式为：按标点识别出样本网页的正文，去除正文以得到所述样本网页的页面框架。

可选地，列表页框架模式计算的方式为：

判断是否有位于页面内固定位置块内且稳定存在一定时间的链接，若有，则设定所述样本网页为待定列表页；

每隔一段时间内调度一次所述待定列表页，如果所述链接不断更新为新链接，就将所述样本网页的页面框架模式设为列表页框架模式。

根据本发明的网页类别知识库的建立系统及方法可以建立识别网页类别的知识库以快速识别网页类别，由此解决了全网搜索无法区分网页类别的问题，取得了快速识别网页类别的有益效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的网页类别知识库的建立方法流程图;

图2示出了图1中步骤S130的具体流程图；

图3示出了根据本发明一个实施例的网页类别知识库的建立系统结构示意图；

图4示出了图3中知识库建立模块具体结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本实施例的网页类别知识库的建立方法流程如图1所示，包括：

步骤S110，抽取样本网页的页面框架，并计算样本网页的页面框架ID。样本网页是预先选取的已知其网页类别的网页。抽取样本网页的页面框架的方式为：根据网页源代码中的html语言标签抽取样本网页的页面框架，抽取时只保留html语言标签中框架类的标记，如：frame、table等，同时保留id、name、class属性，去掉其余属性。还可以按标点识别出网页正文，去除正文以得到样本网页的页面框架。抽取页面框架后将页面内属性根据哈希算法计算页面框架的hash值，即为页面框架ID，例如：抽取页面框架后利用MD5或FNV等哈希技术方法计算页面框架的hash值，即将框架类的标记。如：frame、table及其id、name、class属性等按哈希算法进行计算，所得结果值即为样本网页的页面框架ID。由于采用相同的哈希函数，相同的页面框架计算出的页面框架ID也相同。

步骤S120，累计相同ID的页面框架数量达到阈值时，计算样本网页的页面框架模式。计算时分标题、时间、正文等分别计算，计算方法可以采用机器自动学习机制，如：采用支持向量机（support vector machine，SVM）计算页面框架模式。学习时将样本网页转换成基于Html语言的源代码，并抽取html语言标签关键标记，得到页面框架，这一步在步骤S110中已经实现。将页面框架输入SVM进行学习，即对页面框架进行html语言标签关键标记的匹配，若干相同ID的页面框架中的html语言标签关键标记能够完全匹配，因此，对于相同ID的页面框架学习到上述阈值的数量后，SVM便输出相应页面框架的页面框架模式。在学习之前对于页面框架还需要做如下操作：将标题与title或anchor（锚点）里的可变内容匹配；时间要按照时间的格式计算；正文要有一定的可变比率和长度要求，这样可以剔除广告等垃圾内容。

为了防止某些样本网页长时间得不到处理，判断在预定时间内对应同一ID的样本网页的页面框架数量是否累计达到该阈值，若没有，则将该ID对应的阈值以一定的步长递减。其中该阈值优选为23。

步骤S130，建立样本网页的类别和其页面框架模式的映射关系，以生成网页类别知识库。其具体生成步骤如图2所示，包括：

步骤S210，按照不同样本网页的类别，为该类别的页面框架模式中的各个网页特征赋予预先设定权重。

步骤S220，建立样本网页的类别与该类别的各个网页特征及权重的关系映射表，以生成网页类别知识库。

其中，样本类别包括：图片、视频、博客、论坛（bbs）及新闻等网页类别。每个类别的样本网页的页面框架模式具有若干不同的网页特征，若干不同的网页特征共同表征一个页面框架模式，即一种类别的网页。当然，两个不同的类别的网页可能包含一个或多个（不是全部）相同的网页特征，但是权重可能不同，例如：论坛（bbs）和新闻都包括“标题、时间、正文”的网页特征。按上述步骤生成的网页类别知识库具体形式为网页类别与其对应的页面框架模式下的网页特征及权重映射表，如下表1所示：

表1网页类别与其对应的页面框架模式下的网页特征及权重映射表

上表只列出了部分信息，意在说明网页类别与其对应的页面框架模式下的网页特征及权重映射的映射关系。从上表可看出，新闻网页的页面框架模式，其中的两个网页特征：（1）url里包含news关键字，（2）页面模式中有标题、时间、正文。其权重分别为50和30。页面模式中有标题、时间、正文也可以是bbs（论坛）网页的页面框架模式的网页特征，其权重为20。bbs还具有特征：url中含有bbs或forum，其权重为50。列表页的网页特征包括：url里包含“更多”关键字、导航栏模式及网页为一级域名等，设置的权重分别为：30、50和60。

采用网页类别知识库识别目标页面框架模式的类别时，按照表中的不同类别的权重为该目标页面框架模式进行打分。例如，如果url中含有bbs或forum，那么就为bbs加50分，如果url里有news，就为新闻加50分。如果在页面模式中有标题、时间、正文，就为新闻加30分，也可以为bbs加20分。如果有楼层、回复数等信息，就各自为bbs加一些分数。如此等等。若目标页面框架模式的所有特征匹配后按新闻类权重所得的分数最高，那么将该页面框架模式归为新闻类别。

对于列表页，可以按照上述步骤S120中的SVM学习方法计算其页面框架模式，由于列表页的网页特征的特殊性，包括：网页对应的域名为一级域名；导航栏模式；包括“更多”关键字等。因此，也可以在步骤S120中按下述方式直接识别列表页：

判断网页对应的域名是否为一级域名，若是，则设置该网页为列表页。若网页对应的域名不为一级域名，则按以下方式识别列表页：判断是否有位于页面内固定位置块内且稳定存在一定时间的链接，若有，则设定该网页为待定列表页；每隔一段时间内调度一次所述待定列表页，如果所述链接不断更新为新链接，就将该网页的页面框架模式设为列表页框架模式，即该网页为列表页。例如：网页最顶端的导航栏，及网页框架中包括“更多”字样的部分通常都是位于页面中固定块内的链接，即包含导航栏和“更多”字样的网页均为列表页。

本实施例的网页类别知识库的建立方法建立了能够快速识别网页类别的知识库，解决了全网搜索无法区分网页类别的问题，为垂直搜索和全网搜索的整合奠定了基础。

本发明还提供了一种网页类别知识库的建立系统3，具体结如图3所示，包括：样本页面框架ID计算模块310、模式累计模块320及知识库建立模块330。

样本页面框架ID计算模块310适于抽取样本网页的页面框架，计算样本网页的页面框架ID。样本页面框架ID计算模块310进一步包括：页面框架抽取模块，适于根据样本网页源代码中的html语言标签抽取所述样本网页的页面框架；还适用于按标点识别出样本网页的正文，去除正文以得到所述样本网页的页面框架。

模式累计模块320适于累计相同ID的页面框架数量达到阈值时，计算样本网页的页面框架模式。模式累计模块进一步包括：阈值调节模块，适于判断在预定时间内对应同一ID的样本网页的页面框架数量是否累计达到所述阈值，若没有，则将该ID对应的阈值以一定的步长递减。

模式累计模块320进一步包括：域名识别模块，适于判断网页对应的域名是否为一级域名，若是，则设置该网页为列表页。模式累计模块320还进一步包括：待定列表页识别模块，适于判断是否有位于页面内固定位置块内且稳定存在一定时间的链接，若有，则设定该网页为待定列表页；列表页框架模式确定模块，适于每隔一段时间内调度一次所述待定列表页，如果所述链接不断更新为新链接，就将所述网页的页面框架模式设为列表页框架模式。

知识库建立模块330适于建立样本网页的类别和所述页面框架模式的映射关系以生成网页类别知识库。知识库建立模块330具体结构如图4所示，进一步包括：

权重设定模块410，适于按照不同样本网页的类别，为该类别的页面框架模式中的各个网页特征赋予预先设定权重；

映射表建立模块420，适于建立样本网页的类别与该类别的各个网页特征及权重的关系映射表，以生成网页类别知识库。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的网页类别知识库的建立系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于抽取页面框架的网页类别知识库建立系统，包括：

样本页面框架ID计算模块，适于抽取已去除样本网页正文的页面框架，计算样本网页的页面框架ID；

映射表建立模块，适于建立样本网页的类别与该类别的各个网页特征及权重的关系映射表，以生成基于页面框架的网页类别知识库。

2.如权利要求1所述的网页类别知识库的建立系统，其特征在于，页面框架ID计算模块进一步包括：页面框架抽取模块，适于根据样本网页源代码中的html语言标签抽取所述样本网页的页面框架。

3.如权利要求1～2中任一项所述的网页类别知识库的建立系统，其特征在于，页面框架ID计算模块进一步包括：页面框架抽取模块，适于按标点识别出样本网页的正文，去除正文以得到所述样本网页的页面框架。

4.如权利要求1～2中任一项所述的网页类别知识库的建立系统，其特征在于，所述模式累计模块进一步包括：

5.一种基于抽取页面框架的网页类别知识库建立方法，包括以下步骤：

抽取已去除样本网页正文的页面框架，计算样本网页的页面框架ID；

累计相同ID的页面框架数量达到阈值时，计算样本网页的页面框架模式；

建立样本网页的类别与该类别的各个网页特征及权重的关系映射表，以生成基于页面框架的网页类别知识库。

6.如权利要求5所述的网页类别知识库的建立方法，其特征在于，抽取所述样本网页的页面框架的方式为：根据样本网页源代码中的html语言标签抽取所述样本网页的页面框架。

7.如权利要求5～6中任一项所述的网页类别知识库的建立方法，其特征在于，抽取所述样本网页的页面框架的方式为：按标点识别出样本网页的正文，去除正文以得到所述样本网页的页面框架。

8.如权利要求5～6中任一项所述的网页类别知识库的建立方法，其特征在于，列表页框架模式计算的方式为：