CN102902784A

CN102902784A - 网页分类存储系统及方法

Info

Publication number: CN102902784A
Application number: CN2012103753390A
Authority: CN
Inventors: 卢宏林
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2012-09-29
Filing date: 2012-09-29
Publication date: 2013-01-30
Anticipated expiration: 2032-09-29
Also published as: CN102902784B

Abstract

本发明公开了一种网页分类存储系统，涉及互联网技术领域，该系统包括：页面框架ID计算模块和页面框架存储模块；其中，所述页面框架存储模块具体适于在当前子目录下查找以所述页面框架ID为名称的目录是否存在，若存在，则将页面框架存储在相应ID的目录下，若不存在，则创建以所述页面框架ID为名称的目录，再将页面框架存储在相应ID的目录下。本发明还公开了一种网页分类存储方法。本发明的网页分类存储系统及方法可以将相同类别的网页存储在同一个目录下，由此解决了全网搜索的结果不会按网页类别存储的问题，由于将搜索结果按网页类别存储，降低了垂直搜索对页面框架模式识别时的干扰因素。

Description

网页分类存储系统及方法

技术领域

本发明涉及互联网技术领域，具体涉及一种网页分类存储系统及方法。

背景技术

在搜索技术中，基本上分为两大类。一类是以整个互联网为对象，抓取全部网页（目前在一个站点内会限制抓取深度，且一般不处理js（java script），而且只是处理部分动态页面），并对网页进行处理和分析的网页搜索，即全网搜索。另一类是只针对某类别的页面进行抓取和分析处理的垂直搜索，如：图片搜索、视频搜索、博客搜索、论坛搜索、新闻搜索等。对于大部分垂直搜索来说，目前都是基于种子（也称作列表页）进行处理。垂直搜索的处理可分为两个部分：其一是找种子；其二是从种子页面上发现具体产品页面，即不同类别（图片、视频、新闻等）的页面，然后对这些产品页面进行处理。

现有的全网搜索，基本上不考虑垂直搜索的需求，无法区分网页类别，且对每一个页面的处理原则基本上是一致的。因此全网搜索时抓取的网页都是统一存储，不会按网页类别存储如果类别不同页面放在一起进行模式识别，干扰因素太多，结果很难预料。若是垂直搜索想利用全网搜索的搜索结果，就必须将全网搜索的结果按网页类别分类，且按类别存储，以方便网页分类时的对网页页面框架的模式识别，如果把毫不相干的站点页面放在一起进行模式识别，干扰因素太多，结果很难预料。因此，对全网搜索的结果按网页类别分类存储是亟待解决的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网页分类存储系统及方法。

依据本发明的一个方面，提供了一种网页分类存储系统，包括：

页面框架ID计算模块，适于抽取预先获取的网页的页面框架，计算页面框架ID；

页面框架存储模块，适于将相同页面框架ID的页面框架存储在以所述页面框架ID为名称的目录下。

可选地，所述页面框架存储模块具体适于在当前子目录下查找以所述页面框架ID为名称的目录是否存在，若存在，则将页面框架存储在相应ID的目录下，若不存在，则创建以所述页面框架ID为名称的目录，再将页面框架存储在相应ID的目录下。

可选地，所述系统还包括：

框架数量统计模块，适于统计所述页面框架ID为名称的目录下页面框架数量；

网页内容存储模块，适于若达到阈值则计算页面框架模式，并按计算出的页面框架模式对该目录下的页面框架对应的网页进行数据内容下载，并将下载的数据内容存储在指定的目录下。

可选地，所述网页内容存储模块进一步包括：快速页面存储模块，适于将需要快速处理的下载页面存储在指定的快速处理目录下,所述需要快速处理的下载页面为网站首页及其直接下层页面中出现的新页面。

可选地，网页内容存储模块进一步包括：阈值调节模块，适于判断在预定时间内对应一ID的页面框架数量是否累计达到所述阈值，若没有，则将该ID对应的阈值以一定的步长递减。

可选地，所述页面框架ID计算模块进一步包括：哈希计算模块，适于采用哈希函数计算所述页面框架，并以哈希值的后n bit作为页面框架ID。

可选地，所述系统还包括：域名目录创建模块，适于对于同一站点的不同域名按不同优先级建立优先级目录，以所述页面框架ID为名称的目录位于每个域名下对应优先级目录下。

可选地，所述系统还包括：网页获取模块，适于通过全网搜索获取网页，并以站点为单位获取网页，同一站点下不同域名的对应的网页存储在相同的根目录下。

根据本发明的另一方面，提供了一种网页分类存储方法，包括以下步骤：

抽取预先获取的网页的页面框架，计算页面框架ID；

将相同页面框架ID的页面框架存储在以所述页面框架ID为名称的目录下。

可选地，所述将相同页面框架ID的页面框架存储在以所述页面框架ID为名称的目录下具体包括：

在当前子目录下查找以所述页面框架ID为名称的目录是否存在，若存在，则将页面框架存储在相应ID的目录下，若不存在，则创建以所述页面框架ID为名称的目录，再将页面框架存储在相应ID的目录下。

可选地，页面框架存储在所述页面框架ID为名称的目录下之后还包括步骤：

统计所述页面框架ID为名称的目录下页面框架数量，若达到阈值则计算页面框架模式，并按计算出的页面框架模式对该目录下的页面框架对应的网页进行数据内容下载，并将下载的数据内容存储在指定的目录下；若未达到所述阈值，则继续统计该目录下页面框架数量。

可选地，将所述需要快速处理的下载页面存储在指定的快速处理目录下,所述需要快速处理的下载页面为网站首页及其直接下层页面中出现的新页面。

可选地，判断在预定时间内对应一ID的页面框架数量是否累计达到所述阈值，若没有，则将该ID对应的阈值以一定的步长递减。

可选地，采用哈希函数计算所述页面框架，并以哈希值的后n bit作为页面框架ID。

可选地，在将相同页面框架ID的页面框架存储在以所述页面框架ID为名称的目录下之前还包括：对于同一站点的不同域名按不同优先级建立优先级目录，以所述页面框架ID为名称的目录位于每个域名下对应优先级目录下。

可选地，通过全网搜索抓取网页，并以站点为单位抓取网页，同一站点下不同域名的对应的网页存储在相同的根目录下。

根据本发明的网页分类存储系统及方法可以将相同类别的网页存储在同一个目录下，由此解决了全网搜索的结果不会按网页类别存储的问题，由于将搜索结果按网页类别存储，降低了垂直搜索对页面框架模式识别时的干扰因素。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的网页分类存储方法流程图；

图2示出了根据本发明一个实施例的网页分类存储系统结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本实施例的网页分类存储方法流程如图1所示，包括：

步骤S110，抽取预先获取的网页的页面框架，计算页面框架ID。预先获取的网页可以是全网搜索抓取的网页。抽取所述网页的页面框架的方式为：根据网页源代码中的html语言标签抽取所述网页的页面框架，抽取时只保留html语言标签中框架类的标记，如：frame、table等，同时保留id、name、class属性，去掉其余属性。还可以按标点识别出网页正文，去除正文以得到网页的页面框架。抽取页面框架后将页面内属性根据哈希算法计算页面框架的hash值，即为页面框架ID，例如：抽取页面框架后利用MD5或FNV等哈希技术方法计算页面框架的hash值，即将框架类的标记，如：frame、table及其id、name、class属性等按哈希算法进行计算，所得结果值即为页面框架ID。由于采用相同的哈希函数，相同的页面框架计算出的页面框架ID也相同。

本实施例中，优选采用哈希函数计算页面框架，并以哈希值的后n bit作为页面框架ID。其中n的取值使得不同页面框架计算出的页面框架ID的后n bit哈希值也不重复，例如：后8bit。这样也便于采用后n bit哈希值作为存储目录的名称。

步骤S120，将相同页面框架ID的页面框架存储在以页面框架ID为名称的目录下。在计算出网页的页面框架ID后，在当前子目录下查找以该页面框架ID为名称的目录是否存在，若存在，则将页面框架存储在相应ID的目录下，若不存在，则创建以该页面框架ID为名称的目录，再将页面框架存储在相应ID的目录下。

本实施例的网页分类存储方法按页面框架ID分类存储网页的页面框架，降低了垂直搜索对页面框架模式识别时的干扰因素，使得垂直搜索可以利用全网搜索的结果，提高了资源的利用效率，充分发挥了全网搜索覆盖度全面的优点，明显提升了垂直搜索的覆盖度。

由于页面框架模式识别需要积累一定数量的相同ID的页面框架，因此，进一步地，页面框架存储在页面框架ID为名称的目录下之后还包括步骤：

页面框架ID为名称的目录下页面框架数量，若达到阈值则计算页面框架模式，按计算出的页面框架模式对该目录下的页面框架对应的网页进行数据内容下载，并将下载的数据内容存储在指定的目录下。

若未达到该阈值，则继续统计该目录下页面框架数量。

为了防止某些网页长时间得不到处理，判断在预定时间内对应同一ID的页面框架数量是否累计达到该阈值，若没有，则将该ID对应的阈值以一定的步长递减。其中该阈值优选为23。

由于网页数据通常是网站首页及首页直接下层网页出现较多的更新页面，应优先处理网站首页及首页直接下层网页中的数据。因此，将网站首页及其直接下层页面中出现的新页面存储在指定的快速处理目录下。其他更深层次的页面往往是历史数据，可以慢一些处理。

进一步地，为适应同一站点的不同域名的优先级的需求，在将相同页面框架ID的页面框架存储在以页面框架ID为名称的目录下之前还包括：对于同一站点的不同域名按不同优先级建立优先级目录，以页面框架ID为名称的目录位于每个域名下对应优先级目录下。

若将毫不相干的站点页面放在一起进行模式识别，干扰因素太多，结果很难预料，因此，进一步地，本实施例中，通过全网搜索获取网页时以站点为单位获取网页，同一站点下不同域名的对应的网页存储在相同的根目录下。

本发明还提供了一种网页分类存储系统2，其结构示意图如图2所示，包括：页面框架ID计算模块210和网页框架存储模块220

页面框架ID计算模块210适于抽取预先获取的网页的页面框架，计算页面框架ID。页面框架ID计算模块进一步包括：哈希计算模块，适于采用哈希函数计算所述页面框架，并以哈希值的后n bit作为页面框架ID，如：后8bit。

页面框架存储模块220，适于将相同页面框架ID的页面框架存储在以所述页面框架ID为名称的目录下。页面框架存储模块220具体适于在当前子目录下查找以所述页面框架ID为名称的目录是否存在，若存在，则将页面框架存储在相应ID的目录下，若不存在，则创建以所述页面框架ID为名称的目录，再将页面框架存储在相应ID的目录下。

由于页面框架模式识别需要积累一定数量的相同ID的页面框架，因此，本实施例的网页分类存储系统还包括：

网页内容存储模块进一步包括：快速页面存储模块，适于将需要快速处理的下载页面存储在指定的快速处理目录下,所述需要快速处理的下载页面为网站首页及其直接下层页面中出现的新页面。

网页内容存储模块进一步包括：阈值调节模块，适于判断在预定时间内对应一ID的页面框架数量是否累计达到所述阈值，若没有，则将该ID对应的阈值以一定的步长递减。

本实施例的网页分类存储系统还包括：域名目录创建模块，适于对于同一站点的不同域名按不同优先级建立优先级目录，以所述页面框架ID为名称的目录位于每个域名下对应优先级目录下。

本实施例的网页分类存储系统还包括：网页获取模块，适于通过全网搜索获取网页，并以站点为单位获取网页，同一站点下不同域名的对应的网页存储在相同的根目录下。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的网页分类存储系统设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种网页分类存储系统，包括：

页面框架存储模块，适于将相同页面框架ID的页面框架存储在以所述页面框架ID为名称的目录下;

其中，所述页面框架存储模块具体适于在当前子目录下查找以所述页面框架ID为名称的目录是否存在，若存在，则将页面框架存储在相应ID的目录下，若不存在，则创建以所述页面框架ID为名称的目录，再将页面框架存储在相应ID的目录下。

2.如权利要求1所述的网页分类存储系统，其特征在于，所述系统还包括：

3.如权利要求1~2中任一项所述的网页分类存储系统，其特征在于，所述网页内容存储模块进一步包括：快速页面存储模块，适于将需要快速处理的下载页面存储在指定的快速处理目录下,所述需要快速处理的下载页面为网站首页及其直接下层页面中出现的新页面。

4.如权利要求1~3中任一项所述的网页分类存储系统，其特征在于，网页内容存储模块进一步包括：阈值调节模块，适于判断在预定时间内对应一ID的页面框架数量是否累计达到所述阈值，若没有，则将该ID对应的阈值以一定的步长递减。

5.如权利要求1~4中任一项所述的网页分类存储系统，其特征在于，所述页面框架ID计算模块进一步包括：哈希计算模块，适于采用哈希函数计算所述页面框架，并以哈希值的后n bit作为页面框架ID。

6.如权利要求1~5中任一项所述的网页分类存储系统，其特征在于，所述系统还包括：域名目录创建模块，适于对于同一站点的不同域名按不同优先级建立优先级目录，以所述页面框架ID为名称的目录位于每个域名下对应优先级目录下。

7.如权利要求1~6中任一项所述的网页分类存储系统，其特征在于，所述系统还包括：网页获取模块，适于通过全网搜索获取网页，并以站点为单位获取网页，同一站点下不同域名的对应的网页存储在相同的根目录下。

8.一种网页分类存储方法，包括以下步骤：

抽取预先获取的网页的页面框架，计算页面框架ID；

将相同页面框架ID的页面框架存储在以所述页面框架ID为名称的目录下；

其中，所述将相同页面框架ID的页面框架存储在以所述页面框架ID为名称的目录下具体包括：

9.如权利要求8所述的网页分类存储方法，其特征在于，页面框架存储在所述页面框架ID为名称的目录下之后还包括步骤：

10.如权利要求8~9中任一项所述的网页分类存储方法，其特征在于，将所述需要快速处理的下载页面存储在指定的快速处理目录下,所述需要快速处理的下载页面为网站首页及其直接下层页面中出现的新页面。

11.如权利要求8~10中任一项所述的网页分类存储方法，其特征在于，判断在预定时间内对应一ID的页面框架数量是否累计达到所述阈值，若没有，则将该ID对应的阈值以一定的步长递减。

12.如权利要求8~11中任一项所述的网页分类存储方法，其特征在于，采用哈希函数计算所述页面框架，并以哈希值的后n bit作为页面框架ID。

13.如权利要求8~12中任一项所述的网页分类存储方法，其特征在于，在将相同页面框架ID的页面框架存储在以所述页面框架ID为名称的目录下之前还包括：对于同一站点的不同域名按不同优先级建立优先级目录，以所述页面框架ID为名称的目录位于每个域名下对应优先级目录下。

14.如权利要求8~13中任一项所述的网页分类存储方法，其特征在于，通过全网搜索抓取网页，并以站点为单位抓取网页，同一站点下不同域名的对应的网页存储在相同的根目录下。