CN102567337B

CN102567337B - 一种通过链接快速识别网页类型的方法及系统

Info

Publication number: CN102567337B
Application number: CN201010590389.1A
Authority: CN
Inventors: 陈运文
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2010-12-15
Filing date: 2010-12-15
Publication date: 2017-11-24
Anticipated expiration: 2030-12-15
Also published as: CN102567337A

Abstract

本发明公开了一种通过链接快速识别网页类型的方法，包括步骤：1)构建链接归一词典；2)提取链接；3)读取链接归一词典，生成前缀字符串；4)快速预判链接前缀类型；5)判别链接类型；6)有效链接传给网络蜘蛛。本发明还公开了实现上述方法的系统，包括：链接归一词典、链接提取模块、前缀提取模块、类型预判模块以及类型判别模块。该系统及方法利用网页链接地址的命名规律，从链接地址中提取出前缀字符串和归一字符串，利用字符串之间的比对，快速判断出网页的类型，从而提高了网页类型识别的速度和网络蜘蛛的工作效率。

Description

一种通过链接快速识别网页类型的方法及系统

技术领域

本发明涉及网络通信领域，尤其涉及一种通过链接快速识别网页类型的方法。本发明还涉及一种用于实现上述方法的系统。

背景技术

网络蜘蛛(Spider)，是搜索引擎自动抓取网页的程序，它从网站的某个页面(通常是首页)开始，读取网页的内容，找到在网页中的其他链接地址，通过这些链接地址寻找下一个网页，如此循环，直到抓取完这个网站的所有网页。

利用上述原理，网络蜘蛛可以把互联网上所有的网页都抓取下来。但是，由于互联网上的网页数量非常庞大，而一个网络蜘蛛在给定的时间内能够抓取的网页数量是有限的，并且对于网络蜘蛛的某个特定应用来说，只需要抓取互联网中它所需要的极小一部分的内容，因此，如何对网络蜘蛛进行有效的调度，在有限的时间内集中抓取到所需要的网页，就显得非常关键了。

在名称为“一种筛选网页上链接的方法和装置”的中国发明专利申请(申请号CN200810071574.2)中，公开了一种提高网络蜘蛛工作效率的方法，该方法将链接拆分为域名部分和相对路径部分，分析域名与搜索任务网站的域名相同的链接的相对路径，提取出与搜索任务网站相关的链接，过滤掉无关的链接。但是，由于这种方法需要首先下载网页并进行分析，这将导致系统大量资源被占用，而且，该方法要求链接中必须包含有指定的特征字符串才能进行识别，因此，该方法的通用性不高。

发明内容

本发明要解决的技术问题是提供一种通过链接快速识别网页类型的方法，它可以不下载网页而快速识别出网页的类型。

为解决上述技术问题，本发明的通过链接快速识别网页类型的方法，包括以下步骤：

1)构建链接归一词典，将所需网页类型和对应的链接归一规则及归一字符串保存到该链接归一词典中；

2)从网络蜘蛛已经抓取的网页中提取出所有链接；

3)到链接归一词典中读取归一字符串，从中提取出前缀字符串；

4)判断步骤2)的链接中是否包含有步骤3)的前缀字符串，若有，则到链接归一词典中找出该前缀字符串对应的归一字符串、归一规则和网页类型，转到步骤5)；若没有，则转到步骤3)，处理下一条链接；

5)根据步骤4)的归一规则，生成该链接的归一字符串，并与步骤4)的归一字符串进行比对，若相同，则将步骤4)的网页类型赋给该链接，并将该链接传给网络蜘蛛；若不同，则放弃该链接；

6)重复步骤2)至5)，直至网络蜘蛛完成全部抓取工作。

所述步骤1)中，归一字符串的生成方法，包括以下步骤：

分析所需网页类型的链接命名规律；

将链接按照指定分隔符分段切分成字符子串；

对链接中发生变化部分的字符子串进行归一，并保存归一字符串。

所述归一方法是：将字符划分为数字、字母和其他字符三种，分别用不同的归一字符表示；连续多个相同的归一字符合并。

所述归一规则至少包含有一个子规则，每个子规则对应一个字符子串，并记录有该字符子串的归一类型。归一类型分为数字串的归一、字母串的归一和其他字符串的归一，分别用不同的字符表示。

所述步骤3)中，提取前缀字符串的方法是：在归一字符串中，从左至右，检测字符@、#或&出现的位置，以这三类字符首次出现的位置为尾部，截断该归一字符串，保存在前缀字符串中。

本发明要解决的另一技术问题是提供一种用于实现上述方法的系统。

为解决上述技术问题，本发明的通过链接快速识别网页类型的系统，包括：

链接归一词典，用于保存所需网页类型及其对应的链接归一规则和归一字符串；

链接提取模块，用于从网络蜘蛛已经抓取的网页中提取出链接；

前缀提取模块，用于从链接归一词典中读取归一字符串，并从该归一字符串中提取出前缀字符串；

类型预判模块，用于根据该前缀字符串初步判断该链接的类型，并在判断结果为有效页面时，将链接归一词典中该前缀字符串对应的归一字符串、归一规则和网页类型，传给类型判别模块。

类型判别模块，用于根据类型预判模块传入的归一规则，生成该链接的归一字符串，和类型预判模块传入的归一字符串比对，判断出该链接的类型，并将判断结果为有效的链接传给网络蜘蛛。

与现有方法相比，本发明的识别网页类型的方法及系统，不需要对网页进行下载和分析，只需要通过网页的链接地址，就可以快速判断出网页的类型，从而使网络蜘蛛能够在有限的时间内集中抓取所需要的网页，提高了网络蜘蛛的工作效率。

附图说明

下面结合附图与具体实施方式对本发明作进一步详细的说明：

图1是本发明的系统结构图；

图2是本发明的方法流程图。

具体实施方式

为对本发明的技术内容、特点与功效有更具体的了解，现结合图示的实施方式，详述如下：

本发明首先需要构建一个链接归一词典，用于记录各网页类型所需要的链接(url)归一方式。具体方法如下：

首先，对每个待抓取的网站，分析所需抓取的网页类型的url命名规律。例如，博库网(www.bookuu.com)的所有书籍展示页(contentpage)的url，都是形如：

http://www.bookuu.com/kgsm/ts/2010/07/13/1786270.shtml

http://www.bookuu.com/kgsm/ts/2010/09/21/1827795.shtml

http://www.bookuu.com/kgsm/ts/2009/12/08/1644478.shtml

即url中，前缀相同，某些部分(上例中为最后的数字串)发生变化。

然后，根据分析出的命名规律，将url中代表站点部分的字符串(例如，www.bookuu.com)去掉，剩下的字符串按照指定的分隔符，分段切分成字符子串，分隔符可以是字符.，＝？&/-_#中的任意一种。例如，对url：

http://www.bookuu.com/kgsm/ts/2010/07/13/1786270.shtml

分段切分后，可以获得以下6个字符字串：

1：kgsm

2：ts

3：2010

4：07

5：13

6：1786270

接着，对需要归一(即url中发生变化部分)的字符子串，按照如下方法，进行归一操作，提取出归一字符串，并保存到Norm_str中：

数字归一为字符@；

字母归一为字符#；

其他字符归一为字符&；

连续多个相同归一字符合并。

再根据归一字符串，按照如下方法，得到对应的归一规则：

数字串的归一用字母d表示；

字母串的归一用字母c表示；

其他字符串的归一用字母a表示；

每个字符子串对应一个归一子规则，每个子规则用“字符子串的序号：归一类型”的方式表示，多个子规则之间用符号|分隔。

将归一字符串Norm_str、归一规则和对应的网页类型保存到链接归一词典中，如此，即构建完成一个链接归一词典。例如，对博库网的书籍展示页来说，归一字符串Norm_str为：

http://www.bookuu.com/kgsm/ts/@/@/@/@.shtml

对应的归一规则为：

3:d|4:d|5:d|6:d

最后生成的归一链接词典为：

http://www.bookuu.com/kgsm/ts/@/@/@/@.shtml

contentpage

3:d|4:d|5:d|6:d

除链接归一词典外，本发明的通过链接快速识别网页类型的系统，还包括有以下功能模块：

链接提取模块，用于对网络蜘蛛已经抓取获得的html(HyperTextMarkupLanguage，超文本置标语言)网页进行解析，从中提取出url。

前缀提取模块，用于从链接归一词典中读取归一字符串，并从该归一字符串中提取出前缀字符串。

类型预判模块，用于判断链接提取模块提取到的url中是否包含有前缀提取模块所生成的前缀字符串，若有，则从链接归一词典中查找出该前缀字符串对应的归一字符串、归一规则和网页类型，传给类型判别模块。

类型判别模块，用于根据类型预判模块传来的归一规则，生成该url的归一字符串，与类型预判模块传来的归一字符串进行比对，判断该url对应的网页类型，并将需要抓取的网页的url传给网络蜘蛛。

应用上述系统识别网页类型时，包括以下步骤：

步骤一，链接提取模块对网络蜘蛛已经抓取获得的html网页进行解析，在页面内寻找所有以字符串<a href＝″开始，以字符串″>结束的部分，从中提取出链接url。例如，从字符串：

中提取出url：

http://www.bookuu.com/kgsm/ts/2006/04/05/0451922.shtml

步骤二，前缀提取模块查找该网页所属网站的链接归一词典，读取链接归一词典中保存的归一字符串，在该归一字符串中，从左至右，检测字符@、#或&出现的位置，以这三类字符首次出现的位置为尾部，对该归一字符串进行截断，保存在前缀字符串Prefix_fix中。例如，博库网书籍展示页的url的前缀字符串Prefix_fix为：

http://www.bookuu.com/kgsm/ts/

步骤三，类型预判模块对链接提取模块提取出的url，进行快速地分析匹配，判断url中是否包含有在前缀提取模块中生成的前缀字符串，如果没有，则认为该条url对应的网页并非需要抓取的网页，直接返回处理下一条url；如果有，则到链接归一词典中找出该前缀字符串对应的归一字符串、归一规则和网页类型，与该url一起，传给类型判别模块。

步骤四，类型判别模块将类型预判模块传来的url中代表站点部分的字符串去掉，剩下的字符串按照指定的分隔符，分段切分成字符子串，并进行保存。分隔符可以是字符.，＝？&/-_#中的任意一种。

然后，类型判别模块根据类型预判模块传来的归一规则，对传入的url进行归一操作，即：如果子规则所对应的字符子串与该子规则中记录的归一类型相符合，则该子规则生效，对该字符子串进行相应的归一操作；如果不符合，则该子规则不生效，该字符子串不进行归一。例如，对下面两条url：

http://www.bookuu.com/kgsm/ts/2006/04/05/0451922.shtml

http://www.bookuu.com/kgsm/ts/en/201011/10/

根据归一规则3:d|4:d|5:d|6:d，将分别生成归一字符串：

http://www.bookuu.com/kgsm/ts/@/@/@/@.shtml

http://www.bookuu.com/kgsm/ts/en/@/@/

上述归一操作完成后，将新生成的归一字符串与类型预判模块传来的归一字符串进行比对，如果两者相同，则系统认为识别成功，将类型预判模块传来的网页类型赋给该url；如果不同，则认为该url对应的网页并非需要抓取的网页，系统放弃该条url，进行下一条url的归一操作，直至识别完所有满足前缀字符串Prefix_url匹配的url。

最后，类型判别模块将识别成功的url传给网络蜘蛛，由网络蜘蛛集中抓取这些url所对应的网页，抓取完毕后的页面，再送至链接提取模块，进行下一次的链接提取。如此循环处理后，网络蜘蛛就能够在有限的时间内，集中抓取出所需的特定类型的网页，从而大幅提高抓取的效率。

Claims

1.一种通过链接快速识别网页类型的方法，其特征在于，包括以下步骤：

2)从网络蜘蛛已经抓取的网页中提取出所有链接；

6)重复步骤2)至5)，直至网络蜘蛛完成全部抓取工作；

所述步骤1)中，归一字符串的生成方法，包括以下步骤：

分析所需网页类型的链接命名规律；

将链接中代表站点部分的字符串去掉，剩下的字符串按照指定分隔符分段切分成字符子串；所述分隔符为字符.，＝？&/-_#中的任意一种；

对链接中发生变化部分的字符子串进行归一，并保存归一字符串；所述归一的方法，包括以下步骤：将字符划分为数字、字母和其他字符三种，分别用不同的归一字符表示；连续多个相同的归一字符合并；所述归一规则至少包含有一个子规则，每个子规则对应一个字符子串，并记录有该字符子串的归一类型；所述归一类型分为三种：数字串的归一、字母串的归一和其他字符串的归一，分别用不同的字符表示；

所述步骤2)中，提取链接的方法是：在页面内寻找以字符串<a href＝″开始，以字符串″>结束的部分，从中提取出链接；

所述步骤3)中，提取前缀字符串的方法，包括以下步骤：在归一字符串中，从左至右，检测字符@、#或&出现的位置，以这三类字符首次出现的位置为尾部，截断该归一字符串，保存在前缀字符串中。

2.一种通过链接快速识别网页类型的系统，用于实现权利要求1所述的方法，其特征在于，包括有：

类型预判模块，用于根据该前缀字符串初步判断该链接的类型，并在判断结果为有效页面时，将链接归一词典中该前缀字符串对应的归一字符串、归一规则和网页类型，传给类型判别模块；