CN102567337B - 一种通过链接快速识别网页类型的方法及系统 - Google Patents
一种通过链接快速识别网页类型的方法及系统 Download PDFInfo
- Publication number
- CN102567337B CN102567337B CN201010590389.1A CN201010590389A CN102567337B CN 102567337 B CN102567337 B CN 102567337B CN 201010590389 A CN201010590389 A CN 201010590389A CN 102567337 B CN102567337 B CN 102567337B
- Authority
- CN
- China
- Prior art keywords
- normalizing
- link
- character string
- type
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种通过链接快速识别网页类型的方法,包括步骤:1)构建链接归一词典;2)提取链接;3)读取链接归一词典,生成前缀字符串;4)快速预判链接前缀类型;5)判别链接类型;6)有效链接传给网络蜘蛛。本发明还公开了实现上述方法的系统,包括:链接归一词典、链接提取模块、前缀提取模块、类型预判模块以及类型判别模块。该系统及方法利用网页链接地址的命名规律,从链接地址中提取出前缀字符串和归一字符串,利用字符串之间的比对,快速判断出网页的类型,从而提高了网页类型识别的速度和网络蜘蛛的工作效率。
Description
技术领域
本发明涉及网络通信领域,尤其涉及一种通过链接快速识别网页类型的方法。本发明还涉及一种用于实现上述方法的系统。
背景技术
网络蜘蛛(Spider),是搜索引擎自动抓取网页的程序,它从网站的某个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,通过这些链接地址寻找下一个网页,如此循环,直到抓取完这个网站的所有网页。
利用上述原理,网络蜘蛛可以把互联网上所有的网页都抓取下来。但是,由于互联网上的网页数量非常庞大,而一个网络蜘蛛在给定的时间内能够抓取的网页数量是有限的,并且对于网络蜘蛛的某个特定应用来说,只需要抓取互联网中它所需要的极小一部分的内容,因此,如何对网络蜘蛛进行有效的调度,在有限的时间内集中抓取到所需要的网页,就显得非常关键了。
在名称为“一种筛选网页上链接的方法和装置”的中国发明专利申请(申请号CN200810071574.2)中,公开了一种提高网络蜘蛛工作效率的方法,该方法将链接拆分为域名部分和相对路径部分,分析域名与搜索任务网站的域名相同的链接的相对路径,提取出与搜索任务网站相关的链接,过滤掉无关的链接。但是,由于这种方法需要首先下载网页并进行分析,这将导致系统大量资源被占用,而且,该方法要求链接中必须包含有指定的特征字符串才能进行识别,因此,该方法的通用性不高。
发明内容
本发明要解决的技术问题是提供一种通过链接快速识别网页类型的方法,它可以不下载网页而快速识别出网页的类型。
为解决上述技术问题,本发明的通过链接快速识别网页类型的方法,包括以下步骤:
1)构建链接归一词典,将所需网页类型和对应的链接归一规则及归一字符串保存到该链接归一词典中;
2)从网络蜘蛛已经抓取的网页中提取出所有链接;
3)到链接归一词典中读取归一字符串,从中提取出前缀字符串;
4)判断步骤2)的链接中是否包含有步骤3)的前缀字符串,若有,则到链接归一词典中找出该前缀字符串对应的归一字符串、归一规则和网页类型,转到步骤5);若没有,则转到步骤3),处理下一条链接;
5)根据步骤4)的归一规则,生成该链接的归一字符串,并与步骤4)的归一字符串进行比对,若相同,则将步骤4)的网页类型赋给该链接,并将该链接传给网络蜘蛛;若不同,则放弃该链接;
6)重复步骤2)至5),直至网络蜘蛛完成全部抓取工作。
所述步骤1)中,归一字符串的生成方法,包括以下步骤:
分析所需网页类型的链接命名规律;
将链接按照指定分隔符分段切分成字符子串;
对链接中发生变化部分的字符子串进行归一,并保存归一字符串。
所述归一方法是:将字符划分为数字、字母和其他字符三种,分别用不同的归一字符表示;连续多个相同的归一字符合并。
所述归一规则至少包含有一个子规则,每个子规则对应一个字符子串,并记录有该字符子串的归一类型。归一类型分为数字串的归一、字母串的归一和其他字符串的归一,分别用不同的字符表示。
所述步骤3)中,提取前缀字符串的方法是:在归一字符串中,从左至右,检测字符@、#或&出现的位置,以这三类字符首次出现的位置为尾部,截断该归一字符串,保存在前缀字符串中。
本发明要解决的另一技术问题是提供一种用于实现上述方法的系统。
为解决上述技术问题,本发明的通过链接快速识别网页类型的系统,包括:
链接归一词典,用于保存所需网页类型及其对应的链接归一规则和归一字符串;
链接提取模块,用于从网络蜘蛛已经抓取的网页中提取出链接;
前缀提取模块,用于从链接归一词典中读取归一字符串,并从该归一字符串中提取出前缀字符串;
类型预判模块,用于根据该前缀字符串初步判断该链接的类型,并在判断结果为有效页面时,将链接归一词典中该前缀字符串对应的归一字符串、归一规则和网页类型,传给类型判别模块。
类型判别模块,用于根据类型预判模块传入的归一规则,生成该链接的归一字符串,和类型预判模块传入的归一字符串比对,判断出该链接的类型,并将判断结果为有效的链接传给网络蜘蛛。
与现有方法相比,本发明的识别网页类型的方法及系统,不需要对网页进行下载和分析,只需要通过网页的链接地址,就可以快速判断出网页的类型,从而使网络蜘蛛能够在有限的时间内集中抓取所需要的网页,提高了网络蜘蛛的工作效率。
附图说明
下面结合附图与具体实施方式对本发明作进一步详细的说明:
图1是本发明的系统结构图;
图2是本发明的方法流程图。
具体实施方式
为对本发明的技术内容、特点与功效有更具体的了解,现结合图示的实施方式,详述如下:
本发明首先需要构建一个链接归一词典,用于记录各网页类型所需要的链接(url)归一方式。具体方法如下:
首先,对每个待抓取的网站,分析所需抓取的网页类型的url命名规律。例如,博库网(www.bookuu.com)的所有书籍展示页(contentpage)的url,都是形如:
http://www.bookuu.com/kgsm/ts/2010/07/13/1786270.shtml
http://www.bookuu.com/kgsm/ts/2010/09/21/1827795.shtml
http://www.bookuu.com/kgsm/ts/2009/12/08/1644478.shtml
即url中,前缀相同,某些部分(上例中为最后的数字串)发生变化。
然后,根据分析出的命名规律,将url中代表站点部分的字符串(例如,www.bookuu.com)去掉,剩下的字符串按照指定的分隔符,分段切分成字符子串,分隔符可以是字符.,=?&/-_#中的任意一种。例如,对url:
http://www.bookuu.com/kgsm/ts/2010/07/13/1786270.shtml
分段切分后,可以获得以下6个字符字串:
1:kgsm
2:ts
3:2010
4:07
5:13
6:1786270
接着,对需要归一(即url中发生变化部分)的字符子串,按照如下方法,进行归一操作,提取出归一字符串,并保存到Norm_str中:
数字归一为字符@;
字母归一为字符#;
其他字符归一为字符&;
连续多个相同归一字符合并。
再根据归一字符串,按照如下方法,得到对应的归一规则:
数字串的归一用字母d表示;
字母串的归一用字母c表示;
其他字符串的归一用字母a表示;
每个字符子串对应一个归一子规则,每个子规则用“字符子串的序号:归一类型”的方式表示,多个子规则之间用符号|分隔。
将归一字符串Norm_str、归一规则和对应的网页类型保存到链接归一词典中,如此,即构建完成一个链接归一词典。例如,对博库网的书籍展示页来说,归一字符串Norm_str为:
http://www.bookuu.com/kgsm/ts/@/@/@/@.shtml
对应的归一规则为:
3:d|4:d|5:d|6:d
最后生成的归一链接词典为:
http://www.bookuu.com/kgsm/ts/@/@/@/@.shtml | contentpage | 3:d|4:d|5:d|6:d |
除链接归一词典外,本发明的通过链接快速识别网页类型的系统,还包括有以下功能模块:
链接提取模块,用于对网络蜘蛛已经抓取获得的html(HyperTextMarkupLanguage,超文本置标语言)网页进行解析,从中提取出url。
前缀提取模块,用于从链接归一词典中读取归一字符串,并从该归一字符串中提取出前缀字符串。
类型预判模块,用于判断链接提取模块提取到的url中是否包含有前缀提取模块所生成的前缀字符串,若有,则从链接归一词典中查找出该前缀字符串对应的归一字符串、归一规则和网页类型,传给类型判别模块。
类型判别模块,用于根据类型预判模块传来的归一规则,生成该url的归一字符串,与类型预判模块传来的归一字符串进行比对,判断该url对应的网页类型,并将需要抓取的网页的url传给网络蜘蛛。
应用上述系统识别网页类型时,包括以下步骤:
步骤一,链接提取模块对网络蜘蛛已经抓取获得的html网页进行解析,在页面内寻找所有以字符串<a href=″开始,以字符串″>结束的部分,从中提取出链接url。例如,从字符串:
<a href=″http://www.bookuu.com/kgsm/ts/2006/04/05/0451922.shtml″>
中提取出url:
http://www.bookuu.com/kgsm/ts/2006/04/05/0451922.shtml
步骤二,前缀提取模块查找该网页所属网站的链接归一词典,读取链接归一词典中保存的归一字符串,在该归一字符串中,从左至右,检测字符@、#或&出现的位置,以这三类字符首次出现的位置为尾部,对该归一字符串进行截断,保存在前缀字符串Prefix_fix中。例如,博库网书籍展示页的url的前缀字符串Prefix_fix为:
http://www.bookuu.com/kgsm/ts/
步骤三,类型预判模块对链接提取模块提取出的url,进行快速地分析匹配,判断url中是否包含有在前缀提取模块中生成的前缀字符串,如果没有,则认为该条url对应的网页并非需要抓取的网页,直接返回处理下一条url;如果有,则到链接归一词典中找出该前缀字符串对应的归一字符串、归一规则和网页类型,与该url一起,传给类型判别模块。
步骤四,类型判别模块将类型预判模块传来的url中代表站点部分的字符串去掉,剩下的字符串按照指定的分隔符,分段切分成字符子串,并进行保存。分隔符可以是字符.,=?&/-_#中的任意一种。
然后,类型判别模块根据类型预判模块传来的归一规则,对传入的url进行归一操作,即:如果子规则所对应的字符子串与该子规则中记录的归一类型相符合,则该子规则生效,对该字符子串进行相应的归一操作;如果不符合,则该子规则不生效,该字符子串不进行归一。例如,对下面两条url:
http://www.bookuu.com/kgsm/ts/2006/04/05/0451922.shtml
http://www.bookuu.com/kgsm/ts/en/201011/10/
根据归一规则3:d|4:d|5:d|6:d,将分别生成归一字符串:
http://www.bookuu.com/kgsm/ts/@/@/@/@.shtml
http://www.bookuu.com/kgsm/ts/en/@/@/
上述归一操作完成后,将新生成的归一字符串与类型预判模块传来的归一字符串进行比对,如果两者相同,则系统认为识别成功,将类型预判模块传来的网页类型赋给该url;如果不同,则认为该url对应的网页并非需要抓取的网页,系统放弃该条url,进行下一条url的归一操作,直至识别完所有满足前缀字符串Prefix_url匹配的url。
最后,类型判别模块将识别成功的url传给网络蜘蛛,由网络蜘蛛集中抓取这些url所对应的网页,抓取完毕后的页面,再送至链接提取模块,进行下一次的链接提取。如此循环处理后,网络蜘蛛就能够在有限的时间内,集中抓取出所需的特定类型的网页,从而大幅提高抓取的效率。
Claims (2)
1.一种通过链接快速识别网页类型的方法,其特征在于,包括以下步骤:
1)构建链接归一词典,将所需网页类型和对应的链接归一规则及归一字符串保存到该链接归一词典中;
2)从网络蜘蛛已经抓取的网页中提取出所有链接;
3)到链接归一词典中读取归一字符串,从中提取出前缀字符串;
4)判断步骤2)的链接中是否包含有步骤3)的前缀字符串,若有,则到链接归一词典中找出该前缀字符串对应的归一字符串、归一规则和网页类型,转到步骤5);若没有,则转到步骤3),处理下一条链接;
5)根据步骤4)的归一规则,生成该链接的归一字符串,并与步骤4)的归一字符串进行比对,若相同,则将步骤4)的网页类型赋给该链接,并将该链接传给网络蜘蛛;若不同,则放弃该链接;
6)重复步骤2)至5),直至网络蜘蛛完成全部抓取工作;
所述步骤1)中,归一字符串的生成方法,包括以下步骤:
分析所需网页类型的链接命名规律;
将链接中代表站点部分的字符串去掉,剩下的字符串按照指定分隔符分段切分成字符子串;所述分隔符为字符.,=?&/-_#中的任意一种;
对链接中发生变化部分的字符子串进行归一,并保存归一字符串;所述归一的方法,包括以下步骤:将字符划分为数字、字母和其他字符三种,分别用不同的归一字符表示;连续多个相同的归一字符合并;所述归一规则至少包含有一个子规则,每个子规则对应一个字符子串,并记录有该字符子串的归一类型;所述归一类型分为三种:数字串的归一、字母串的归一和其他字符串的归一,分别用不同的字符表示;
所述步骤2)中,提取链接的方法是:在页面内寻找以字符串<a href=″开始,以字符串″>结束的部分,从中提取出链接;
所述步骤3)中,提取前缀字符串的方法,包括以下步骤:在归一字符串中,从左至右,检测字符@、#或&出现的位置,以这三类字符首次出现的位置为尾部,截断该归一字符串,保存在前缀字符串中。
2.一种通过链接快速识别网页类型的系统,用于实现权利要求1所述的方法,其特征在于,包括有:
链接归一词典,用于保存所需网页类型及其对应的链接归一规则和归一字符串;
链接提取模块,用于从网络蜘蛛已经抓取的网页中提取出链接;
前缀提取模块,用于从链接归一词典中读取归一字符串,并从该归一字符串中提取出前缀字符串;
类型预判模块,用于根据该前缀字符串初步判断该链接的类型,并在判断结果为有效页面时,将链接归一词典中该前缀字符串对应的归一字符串、归一规则和网页类型,传给类型判别模块;
类型判别模块,用于根据类型预判模块传入的归一规则,生成该链接的归一字符串,和类型预判模块传入的归一字符串比对,判断出该链接的类型,并将判断结果为有效的链接传给网络蜘蛛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010590389.1A CN102567337B (zh) | 2010-12-15 | 2010-12-15 | 一种通过链接快速识别网页类型的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010590389.1A CN102567337B (zh) | 2010-12-15 | 2010-12-15 | 一种通过链接快速识别网页类型的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102567337A CN102567337A (zh) | 2012-07-11 |
CN102567337B true CN102567337B (zh) | 2017-11-24 |
Family
ID=46412778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010590389.1A Active CN102567337B (zh) | 2010-12-15 | 2010-12-15 | 一种通过链接快速识别网页类型的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102567337B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102857572A (zh) * | 2012-09-14 | 2013-01-02 | 北京星网锐捷网络技术有限公司 | 一种http访问请求处理方法、装置及网关设备 |
CN103220274B (zh) * | 2013-03-25 | 2016-06-15 | 北京东方网信科技股份有限公司 | 一种用于运营商网络出口的网络报文模式匹配方法及系统 |
CN103345499A (zh) * | 2013-06-28 | 2013-10-09 | 宇龙计算机通信科技(深圳)有限公司 | 一种搜索引擎的搜索结果处理方法及装置 |
CN103544210B (zh) * | 2013-09-02 | 2017-01-18 | 烟台中科网络技术研究所 | 一种识别网页类型的系统和方法 |
US10152540B2 (en) * | 2014-10-10 | 2018-12-11 | Qualcomm Incorporated | Linking thumbnail of image to web page |
CN105302884B (zh) * | 2015-10-19 | 2019-02-19 | 天津海量信息技术股份有限公司 | 基于深度学习的网页模式识别方法及视觉结构学习方法 |
CN106919570B (zh) * | 2015-12-24 | 2020-12-22 | 国家新闻出版广电总局广播科学研究院 | 一种面向网络新媒体的页面链接去重扫描方法及装置 |
CN110781418A (zh) * | 2018-07-30 | 2020-02-11 | 上海哔哩哔哩科技有限公司 | 基于url识别的网页文本编辑方法、装置和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452463A (zh) * | 2007-12-05 | 2009-06-10 | 浙江大学 | 定向抓取页面资源的方法和装置 |
US20090164502A1 (en) * | 2007-12-24 | 2009-06-25 | Anirban Dasgupta | Systems and methods of universal resource locator normalization |
CN101650715B (zh) * | 2008-08-12 | 2011-06-29 | 厦门市美亚柏科信息股份有限公司 | 一种筛选网页上链接的方法和装置 |
CN101727447A (zh) * | 2008-10-10 | 2010-06-09 | 浙江搜富网络技术有限公司 | 基于url的正则表达式的生成方法和装置 |
CN101872347B (zh) * | 2009-04-22 | 2012-09-26 | 富士通株式会社 | 判断网页类型的方法和装置 |
-
2010
- 2010-12-15 CN CN201010590389.1A patent/CN102567337B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN102567337A (zh) | 2012-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102567337B (zh) | 一种通过链接快速识别网页类型的方法及系统 | |
CN102254014B (zh) | 一种网页特征自适应的信息抽取方法 | |
CN104504150B (zh) | 新闻舆情监测系统 | |
CN109543126A (zh) | 基于块文字占比的网页正文信息提取方法 | |
CN101344889B (zh) | 一种网络信息抽取的方法和系统 | |
CN104391978B (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN104598532A (zh) | 一种信息处理方法及装置 | |
CN101908071A (zh) | 一种提高搜索引擎搜索效率的方法及其系统 | |
CN102799814A (zh) | 一种钓鱼网站查找系统及方法 | |
CN103226599B (zh) | 一种精确提取网页内容的方法及系统 | |
CN105095175B (zh) | 获取截短的网页标题的方法及装置 | |
CN102262635A (zh) | 一种网页爬虫系统及方法 | |
CN104951448A (zh) | 一种为用户推送订阅类别的消息的方法和服务器 | |
CN109657114B (zh) | 一种抽取网页半结构化数据的方法 | |
CN102073678B (zh) | 一种网站信息分析系统及其方法 | |
CN108874870A (zh) | 一种数据抽取方法、设备及计算机可存储介质 | |
CN104778232B (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN107239520A (zh) | 一种通用论坛正文提取方法 | |
WO2017000659A1 (zh) | 一种富集化url的识别方法和装置 | |
CN109064067A (zh) | 基于互联网的金融风险运营主体判定方法及装置 | |
Jha et al. | Wang notation tool: Layout independent representation of tables | |
CN110020049A (zh) | 域名翻译和查询的方法和装置 | |
Kaddu et al. | To extract informative content from online web pages by using hybrid approach | |
CN113434797A (zh) | 一种网页信息提取方法及装置 | |
CN108073588B (zh) | 栏目信息提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190220 Address after: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai. Patentee after: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD. Address before: 201203 No. 356 GuoShoujing Road, Zhangjiang High-tech Park, Pudong New Area, Shanghai Patentee before: Shengle Information Technology (Shanghai) Co., Ltd. |