CN101295321A - 内部网可定制爬虫系统构建方法 - Google Patents
内部网可定制爬虫系统构建方法 Download PDFInfo
- Publication number
- CN101295321A CN101295321A CNA2008101264571A CN200810126457A CN101295321A CN 101295321 A CN101295321 A CN 101295321A CN A2008101264571 A CNA2008101264571 A CN A2008101264571A CN 200810126457 A CN200810126457 A CN 200810126457A CN 101295321 A CN101295321 A CN 101295321A
- Authority
- CN
- China
- Prior art keywords
- data
- hyperlink
- intranet
- web page
- crawler system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 8
- 238000001514 detection method Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 25
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000009193 crawling Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种内部网可定制爬出系统构建方法,该方法包括下列步骤:(1)分析超链接所指向的数据是否是web网页;(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);(3)根据定制下载数据;(4)重复执行步骤(1),(2)和(3),直到没有需要处理的超链接为止。通过应用本发明所描述的方法,可以有效地解决爬虫系统无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术——爬虫系统的数据类型针对性提供通用的框架,有效地降低系统开发成本。
Description
技术领域
本发明涉及网络数据采集系统的构建方法,尤其涉及一种内部网可定制爬出系统构建方法。
背景技术
随着信息时代的到来,越来越多的企业、学校等纷纷建立起自己的内部网,在内部网上搭建服务器实行数据的共享来提高工作、学习等效率。但是随着内部网数据量的激增,人们很难简单快捷地在内部网上找到所需的数据,因此数据的共享并没有带来显著的效率的提高。内部网和数据共享并没有发挥它们应有的潜力。于是,人们想能否通过因特网上的一般搜索引擎来检索内部网上的数据,但很不幸的是,由于这些数据只能在企业、学校等内部使用、交流和传播,因此因特网上的一般搜索引擎检索不到这些内部网的数据。为了解决这一问题,人们提出了内部网搜索引擎的概念。而从一般因特网上的搜索引擎转变到内部网上的搜索引擎,其他的搜索引擎系统部分可以直接复制,惟一的不同是爬虫系统,因此内部网爬虫系统是内部网搜索引擎的核心。怎样做到爬虫系统只在内部网上采集数据已受到越来越多的学者的关注。目前,还没有一种系统的行之有效的内部网爬虫构建方法。
由于内部网上的数据类型千差万别,如音频、视频、图像、文本等,其中,音频又包括:mp3、wma等,视频又包括:avi、rm、rmvb、wmv等,图像又包括:jpg、png、tif、bmp等,文本又包括:txt、doc、pdf等。为了提高检索效率和降低搜索引擎的开发难度,提出了只针对某一类数据类型的特色搜索引擎,如音频搜索引擎、视频搜索引擎、图像搜索引擎、文本搜索引擎等。因此,爬虫系统的数据类型针对性是搭建特色搜索引擎的核心部分之一,也受到越来越多的学者的关注。目前,也还没有一种系统的行之有效的数据类型针对型爬虫构建方法。
发明内容
针对现有技术存在的问题,本发明的目的是提供一种内部网可定制爬出系统构建方法。
为达到上述目的,本发明的方法包括下列步骤:
(1)分析超链接所指向的数据是否是web网页;
(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);
(3)根据定制下载数据;
(4)重复执行步骤(1),(2)和(3),直到没有需要处理的超链接为止。
上述方法中,步骤(2)进一步包括:
(21)提取web网页内超链接;
(22)检测超链接是否是内部网的超链接;
(23)若是内部网的超链接,则保存此超链接;若不是内部网的超链接,则不保存此超链接。
上述方法中,步骤(3)进一步包括:
(31)检测当前待下载数据的类型是否与预先定制的数据类型相同;
(32)若当前待下载数据的类型与预先定制的数据类型相同,则下载此数据;若当前待下载数据的类型与预先定制的数据类型不相同,则不下载此数据。
本发明的有益效果在于,通过应用本发明所描述的方法,可以有效地解决爬虫系统无法采集内部网数据的问题;可以为搭建特色搜索引擎所需的重要技术----爬虫系统的数据类型针对性提供通用的框架,有效地降低系统开发成本。
结合附图,本发明的其他特点和优点可以从下面通过举例来对本发明的原理进行解释的优选实施方式的说明中变得更清楚。
附图说明
图1是根据本发明的一个实施方式的方法的流程图。
图2是根据本发明的一个实施方式所得到的超链接列表片段截取。
具体实施方式
下面将结合附图对本发明的具体实施方式进行详细描述。
图1是根据本发明的一个实施方式的方法的流程图。该流程开始于步骤101,这些内部网可以是企业、学校等,需要指出的是这仅仅是举例,内部网的不同形式不构成对本发明的限制。然后在步骤102中,分析超链接所指向的数据是否是web网页。需要说明的是起始超链接应当是包含超链接丰富的web网页,如网站的首页等,这仅仅是最优举例,起始超链接的不同不构成对本发明的限制。
分析判断超链接所指向的数据是否是web网页,一种实施方式是利用超链接的本身所包含的信息来进行分析。下面通过举例来进一步说明。如图2所示,从201所指向的超链接可知,此超链接所指向的数据是一个doc格式的文本数据;从202所指向的超链接可知,此超链接所指向的数据是一个htm格式的web网页。另一种实施方式是利用超链接的锚文本,例如,一个锚文本可能是如下文字:北京邮电大学校内信息首页,从这个锚文本也可以分析出此超链接所指向的数据是一个web网页,而且是一个包含超链接丰富的web网页。还有一种实施方式是通过HTTP协议Content-Type,即通过给服务器发送请求得到Content-Type数据,来分析判断超链接所指向的数据是否是web网页。以上是判断超链接所指向的数据是否是web网页的三种不同的实施例,其他不同的实施例子不构成对本发明的限制。
若是web网页,则流程进入步骤103;若不是web网页,则流程直接进入步骤107。
在步骤103,提取web网页内超链接。一个实施例是通过正则表达式技术,来匹配网页源码中的超链接,从而定位超链接,进而提取出超链接。
步骤103之后,流程进入步骤104。
在步骤104,将步骤103中提取出的超链接分析检测是否是内部网的超链接。
下面通过超链接的结构并且结合一个实施例来说明。
超链接的结构是:协议+主机域名+文件名+端口号,其中端口号可以缺省。分析可知,其中协议可以是http、ftp等不同形式,这部分在内部网和外部网是一致的,不能够作为区分是否是内部网的标志。第二部分是主机域名,它能够十分显著地表示主机,也就是服务器所在的网络环境,即主机是位于外部网还是内部网,这就是分析判断的标志。接下来是文件名和端口号,这两部分在内部网和外部网也是一致的,也不能够作为区分是否是内部网的标志。一个实施例是通过正则表达式技术,来匹配主机域名,进而判断是否是内部网的超链接。如图2所示,这些超链接都是来自同一个内部网,可以明显看到所有的超链接都拥有共同的内部网主机域名:www.buptnu.com.cn,通过正则表达式匹配www.buptnu.com.cn字符串,能够匹配上的属于这一内部网,不能够匹配上的不属于这一内部网。由于在内部网上主机域名是很少有限的几个,每一个都做如上的处理,这样就能够把整个内部网的超链接与外部网的超链接区分开。以上是分析检测是否是内部网的超链接的一个实施例,其他不同的实施例子不构成对本发明的限制。
若是内部网的超链接,则流程进入步骤105;若不是内部网的超链接,则流程进入步骤106。
在步骤105,保存此超链接。
在步骤106,不保存此超链接。
步骤105之后,流程进入步骤107;步骤106之后,流程进入步骤107。
在步骤107,检测当前待下载数据的类型是否与预先定制的数据类型相同。如上所述的超链接的结构是:协议+主机域名+文件名+端口号。其中文件名都包含有表示这个数据类型的后缀,如图2所示,表示数据类型的后缀有:.doc、.htm、.xls、.rar。一个实施例是通过正则表达式,匹配包含在超链接里的数据类型的后缀,然后与预先定制的数据类型比较。若当前待下载数据的类型与预先定制的数据类型相同,则流程进入步骤108;若当前待下载数据的类型与预先定制的数据类型不相同,则流程进入步骤109。
在步骤108,下载此数据。
在步骤109,不下载此数据。
步骤108之后,流程进入步骤110;步骤109之后,流程进入步骤110。
在步骤110,检测在步骤105中保存的超链接是否全部被处理,若全部被处理完了,则流程进入步骤111;若还有没有被处理的超链接,则流程进入步骤102。
以上结合附图描述了本发明的具体实施方式,各种举例说明不对发明的实质内容构成限制,本发明不限于上面提供的实施细节,可以在不脱离本发明特征的情况下以另外的实施例实现。所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形,而不背离发明的实质和范围。
Claims (3)
1.一种内部网可定制爬虫系统构建方法,其特征在于包括下列步骤:
(1)分析超链接所指向的数据是否是web网页;
(2)若是web网页,则分析web网页,处理超链接信息;若不是web网页,则直接进入步骤(3);
(3)根据定制下载数据;
(4)重复执行步骤(1),(2)和(3),直到没有需要处理的超链接为止。
2.根据权利要求1所述的内部网可定制爬虫系统构建方法,其特征在于:步骤(2)进一步包括:
(21)提取web网页内超链接;
(22)检测超链接是否是内部网的超链接;
(23)若是内部网的超链接,则保存此超链接;若不是内部网的超链接,则不保存此超链接。
3.根据权利要求1所述的内部网可定制爬虫系统构建方法,其特征在于:步骤(3)进一步包括:
(31)检测当前待下载数据的类型是否与预先定制的数据类型相同;
(32)若当前待下载数据的类型与预先定制的数据类型相同,则下载此数据;若当前待下载数据的类型与预先定制的数据类型不相同,则不下载此数据。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CNA2008101264571A CN101295321A (zh) | 2008-06-27 | 2008-06-27 | 内部网可定制爬虫系统构建方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CNA2008101264571A CN101295321A (zh) | 2008-06-27 | 2008-06-27 | 内部网可定制爬虫系统构建方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN101295321A true CN101295321A (zh) | 2008-10-29 |
Family
ID=40065605
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CNA2008101264571A Pending CN101295321A (zh) | 2008-06-27 | 2008-06-27 | 内部网可定制爬虫系统构建方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN101295321A (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102592089A (zh) * | 2011-12-29 | 2012-07-18 | 北京神州绿盟信息安全科技股份有限公司 | 网页重定向跳转漏洞检测方法及装置 |
| CN103970788A (zh) * | 2013-02-01 | 2014-08-06 | 北京英富森信息技术有限公司 | 一种基于网页爬取的爬虫技术 |
-
2008
- 2008-06-27 CN CNA2008101264571A patent/CN101295321A/zh active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102592089A (zh) * | 2011-12-29 | 2012-07-18 | 北京神州绿盟信息安全科技股份有限公司 | 网页重定向跳转漏洞检测方法及装置 |
| CN102592089B (zh) * | 2011-12-29 | 2015-04-08 | 北京神州绿盟信息安全科技股份有限公司 | 网页重定向跳转漏洞检测方法及装置 |
| CN103970788A (zh) * | 2013-02-01 | 2014-08-06 | 北京英富森信息技术有限公司 | 一种基于网页爬取的爬虫技术 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102693271B (zh) | 一种网络信息推荐方法及系统 | |
| CN104715064B (zh) | 一种实现在网页上标注关键词的方法和服务器 | |
| WO2014000537A1 (zh) | 一种钓鱼网站查找系统及方法 | |
| CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
| WO2010042199A1 (en) | Indexing online advertisements | |
| WO2013044744A1 (zh) | 一种下载资源提供方法及装置 | |
| CN102663060B (zh) | 一种识别被篡改网页的方法及装置 | |
| CN104699845B (zh) | 基于提问类搜索词的搜索结果提供方法及装置 | |
| WO2014000576A1 (zh) | 一种网络搜索方法及网络搜索系统 | |
| CN108027820A (zh) | 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和系统 | |
| CN103678652A (zh) | 一种基于Web日志数据的信息个性化推荐方法 | |
| CN102402589A (zh) | 一种提供与搜索请求相关的参考搜索信息的方法与设备 | |
| CN106021418B (zh) | 新闻事件的聚类方法及装置 | |
| CN103279548A (zh) | 一种对网站进行无障碍检测的方法 | |
| CN102857572A (zh) | 一种http访问请求处理方法、装置及网关设备 | |
| Kumar et al. | HTTP 404-page (not) found: Recovery of decayed URL citations | |
| CN114513355A (zh) | 恶意域名检测方法、装置、设备及存储介质 | |
| CN104615627A (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
| CN107273393A (zh) | 用于移动设备的图像搜索方法、装置及数据处理系统 | |
| Thelwall et al. | Webometrics: An introduction to the special issue | |
| CN104598561A (zh) | 一种基于文本的农业视频智能分类方法及装置 | |
| US9529927B2 (en) | System and method for providing mobile URL in mobile search environment | |
| CN102819613B (zh) | Rss信息分页抓取系统及方法 | |
| CN101295321A (zh) | 内部网可定制爬虫系统构建方法 | |
| CN104008213A (zh) | 一种网页信息更新发现与统计的方法和装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C57 | Notification of unclear or unknown address | ||
| DD01 | Delivery of document by public notice |
Addressee: Yang Bu Document name: Notification of Passing Preliminary Examination of the Application for Invention |
|
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20081029 |