CN102932482A - 网络蜘蛛垂直数据收集方法 - Google Patents

网络蜘蛛垂直数据收集方法 Download PDF

Info

Publication number
CN102932482A
CN102932482A CN2012104647098A CN201210464709A CN102932482A CN 102932482 A CN102932482 A CN 102932482A CN 2012104647098 A CN2012104647098 A CN 2012104647098A CN 201210464709 A CN201210464709 A CN 201210464709A CN 102932482 A CN102932482 A CN 102932482A
Authority
CN
China
Prior art keywords
webpage
client
information
record
header
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104647098A
Other languages
English (en)
Other versions
CN102932482B (zh
Inventor
丁国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Whole Person Information Consulting (Suzhou) Co., Ltd.
Original Assignee
KUNSHAN DINGSHENG DATA SERVICES CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KUNSHAN DINGSHENG DATA SERVICES CO Ltd filed Critical KUNSHAN DINGSHENG DATA SERVICES CO Ltd
Priority to CN201210464709.8A priority Critical patent/CN102932482B/zh
Publication of CN102932482A publication Critical patent/CN102932482A/zh
Application granted granted Critical
Publication of CN102932482B publication Critical patent/CN102932482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网络蜘蛛垂直数据收集方法,包括以下步骤:1)在客户端上建立URL类库和Page类库;2)将客户端进程与服务端进程建立连接;3)客户端上构造请求消息体并发送给服务端;4)客户端获取网页头信息和网页体信息;5)客户端解析网页头信息,保存符合要求的网页体信息,完成网页数据收集。本发明的网络蜘蛛垂直数据收集方法,能够为用户提供更加准确的信息,更好的满足用户的检索要求,且算法准确、稳定、不会引起本地资源耗尽,具有良好的应用前景。

Description

网络蜘蛛垂直数据收集方法
技术领域
本发明涉及信息分析抓取技术领域,具体涉及一种网络蜘蛛垂直数据收集方法。
背景技术
目前,随着网络信息的迅速膨胀,互联网的信息量越来越大,现在有的搜索引擎如 Google、百度等,搜狗等都是面向所有的用户免费开放的,都力争在搜索返回结果上做到全面,但是上述搜索引擎并不是专门为搜索特定领域资料而设计的,然而人们往往需要借助搜索引擎来帮助他们在大量信息中寻找指定领域的资料,比如求职者在百度中搜索“苏州旅游”,会有部分的旅游信息,但是结果中很多旅游信息都已经过期,有的甚至是一年前甚至更久的职位信息,对于旅游信息这样的时效性非常高的信息,百度这样的搜索引擎明显不能满足用户需求。
还有开发网页搜索的产生背景是因为互联网上的网页太多,用户无法找到自己想要的网页,存在两个问题,第一:用户从开放式的网页搜索中想要找到自己想要的某一个特定领域的信息时,需要花费大量的时间,例如,对于求职而言,如果用户在google中输入“java开发”,得到的结果都是讲java开发技巧的,要想看到关于“java开发”的职位,需要用不断的翻页;垂直搜索产生的第二个原因是,领域性网站数量的日益增多,拿招聘来说,现在国内的招聘网站可以说是几百家,除了51job、chinahr、zhaopin这样的门户之外,各地还有自己的招聘门户,因此,用户想要得到全面的招聘信息,就需要一个网站一个网站打开去看,耗时耗力。
发明内容
本发明的目的克服现有技术中的不足,提供的一种网络蜘蛛垂直数据收集方法,能够为用户提供更加准确的信息,更好的满足用户的检索要求,且算法准确、稳定、不会引起本地资源耗尽,具有良好的应用前景。 
为了达到上述技术目的,本发明所采用的技术方案是:
一种网络蜘蛛垂直数据收集方法,其特征在在于:包括以下步骤,
步骤(1)在客户端上建立URL类库和Page类库
 URL类库用于组成消息体,并将消息体发送给Web服务器,Page类库用于解析网页头信息、提取链接信息的Page类;
步骤(2)将客户端进程与服务端进程建立连接
采用非阻塞方式建立客户端进程与服务端进程的连接;
步骤(3)客户端上构造请求消息体并发送给服务端 
步骤(4)客户端获取网页头信息和网页体信息
服务端接受客户端上构造请求消息体后,返回网页头信息和网页体信息;
步骤(5)客户端解析网页头信息,保存符合要求的网页体信息,完成网页数据收集。
前述的网络蜘蛛垂直数据收集方法,其特征在在于:步骤(4)所述网页头信息包括文件类型、大小、最后修改时间内容,所述网页体信息包括网页全文内容。
前述的网络蜘蛛垂直数据收集方法,其特征在在于:步骤(5)所述客户端解析网页头信息的方法为,
(1)解析网页头信息的返回码,判断服务器是否对步骤(3)的构造请求消息体转向,若转向,则重新构造消息体,并通过客户端发送请求;
(2)解析网页头信息的传输类型及网页体信息的大小,客户端申请预定接收的内存空间准备接收,若超出预定接收的内存空间的大小,则放弃网页体信息;
(3)解析网页头信息的网页类型,进行网页体信息的获取。
前述的网络蜘蛛垂直数据收集方法,其特征在在于:步骤(5)所述保存符合要求的网页体信息采用天网格式进行存储。
前述的一种网络蜘蛛垂直数据收集方法,其特征在在于:所述保存符合要求的网页体信息还设有用于破坏后网页体信息的数据可恢复性分析,包括以下步骤,
(1)选取破坏后网页体信息的任一个残存片段;
(2)记录该残存片段中一字符串的位置POS;
(3)找到该字符串后,判断其后的数据是否满足天网格式的存储条件,若存储条件不满足,则从(2)记录的位置POS开始继续查找下一个字符串,重复(3);
(4)若存储条件满足,则假定为正确记录,则下一个记录为正确记录,检查该记录满足天网格式的存储条件,若存储条件不满足,则假定错误,从(2)记录的位置POS开始,继续查找下一个特定字符串,若条件都满足,则继续检查下一个记录是否正确;
(5)若连续三个记录都是正确的,则(2)所找到字符串是正确的记录的开始,然后通过服务器依此提取出全部正确的网页。
本发明的有益效果是:本发明提供的网络蜘蛛垂直数据收集方法,通过分析搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出基于人的信息专业的定题搜索器,以垂直搜索引擎的核心,采用深度优先的搜索策略设计适合中小型网站专业网页信息获取的网络蜘蛛,并给出此网络蜘蛛的爬行算法使用C++ Builder工具实现程序,另外,为了保证数据库中的信息不重复,还设计了专门用于数据查重的程序以保证资源准确,能够为用户提供更加准确的信息,更好的满足用户的检索要求,且算法准确、稳定、不会引起本地资源耗尽,具有良好的应用前景。
附图说明
图1是本发明的网络垂直抓取系统的系统框图。
图2是本发明的基于Socket的客户端与服务端连接示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示的网络垂直抓取系统的系统框图,网络垂直抓取系统过程是INTERNET(初始时包含用户指定的起始种子URL类库集合,可以是1个或多个)获得输入,解析URL类库中标明的服务器地址、建立连接、发送请求和接收数据,将获得的网页数据存储在原始网页库,并从其中提取出链接信息放入网页结构库,同时将待抓取的URL放入URL类库,保证整个过程的递归进行,直到URL库为空,网络蜘蛛垂直搜索系统提供检索服务,需要保存网页原文,搜集的网页要按照一定的格式存储,便于后续组织和提供服务,本发明基于网络垂直抓取系统的网络蜘蛛垂直数据收集方法,其特征在在于:包括以下步骤,
第一步,在客户端上建立URL类库和Page类库
 URL类库用于组成消息体,并将消息体发送给Web服务器,Page类库用于解析网页头信息、提取链接信息的Page类; 
URL类库为是HTTP,FTP等协议开始的字符串,有了URL类库后,按照URL类库中标识抓取其所对应的网页,网页信息保存在Page类库中;
第二步,将客户端进程与服务端进程建立连接
将已经从URL类库中获得了服务器的主机名,要能够从服务器上获取网页内容,UDP和TCP的通信采用Socket 方法实现,Socket为进程间通信提供了端点,通信由消息组成,消息是在一个进程的Socket与另一个进程Socket之间传送的,如图2所示,一个进程要能够接收消息,它的Socket必须绑定到一个本地端口和本地地址上。发送到指定Internet地址和端口上的消息,只能被绑定到该地址和端口的Socket所属进程接收,连接的建立过程是异步的,一方在监听建立连接的请求,一方将发起建立连接的请求,连接一旦被接受,操作系统(例如UNIX)自动创建新的socket使之与客户端连接成通信的通道,这样服务端就可以在原来的Socket上继续监听其他客户的请求了,连接建立后,双方进程可以通过建立好的连接进行读写操作,这里采用非阻塞方式建立客户端进程与服务端进程的连接;
第三步,客户端上构造请求消息体并发送给服务端;
第四步,客户端获取网页头信息和网页体信息
服务端接受客户端上构造请求消息体后,返回网页头信息和网页体信息,所述网页头信息包括文件类型、大小、最后修改时间内容,所述网页体信息包括网页全文内容。
第五步,客户端解析网页头信息,保存符合要求的网页体信息,完成网页数据收集,所述客户端解析网页头信息的方法为,
(1)解析网页头信息的返回码,判断服务器是否对步骤(3)的构造请求消息体转向,若转向,则重新构造消息体,并通过客户端发送请求;
(2)解析网页头信息的传输类型及网页体信息的大小,客户端申请预定接收的内存空间准备接收,若超出预定接收的内存空间的大小,则放弃网页体信息;
(3)解析网页头信息的网页类型,进行网页体信息的获取;
所述保存符合要求的网页体信息采用天网格式进行存储,所述保存符合要求的网页体信息还设有用于破坏后网页体信息的数据可恢复性分析,包括以下步骤,
(1)选取破坏后网页体信息的任一个残存片段;
(2)记录该残存片段中一字符串的位置POS;
(3)找到该字符串后,判断其后的数据是否满足天网格式的存储条件,若存储条件不满足,则从(2)记录的位置POS开始继续查找下一个字符串,重复(3);
(4)若存储条件满足,则假定为正确记录,则下一个记录为正确记录,检查该记录满足天网格式的存储条件,若存储条件不满足,则假定错误,从(2)记录的位置POS开始,继续查找下一个特定字符串“version”,如果条件都满足,则继续检查下一个记录是否正确;
(5)若连续三个记录都是正确的,则(2)所找到字符串是正确的记录的开始,然后通过服务器依此提取出全部正确的网页。
综上所述,本发明的通过分析搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,提出基于人的信息专业的定题搜索器,以垂直搜索引擎的核心,采用深度优先的搜索策略设计适合中小型网站专业网页信息获取的网络蜘蛛,并给出此网络蜘蛛的爬行算法使用C++ Builder工具实现程序,另外,为了保证数据库中的信息不重复,还设计了专门用于数据查重的程序以保证资源准确,能够为用户提供更加准确的信息,更好的满足用户的检索要求,且算法准确、稳定、不会引起本地资源耗尽,具有良好的应用前景。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界。

Claims (5)

1.一种网络蜘蛛垂直数据收集方法,其特征在在于:包括以下步骤:
步骤(1)在客户端上建立URL类库和Page类库
 URL类库用于组成消息体,并将消息体发送给Web服务器,Page类库用于解析网页头信息、提取链接信息的Page类;
步骤(2)将客户端进程与服务端进程建立连接
采用非阻塞方式建立客户端进程与服务端进程的连接;
步骤(3)客户端上构造请求消息体并发送给服务端 ;
步骤(4)客户端获取网页头信息和网页体信息
服务端接受客户端上构造请求消息体后,返回网页头信息和网页体信息;
步骤(5)客户端解析网页头信息,保存符合要求的网页体信息,完成网页数据收集。
2.根据权利要求1所述的网络蜘蛛垂直数据收集方法,其特征在在于:步骤(4)所述网页头信息包括文件类型、大小、最后修改时间内容,所述网页体信息包括网页全文内容。
3.根据权利要求1所述的网络蜘蛛垂直数据收集方法,其特征在在于:步骤(5)所述客户端解析网页头信息的方法为,
(1)解析网页头信息的返回码,判断服务器是否对步骤(3)的构造请求消息体转向,若转向,则重新构造消息体,并通过客户端发送请求;
(2)解析网页头信息的传输类型及网页体信息的大小,客户端申请预定接收的内存空间准备接收,若超出预定接收的内存空间的大小,则放弃网页体信息;
(3)解析网页头信息的网页类型进行网页体信息的获取。
4.根据权利要求1所述的网络蜘蛛垂直数据收集方法,其特征在在于:步骤(5)所述保存符合要求的网页体信息采用天网格式进行存储。
5.根据权利要求1或4所述的网络蜘蛛垂直数据收集方法,其特征在在于:所述保存符合要求的网页体信息还设有用于破坏后网页体信息的数据可恢复性分析,包括以下步骤,
(1)选取破坏后网页体信息的任一个残存片段;
(2)记录该残存片段中一字符串的位置POS;
(3)找到该字符串后,判断其后的数据是否满足天网格式的存储条件,若存储条件不满足,则从(2)记录的位置POS开始继续查找下一个字符串,重复(3);
(4)若存储条件满足,则假定为正确记录,则下一个记录为正确记录,检查该记录满足天网格式的存储条件,若存储条件不满足,则假定错误,从(2)记录的位置POS开始,继续查找下一个特定字符串,若条件都满足,则继续检查下一个记录是否正确;
(5)若连续三个记录都是正确的,则(2)所找到字符串是正确的记录的开始,然后通过服务器依此提取出全部正确的网页。
CN201210464709.8A 2012-11-19 2012-11-19 网络蜘蛛垂直数据收集方法 Active CN102932482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210464709.8A CN102932482B (zh) 2012-11-19 2012-11-19 网络蜘蛛垂直数据收集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210464709.8A CN102932482B (zh) 2012-11-19 2012-11-19 网络蜘蛛垂直数据收集方法

Publications (2)

Publication Number Publication Date
CN102932482A true CN102932482A (zh) 2013-02-13
CN102932482B CN102932482B (zh) 2015-05-20

Family

ID=47647178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210464709.8A Active CN102932482B (zh) 2012-11-19 2012-11-19 网络蜘蛛垂直数据收集方法

Country Status (1)

Country Link
CN (1) CN102932482B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984278A (zh) * 2014-05-28 2014-08-13 天津瑞能电气有限公司 长时间多变量监控数据的存储及快速定位读取的方法
CN105022738A (zh) * 2014-04-21 2015-11-04 上海京知信息科技有限公司 一种基于直方图的网络图片格式文件提取及映射方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李正文: "基于SVM分类算法的主题爬虫研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王鹏: "垂直搜索引擎的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022738A (zh) * 2014-04-21 2015-11-04 上海京知信息科技有限公司 一种基于直方图的网络图片格式文件提取及映射方法
CN103984278A (zh) * 2014-05-28 2014-08-13 天津瑞能电气有限公司 长时间多变量监控数据的存储及快速定位读取的方法

Also Published As

Publication number Publication date
CN102932482B (zh) 2015-05-20

Similar Documents

Publication Publication Date Title
Malik et al. Information extraction using web usage mining, web scrapping and semantic annotation
KR101527259B1 (ko) 검색 질의에 응답하여 디스커션 스레드에 대한 포스트를 제공하는 방법 및 시스템
Shang et al. Link prediction for tree-like networks
CN102035698B (zh) 基于决策树分类算法的http隧道检测方法
CN102355488B (zh) 爬虫种子获取方法与设备及爬虫爬取方法与设备
CN101635718A (zh) 网络爬虫系统及其获取资源的方法和网络资源抓取装置
US20170235726A1 (en) Information identification and extraction
CN103810268B (zh) 加载搜索结果推荐信息、网址检测的方法、装置和系统
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
WO2012083870A1 (zh) 一种论坛回帖增量采集方法及系统
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
CN106446113A (zh) 移动大数据解析方法及装置
CN106104550A (zh) 网站信息提取装置、系统、网站信息提取方法以及网站信息提取程序
CN110083752A (zh) 房源信息推荐方法、装置、设备及存储介质
CN105653717B (zh) 一种信息分享的方法及装置
CN102932482B (zh) 网络蜘蛛垂直数据收集方法
CN103246675A (zh) 一种用于抓取网站数据的方法与设备
CN103647774A (zh) 基于云计算的web内容信息过滤方法
CN110245314A (zh) 一种网页指纹生成方法
CN109408479A (zh) 日志数据添加方法、系统、计算机设备和存储介质
Tamura et al. A method for language‐specific Web crawling and its evaluation
CN101763391A (zh) 分布式网络站点及其信息搜索方法及系统
CN104021143A (zh) 一种记录网页访问行为的方法及装置
Deepa et al. An efficient preprocessing methodology of log file for Web usage mining
CN114765599A (zh) 子域名采集方法、装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160406

Address after: 200093 No. 99, Lane 15, Jingyu South Road, Shanghai, Yangpu District

Patentee after: Ding Guoping

Address before: 215332 Jiangsu city of Suzhou province Huaqiao Xugong Bridge No. 2 Yin Business Garden D District 442 room

Patentee before: Kunshan Dingsheng Data Services Co., Ltd.

TR01 Transfer of patent right

Effective date of registration: 20190307

Address after: 215332 Pujiang Building, 118 Yunqiao Road, Kunshan Huaqiao Economic Development Zone, Suzhou City, Jiangsu Province

Co-patentee after: Ding Guoping

Patentee after: Whole Person Information Consulting (Suzhou) Co., Ltd.

Address before: 2000 93 No. 15, Lane 99, Jingyu South Road, Yangpu District, Shanghai

Patentee before: Ding Guoping

TR01 Transfer of patent right