CN106202467A - 一种面向对等网络的可定义搜索重点的网络爬虫方法 - Google Patents

一种面向对等网络的可定义搜索重点的网络爬虫方法 Download PDF

Info

Publication number
CN106202467A
CN106202467A CN201610563533.XA CN201610563533A CN106202467A CN 106202467 A CN106202467 A CN 106202467A CN 201610563533 A CN201610563533 A CN 201610563533A CN 106202467 A CN106202467 A CN 106202467A
Authority
CN
China
Prior art keywords
page
peer
link
web crawlers
emphasis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610563533.XA
Other languages
English (en)
Inventor
仇伟民
戴鸿君
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201610563533.XA priority Critical patent/CN106202467A/zh
Publication of CN106202467A publication Critical patent/CN106202467A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种面向对等网络的可定义搜索重点的网络爬虫方法,属于计算机网络信息检索领域,本发明要解决的技术问题为如何将对等网络和网络爬虫结合,实现可定义搜索重点的网络爬虫对特定领域和主题实现描述的难度较小而且准确度较高,采用的技术方案为:该方法是利用基于站点页面链接结构的链接导航技术来提高主题信息的抓取准确率和速度,采用易于操作的主题描述来实现高可定制性的网络爬虫,通过配置文件来实现可定制,最终构建出一个可控性强、资源消耗小、数据采集准确性高的轻量级聚焦网络爬虫,以满足P2P搜索的需求。

Description

一种面向对等网络的可定义搜索重点的网络爬虫方法
技术领域
本发明涉及计算机网络信息检索领域,具体地说是一种面向对等网络的可定义搜索重点的网络爬虫方法。
背景技术
随着P2P即对等网络的发展,P2P的网络搜索技术也逐渐被人们所关注,现今已经出现了一些较为原始的系统模型,如MINER-VA,ODISSEA,Coopeer 等,这些系统大多只关注P2P网络搜索的算法方面,未对网络信息采集方面有太多的深入,为运行其系统,一般会假定数据信息有P2P自主结点提供,这也使得P2P的信息采集方面的研究出现空白。
网络爬虫也叫网络机器人,是一种可以自行采集网页信息的程序,可定义搜索重点的网络爬虫可以对特定领域或者主题的信息进行针对收集,现有的可定义搜索重点的网络爬虫对特定领域和主题实现描述的难度较大而且准确度也难以保证,对于网络页面和链接的处理算法也过于复杂,难以被应用于实践,对于搜索重点的把握难以到位,搜索信息的质量不高,资源和时间成本相对较高,而基于P2P的网络搜索对网络爬虫的各方面都提出了更为苛刻的要求和条件。由于使用结点控制,结点要保证对网络爬虫有相对较高的控制力度,对于特定领域范围和主题的描述需要尽可能的简单易懂,结点搜索指定信息类型是可以根据自身所持有的时间和资源情况自主选择,结点的动态性需要保证各个网络爬虫要具备一定的独立性,而网络结点的自身条件的限制也要减小的最低,比如网络带宽和处理能力等。如何将对等网络和网络爬虫结合满足上述要求是目前现有技术中存在的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供一种面向对等网络的可定义搜索重点的网络爬虫方法,来解决如何将对等网络和网络爬虫结合,实现可定义搜索重点的网络爬虫对特定领域和主题实现描述的难度较小而且准确度较高,对于网络页面和链接的处理算法简单化,易于被应用于实践,准确把握搜索重点,提高搜索信息的质量,同时降低资源和时间成本的问题。
本发明的技术任务是按以下方式实现的,一种面向对等网络的可定义搜索重点的网络爬虫方法,该方法是利用基于站点页面链接结构的链接导航技术来提高主题信息的抓取准确率和速度,采用易于操作的主题描述来实现高可定制性的网络爬虫,通过配置文件来实现可定制,最终构建出一个可控性强、资源消耗小、数据采集准确性高的轻量级聚焦网络爬虫,以满足P2P搜索的需求。
作为优选,所述网络爬虫依据设定好的方向抓取对象信息,有选择地访问网页和网页包含的相关链接,根据设定的抓取规则获取所需信息,同时,用户提供特定领域或主题描述用于指定抓取的内容,而且为了确保所获取信息与主题要求的尽可能的一致,一方面需要根据相应的特定领域和主题描述对页面进行相关度评价,根据评价结果过滤掉无关页面;另一方面,还要根据特定领域或主题描述对访问网页后解析出的链接进行评价和过滤,被评价为有用的链接才会被加入待处理URL队列。
作为优选,所述链接导航技术是基于站点链接结构的页面和链接过滤方法。
作为优选,所述网络爬虫的工作过程如下:
(1)、抓取站点主页,从中解析并过滤出索引页面的URL;
(2)、抓取索引页面并从中解析过滤出内容页面的URL;
(3)、抓取内容页面并从中解析过滤得到下载页面的URL;
(4)、从下载页面下载目标数据。
作为优选,所述主题描述采用页面类型限定或站点范围限定,大大减小了主题描述的难度。
作为优选,所述基于配置文件的定制过程如下:用户可在配置文件中指定需要抓取的目标网页类型和站点范围,从而对主题进行描述;并用正则表达式来描述站点主页、索引页面、内容页面和下载页面的URL模式,从而通过URL模式匹配来实现页面过滤和链接过滤。
本发明的面向对等网络的可定义搜索重点的网络爬虫方法具有以下优点:本发明将对等网络和网络爬虫结合,实现可定义搜索重点的网络爬虫对特定领域和主题实现描述的难度较小而且准确度较高,对于网络页面和链接的处理算法简单化,易于被应用于实践,准确把握搜索重点,提高搜索信息的质量,同时降低资源和时间成本
故本发明具有设计合理、使用方便、一物多用等特点,因而,具有很好的推广使用价值。
附图说明
下面结合附图对本发明进一步说明。
附图1为网络爬虫的系统结构示意图;
附图2为实施例1中电影之家站点页面链接结构示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种面向对等网络的可定义搜索重点的网络爬虫方法作以下详细地说明。
实施例1:
本发明的一种面向对等网络的可定义搜索重点的网络爬虫方法, 该方法是利用基于站点页面链接结构的链接导航技术来提高主题信息的抓取准确率和速度,链接导航技术是基于站点链接结构的页面和链接过滤方法,采用易于操作的主题描述来实现高可定制性的网络爬虫,通过配置文件来实现可定制,最终构建出一个可控性强、资源消耗小、数据采集准确性高的轻量级聚焦网络爬虫,以满足P2P搜索的需求。网络爬虫依据设定好的方向抓取对象信息,有选择地访问网页和网页包含的相关链接,根据设定的抓取规则获取所需信息,同时,用户提供特定领域或主题描述用于指定抓取的内容,而且为了确保所获取信息与主题要求的尽可能的一致,一方面需要根据相应的特定领域和主题描述对页面进行相关度评价,根据评价结果过滤掉无关页面,主题描述采用页面类型限定或站点范围限定,大大减小了主题描述的难度;另一方面,还要根据特定领域或主题描述对访问网页后解析出的链接进行评价和过滤,被评价为有用的链接才会被加入待处理URL队列。
其中,网络爬虫的系统结构:可定义搜索重点的网络爬虫依据设定好的方向抓取对象信息,有选择地访问网页和网页包含的相关链接,根据设置好的抓取规则获取所需信息,此网络爬虫的结构如附图1所示,与通用的网络爬虫区别点在于,用户需要提供特定领域或主题描述用于指定抓取的内容,而且为了确保所获取信息与主题要求的尽可能的一致,一方面需要根据相应的特定领域和主题描述对页面进行相关度评价,根据评价结果过滤掉无关页面;另一方面.还要根据特定领域或主题描述对访问网页后解析出的链接进行评价和过滤,只有那些被评价为有用的链接才会被加入待处理URL队列。故特定领域定义、主题描述、页面过滤和链接过滤是可定义搜索重点的网络爬虫的重点。
页面链接过滤:页面过滤的关键是页面与主题的相关度评价算法,主要有基于向量空间模型的评价算法、基于潜在语义索引的评价算法、基于贝叶斯分类器的评价算法等。链接过滤主要采用链接分析等技术实现,这些过滤方法实现复杂性较高,需要设置过滤阈值,而且需要处理链接隧道问题。
根据多种网络调查信息所得结论,网络站点内部一般呈现相对固定的组织结构和链接结构,根据一般性的网站分析,站点内的页面分为4类:站点主页、索引页面、内容页面、参考页面,它们之间具有一定的链接关系。通过对国内主要电影下载站点的分析,发现了类似的结构特征。于是将页面分为5类:站点主页、索引页面、内容页面、下载页面和其他页面,它们之间的链接关系如附图2所示,可以利用这种链接结构对页面过滤和链接过滤进行简化和优化。在网站的搜索系统中,爬虫的目的是抓取下载页面,因此页面过滤只需要把下载页面保留即可,而链接过滤只需要把站点主页、索引页面、内容页面和下载页面的链接保留即可,对站点中大量的其他页面则可以直接滤除。
基于这样的链接结构和过滤方法,可定义搜索重点的网络爬虫的工作流程设计为:首先抓取站点主页,从中解析并过滤出索引页面的URL;其次抓取索引页面并从中解析过滤出内容页面的URL;然后抓取内容页面并从中解析过滤得到下载页面的URL;最后从下载页面下载目标数据。这种基于站点链接结构的页面和链接过滤方法称为链接导航技术。一个站点内的每一类网页通常都具有固定的URL模式,这为链接导航提供了一个简单的实现手段,即通过URL模式匹配来实现网页分类,从而实现链接导航。网页的URL模式可以用正则表达式来描述,模式匹配可以采用精确匹配,也可以采用模糊匹配,利用链接导航技术可以简化聚焦网络爬虫的页面过滤和链接过滤方法,避免访问过多无关网页,从而实现对目标页面简单高效的抓取。在“7060电影”上进行的实验表明,采用链接导航技术可以使数据抓取耗时减少1/3~1/2。其他类型的站点结构可能和此发布站点不完全一致,但通常同一主题类型的站点都趋向于具有近似的页面链接结构,因此链接导航技术广泛适用于各种主题的聚焦网络爬虫。
易于操作的主题描述方法:目前主流的主题描述采用的方法一般是关键词描述、基于概念或本体的语义描述等方法。这些方法对于用户的要求相对较高,都需要人为提供反映某一主题的关键词、概念、本体或字典。此外,还有很多主题描述方法是基于机器学习的,通常需要提供一些样本页面用于学习和训练。总体来看,目前的主题描述方法描述难度较大,用户很难方便地实施主题定制,数据采集的准确性也不稳定,容易发生主题偏移现象,并不适合P2P搜索,因此需要为P2P搜索设计一种简单的主题描述方法。
现今网络上的许多P2P网络搜索的应用中,搜索的主题描述很少使用上述的种种复杂的描述方法,本发明提供了一种相对简单的主题描述方法,可以直接通过页面类型限定、站点范围限定等手段实现,这样就大大减小了主题描述的难度。
针对这类目标比较明确的抓取,采用这种简单的主题描述方法,大大降低了描述难度,方便用户实施定制;同时也降低了相应的页面和链接过滤算法的复杂性以及资源和时间开销。另外,这种简单的主题描述方法对目标的描述通常可以达到很高的准确度,可以提高数据抓取的准确性。
基于配置文件的定制:基于上述的主题描述方法、页面和链接过滤方法,用户可方便地对可定义搜索重点的网络爬虫的抓取目标、页面和链接过滤进行定制。具体的定制可以通过配置文件来实现,用户可在配置文件中指定需要抓取的目标网页类型和站点范围,从而对主题进行描述;并用正则表达式来描述站点主页、索引页面、内容页面和下载页面的URL模式,从而通过URL模式匹配来实现页面过滤和链接过滤。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的一种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (6)

1.一种面向对等网络的可定义搜索重点的网络爬虫方法,其特征在于该方法是利用基于站点页面链接结构的链接导航技术来提高主题信息的抓取准确率和速度,采用易于操作的主题描述来实现高可定制性的网络爬虫,通过配置文件来实现可定制,最终构建出一个可控性强、资源消耗小、数据采集准确性高的轻量级聚焦网络爬虫,以满足P2P搜索的需求。
2.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法,其特征在于所述网络爬虫依据设定好的方向抓取对象信息,有选择地访问网页和网页包含的相关链接,根据设定的抓取规则获取所需信息,同时,用户提供特定领域或主题描述用于指定抓取的内容,一方面需要根据相应的特定领域和主题描述对页面进行相关度评价,根据评价结果过滤掉无关页面;另一方面,还要根据特定领域或主题描述对访问网页后解析出的链接进行评价和过滤,被评价为有用的链接才会被加入待处理URL队列。
3.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法,其特征在于所述链接导航技术是基于站点链接结构的页面和链接过滤方法。
4.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法,其特征在于所述网络爬虫的工作过程如下:
(1)、抓取站点主页,从中解析并过滤出索引页面的URL;
(2)、抓取索引页面并从中解析过滤出内容页面的URL;
(3)、抓取内容页面并从中解析过滤得到下载页面的URL;
(4)、从下载页面下载目标数据。
5.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法,其特征在于所述主题描述采用页面类型限定或站点范围限定。
6.根据权利要求1所述的面向对等网络的可定义搜索重点的网络爬虫方法,其特征在于所述基于配置文件的定制过程如下:用户可在配置文件中指定需要抓取的目标网页类型和站点范围,从而对主题进行描述;并用正则表达式来描述站点主页、索引页面、内容页面和下载页面的URL模式,从而通过URL模式匹配来实现页面过滤和链接过滤。
CN201610563533.XA 2016-07-18 2016-07-18 一种面向对等网络的可定义搜索重点的网络爬虫方法 Pending CN106202467A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610563533.XA CN106202467A (zh) 2016-07-18 2016-07-18 一种面向对等网络的可定义搜索重点的网络爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610563533.XA CN106202467A (zh) 2016-07-18 2016-07-18 一种面向对等网络的可定义搜索重点的网络爬虫方法

Publications (1)

Publication Number Publication Date
CN106202467A true CN106202467A (zh) 2016-12-07

Family

ID=57474753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610563533.XA Pending CN106202467A (zh) 2016-07-18 2016-07-18 一种面向对等网络的可定义搜索重点的网络爬虫方法

Country Status (1)

Country Link
CN (1) CN106202467A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919722A (zh) * 2017-04-28 2017-07-04 暴风集团股份有限公司 一种用于体育赛事的网络数据获取方法和系统
CN108228431A (zh) * 2018-01-04 2018-06-29 北京中关村科金技术有限公司 一种配置化爬虫质量监测的方法及系统
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN109325166A (zh) * 2018-09-21 2019-02-12 真相网络科技(北京)有限公司 爬虫系统中解析规则配置方法及装置
CN110413861A (zh) * 2019-07-23 2019-11-05 中南民族大学 基于网络爬虫的链接提取方法、装置、设备及存储介质
CN113010639A (zh) * 2021-02-26 2021-06-22 济南浪潮高新科技投资发展有限公司 一种基于电商平台的商品分析方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术
CN103631830A (zh) * 2012-08-29 2014-03-12 华为技术有限公司 网络爬虫检测方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术
CN103631830A (zh) * 2012-08-29 2014-03-12 华为技术有限公司 网络爬虫检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方启明 等: ""面向P2P搜索的可定制聚焦网络爬虫"", 《华中科技大学学报(自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919722A (zh) * 2017-04-28 2017-07-04 暴风集团股份有限公司 一种用于体育赛事的网络数据获取方法和系统
CN108228431A (zh) * 2018-01-04 2018-06-29 北京中关村科金技术有限公司 一种配置化爬虫质量监测的方法及系统
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN109325166A (zh) * 2018-09-21 2019-02-12 真相网络科技(北京)有限公司 爬虫系统中解析规则配置方法及装置
CN110413861A (zh) * 2019-07-23 2019-11-05 中南民族大学 基于网络爬虫的链接提取方法、装置、设备及存储介质
CN110413861B (zh) * 2019-07-23 2021-10-22 中南民族大学 基于网络爬虫的链接提取方法、装置、设备及存储介质
CN113010639A (zh) * 2021-02-26 2021-06-22 济南浪潮高新科技投资发展有限公司 一种基于电商平台的商品分析方法及装置

Similar Documents

Publication Publication Date Title
CN106202467A (zh) 一种面向对等网络的可定义搜索重点的网络爬虫方法
US20210192389A1 (en) Method for ai optimization data governance
DE102017111438A1 (de) Api-lernen
CN103605794A (zh) 一种网站分类方法
CN105335487A (zh) 基于农业技术信息本体库的农业专家信息检索系统及方法
US20100023508A1 (en) Search engine enhancement using mined implicit links
CN106021222B (zh) 一种科研文献主题演化的分析方法和装置
CN105095281B (zh) 一种基于日志挖掘的网站分类目录优化分析方法
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN102073692A (zh) 基于农业领域本体库的语义检索系统和方法
CN101520798A (zh) 基于垂直搜索和聚焦爬虫的网页分类技术
CN107766555A (zh) 基于软约束无监督型跨模态哈希的图像检索方法
CN110008390A (zh) 应用程序的评估方法、装置、计算机设备及存储介质
CN105005600A (zh) 一种访问日志中url的预处理方法
CN103514189A (zh) 一种基于搜索引擎的网络爬虫的实现方法
CN109885782B (zh) 一种生态环境空间大数据集成方法
CN109710826A (zh) 一种互联网信息人工智能采集方法及其系统
CN103440315A (zh) 一种基于主题的Web页面清洗方法
CN107622057A (zh) 一种查找任务的方法和装置
KR101038337B1 (ko) 온톨로지 기반 인덱스 방법 및 이를 이용한 검색엔진
CN113901228A (zh) 融合领域知识图谱的跨境民族文本分类方法及装置
CN108932350A (zh) 基于多策略的水稻病虫害智能问答方法
CN104750812A (zh) 一种基于网页标签分析的数据自动采集方法
CN110647673A (zh) 一种实现生态环境空间大数据集成共享的方法
KR101515304B1 (ko) 하둡 기반의 리듀스-사이드 조인 처리 시스템의 리듀스-사이드 조인 질의 처리 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication