CN107015986A - 一种爬虫爬取网页的方法及装置 - Google Patents

一种爬虫爬取网页的方法及装置 Download PDF

Info

Publication number
CN107015986A
CN107015986A CN201610056484.0A CN201610056484A CN107015986A CN 107015986 A CN107015986 A CN 107015986A CN 201610056484 A CN201610056484 A CN 201610056484A CN 107015986 A CN107015986 A CN 107015986A
Authority
CN
China
Prior art keywords
webpage
links
target webpage
browser
loaded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610056484.0A
Other languages
English (en)
Other versions
CN107015986B (zh
Inventor
孙德彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610056484.0A priority Critical patent/CN107015986B/zh
Publication of CN107015986A publication Critical patent/CN107015986A/zh
Application granted granted Critical
Publication of CN107015986B publication Critical patent/CN107015986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种爬虫爬取网页的方法及装置,涉及互联网技术领域,为解决快速又全面的爬取网页资源的问题而发明。本发明的方法包括:提取目标网页的第一链接个数,所述目标网页为待爬取的网页;若所述第一链接个数小于第一预设阈值,则通过浏览器加载所述目标网页后进行爬取;若所述第一链接个数不小于所述第一预设阈值,则通过浏览器加载所述目标网页后提取该目标网页的第二链接个数;若所述第二链接个数大于所述第一链接个数,则对浏览器加载的所述目标网页进行爬取。本发明主要应用于爬虫爬取网页的过程中。

Description

一种爬虫爬取网页的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种爬虫爬取网页的方法及装置。
背景技术
爬虫是自动获取网页内容的程序,是搜索引擎的重要组成部分。在爬虫应用中,由于一些待爬取的网页中包含JS(JavaScript,Java脚本语言)、CSS(Cascading Style Sheets,层叠样式表)、图片等资源,若由爬虫直接对这些网页进行爬取,会造成爬取不全面的问题。只有通过浏览器对这些网页进行加载后再爬取,才能获取到这些资源。如果全部网页都通过浏览器加载后再爬取,会耗费巨大的浏览器加载成本,浏览器需要请求打开网页,并在加载成功后读取这些JS、CSS、图片等资源,速度是普通爬虫速度的十几倍。如果用人工检查哪些网页需要通过浏览器加载,上亿个网页的人工检查同样会耗费巨大的人力和时间成本。
因此,如何能既快速又全面的爬取网页资源,是目前亟待解决的问题。
发明内容
本发明提供了一种爬虫爬取网页的方法及装置,能够解决快速又全面的爬取网页资源的问题。
为了解决上述技术问题,一方面,本发明提供了一种爬虫爬取网页的方法,该方法包括:
提取目标网页的第一链接个数,所述目标网页为待爬取的网页;
若所述第一链接个数小于预设阈值,则通过浏览器加载所述目标网页后进行爬取;
若所述第一链接个数不小于所述预设阈值,则通过浏览器加载所述目标网页后提取该目标网页的第二链接个数;
若所述第二链接个数大于所述第一链接个数,则对浏览器加载的所述目标网页进行爬取。
另一方面,本发明提供了一种爬虫爬取网页的装置,该装置包括:
第一提取单元,用于提取目标网页的第一链接个数,所述目标网页为待爬取的网页;
爬取单元,用于若所述第一链接个数小于预设阈值,则通过浏览器加载所述目标网页后进行爬取;
第二提取单元,用于若所述第一链接个数不小于所述预设阈值,则通过浏览器加载所述目标网页后提取该目标网页的第二链接个数;
所述爬取单元,用于若所述第二链接个数大于所述第一链接个数,则对浏览器加载的所述目标网页进行爬取。
本发明提供的一种爬虫爬取网页的方法及装置,通过提取目标网页的第一链接个数,比较第一链接个数与预设阈值的大小。若第一链接个数小于预设阈值,则通过浏览器加载目标网页后进行爬取。若第一链接个数不小于预设阈值,则通过浏览器加载网页后提取目标网页的第二链接个数。若第二链接个数大于第一链接个数,则对浏览器加载的目标网页进行爬取。与现有技术相比,本发明能够快速又全面的爬取网页资源,通过爬虫方式快速地爬取目标网页,节省时间成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种爬虫爬取网页的方法流程图;
图2示出了本发明实施例提供的另一种爬虫爬取网页的方法流程图;
图3示出了本发明实施例提供的一种爬虫爬取网页的装置组成框图;
图4示出了本发明实施例提供的另一种爬虫爬取网页的装置组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种爬虫爬取网页的方法,如图1所示,该方法包括:
101、提取目标网页的第一链接个数。
爬虫是按照一定的规则,自动地抓取万维网信息的程序或脚本。通过爬虫抓取网页,并获取编写网页的HTML源码。超文本标记语言HTML是构成网页文档的主要语言。HTML源码,即是HTML文本,是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格和链接等。
目标网页为待爬取的网页。根据获取的网页的HTML源码,提取网页中含有的第一链接个数。链接也称超级链接,是指一个网页指向一个目标的连接关系,所指向的目标可以是另一个网页,也可以是相同网页上的不同位置,还可以是图片、电子邮件地址、文件或者是应用程序。第一链接个数,是指用爬虫方式爬取网页中的链接数。
102、若第一链接个数小于预设阈值,则通过浏览器加载目标网页后进行爬取。
预设阈值,与第一链接个数,都是链接个数值。在本实施例中,对预设阈值的大小不做限定。第一链接个数小于预设阈值,说明第一链接个数较少,可能是网页本身的链接数较少,也可能是网页中包括动态更新信息的链接,通过爬虫爬取的方式不能获取动态更新信息的链接。
若网页本身的链接数较少,无论使用哪种加载网页的方式,加载网页的速度相差不大。而爬虫方式加载网页与浏览器方式加载网页相比,浏览器方式加载网页可以获取完整的网页数据信息。所以若第一链接个数小于预设数值,则使用浏览器方式加载网页。
若网页中包括动态更新信息的链接,通过爬虫爬取的方式不能获取动态更新信息的链接。所以若第一链接个数小于预设阈值,则使用浏览器方式加载网页后进行爬取。
103、若第一链接个数不小于预设阈值,则通过浏览器加载目标网页后提取该目标网页的第二链接个数。
若第一链接个数不小于预设阈值,需要继续判断该网页适用哪种方式加载。通过浏览器加载方式加载网页,获取网页HTML源码,提取网页的第二链接个数。第二链接个数,是指用浏览器方式加载的网页中的链接数。第二链接个数,与第一链接个数对应,是根据同一个网页的不同的加载方式获取的。
104、若第二链接个数大于第一链接个数,则对浏览器加载的目标网页进行爬取。
第二链接个数大于第一链接个数,即为使用浏览器加载方式加载的网页中的链接个数大于爬虫加载方式加载的网页中的链接个数,说明在通过网页中可能包括动态更新信息的链接,通过爬虫爬取的方式不能获取动态更新信息的链接。所以使用浏览器加载方式加载网页。
本发明实施例提供的一种爬虫爬取网页的方法,通过提取目标网页的第一链接个数,比较第一链接个数与预设阈值的大小。若第一链接个数小于预设阈值,则通过浏览器加载目标网页后进行爬取。若第一链接个数不小于预设阈值,则通过浏览器加载网页后提取目标网页的第二链接个数。若第二链接个数大于第一链接个数,则对浏览器加载的目标网页进行爬取。与现有技术相比,本发明实施例能够快速又全面的爬取网页资源,通过爬虫方式快速地爬取目标网页,节省时间成本。
进一步地,作为图1所示方法的细化和扩展,本发明实施例还提供了另一种爬虫爬取网页的方法,如图2所示,该方法包括:
201、查找并判定待加载网页是否为目标网页。
获取待加载网页的URL;查找浏览器数据库中,是否存在待加载网页的URL;若存在,则通过浏览器加载待加载网页后进行爬取;若不存在,则查找爬虫数据库中,是否存在待加载网页的URL;若存在,则爬取待加载网页;若不存在,则将待加载网页确定为目标网页。
202、判断待加载网页是否为目标网页。
通过以下方式判断网页是否为目标网页:获取网页的超文本标记语言HTML源码;判断所述网页是否属于导航页;若网页为导航页,确定网页为目标网页。
网页可能是导航页,也可能是内容页。导航页的作用是抓取到更多链接,而内容页的作用是展示内容。若网页为内容页,则需要加载网页才能获取网页内容。若网页为导航页,则不同的内容获取方式,抓取到的链接资源也不相同。所以若网页为导航页需要判断网页的采用何种方式获取。
判断网页是否为导航页,可以根据网页的资源定位符URL判断网页是否属于导航页;或者,根据网页的内容判断网页是否属于导航页。
资源定位符URL,是根据一定的命名规则形成的。分析其命名规则,查找导航页及内容页的命名规则,判断哪些网页属于导航页。例如,经分析URL的命名过程中,内容页的URL中含有页面生成的日期。若URL中存在日期,则网页为内容页。若URL中不存在日期,则网页为导航页。
根据获取的网页HTML源码,获取网页内容,根据网页内容判断网页是否属于导航页。例如,根据获取的网页HTML源码,因为网页开端和网页结尾部分,通常含有广告链接、友情链接等内容,所以去掉网页开端与网页结尾的部分网页内容,获取代表网页内容的中间部分。若网页中间部分的链接数较大,则网页为导航页。通过链接数判断是否为导航页的方式,是对网页内容的大致判断,准确度不高。
在本实施例中,对判断网页是否属于导航页的判断方法不做限定。
203、提取目标网页的第一链接个数,目标网页为待爬取的网页。
HTML源码,是由HTML命令组成的描述性文本,包括文字、图形、动画、声音、表格和链接等。根据HTML源码,提取网页的第一链接个数。
获取目标网页的超文本标记语言HTML源码;在HTML源码中,查找预置的链接标识;统计链接标识的个数;将链接标识的个数,确定为第一链接个数。提取目标网页的第一链接个数。
204、若第一链接个数小于预设阈值,则通过浏览器加载目标网页后进行爬取。
本步骤与图1所示方法中的步骤102相同,这里不再赘述。
205、若第一链接个数不小于预设阈值,则通过浏览器加载目标网页后提取该目标网页的第二链接个数。
通过浏览器加载方式获取目标网页的HTML源码;根据目标网页的HTML源码,提取目标网页的第二链接个数。
若第一链接个数不小于预设阈值,通过浏览器加载方式加载网页,然后获取网页HTML源码。第一链接个数与第二链接个数,都是在网页中的链接个数。在本实施中,对第二链接个数的提取方法不做限定,对提取第二链接个数的方法与提取第一链接个数的方法是否相同不做限定。
206、若第二链接个数大于第一链接个数,则对浏览器加载的目标网页进行爬取。
本步骤与图1所示方法中的步骤104相同,这里不再赘述。
207、将目标网页的URL,存储到数据库中。
获取目标网页的URL;若目标网页通过浏览器加载,则将目标网页的URL存储在浏览器数据库中;若目标网页不通过浏览器加载,则将目标网页的URL存储在爬虫数据库中。
对于数据库中未记录的URL的网页,均使用爬虫加载方式加载网页。也就是说爬虫加载方式是默认的网页加载方式。因为爬虫加载方式加载网页的速度远大于浏览器加载方式加载网页的速度,所以选择爬虫加载方式为默认的网页加载方式。在本实施例中,对数据库的存储位置不做限定,对最大存储容量不做限定,对数据库中URL的保存时长也不做限定。
进一步地,作为对上述图1与图2所示方法的实现,本发明另一实施例还提供了一种爬虫爬取网页的装置。本装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本装置实施例能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:第一提取单元31、爬取单元32、以及第二提取单元33。其中,
第一提取单元31,用于提取目标网页的第一链接个数,目标网页为待爬取的网页;
爬取单元32,用于若第一链接个数小于预设阈值,则通过浏览器加载目标网页后进行爬取;
第二提取单元33,用于若第一链接个数不小于预设阈值,则通过浏览器加载目标网页后提取该目标网页的第二链接个数;
爬取单元32,还用于若第二链接个数大于第一链接个数,则对浏览器加载的目标网页进行爬取。
进一步地,如图4所示,装置还包括:
获取单元34,用于在第一提取单元之前,获取网页的超文本标记语言HTML源码;
第一判断单元35,用于判断网页是否属于导航页;
确定单元36,用于若网页为导航页,确定网页为目标网页。
进一步地,如图4所示,第一提取单元31,包括:
获取模块311,用于获取目标网页的超文本标记语言HTML源码;
查找模块312,用于在HTML源码中,查找预置的链接标识;
统计模块313,用于统计链接标识的个数;
确定模块314,用于将链接标识的个数,确定为第一链接个数。
进一步地,如图4所示,第二提取单元33,包括:
获取模块331,用于通过浏览器加载方式获取目标网页的HTML源码;
提取模块332,用于根据目标网页的HTML源码,提取目标网页的第二链接个数。
进一步地,如图4所示,装置还包括:
获取单元34,用于获取目标网页的资源定位符URL;
存储单元37,用于若目标网页通过浏览器加载,则将目标网页的URL存储在浏览器数据库中;
存储单元37,还用于若目标网页不通过浏览器加载,则将目标网页的URL存储在爬虫数据库中。
进一步地,如图4所示,装置还包括:
获取单元34,用于在第一提取单元之前,获取待加载网页的URL;
第二判断单元38,用于查找浏览器数据库中,是否存在待加载网页的URL;
爬取单元32,还用于若存在,则通过浏览器加载待加载网页后进行爬取;
第二判断单元38,用于若不存在,则查找爬虫数据库中,是否存在待加载网页的URL;
爬取单元32,还用于若存在,则爬取待加载网页;
爬取单元32,还用于若不存在,则将待加载网页确定为目标网页。
本发明实施例提供的一种爬虫爬取网页的装置,通过提取目标网页的第一链接个数,比较第一链接个数与预设阈值的大小。若第一链接个数小于预设阈值,则通过浏览器加载目标网页后进行爬取。若第一链接个数不小于预设阈值,则通过浏览器加载网页后提取目标网页的第二链接个数。若第二链接个数大于第一链接个数,则对浏览器加载的目标网页进行爬取。与现有技术相比,本发明实施例能够快速又全面的爬取网页资源,通过爬虫方式快速地爬取目标网页,节省时间成本。
所述判断网页加载的装置包括处理器和存储器,上述第一提取单元31、爬取单元32和第二提取单元33等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决快速又全面的爬取网页资源的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:提取目标网页的第一链接个数,所述目标网页为待爬取的网页;若所述第一链接个数小于第一预设阈值,则通过浏览器加载所述目标网页后进行爬取;若所述第一链接个数不小于所述第一预设阈值,则通过浏览器加载所述目标网页后提取该目标网页的第二链接个数;若所述第二链接个数大于所述第一链接个数,则对浏览器加载的所述目标网页进行爬取。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种爬虫爬取网页的方法,其特征在于,所述方法包括:
提取目标网页的第一链接个数,所述目标网页为待爬取的网页;
若所述第一链接个数小于预设阈值,则通过浏览器加载所述目标网页后进行爬取;
若所述第一链接个数不小于所述预设阈值,则通过浏览器加载所述目标网页后提取该目标网页的第二链接个数;
若所述第二链接个数大于所述第一链接个数,则对浏览器加载的所述目标网页进行爬取。
2.根据权利要求1所述的方法,其特征在于,在所述提取目标网页的第一链接个数之前,所述方法还包括:
获取网页的超文本标记语言HTML源码;
判断所述网页是否属于导航页;
若所述网页为导航页,确定所述网页为目标网页。
3.根据权利要求1所述的方法,其特征在于,所述提取目标网页的第一链接个数,包括:
获取所述目标网页的超文本标记语言HTML源码;
在所述HTML源码中,查找预置的链接标识;
统计所述链接标识的个数;
将所述链接标识的个数,确定为所述第一链接个数。
4.根据权利要求1所述的方法,其特征在于,所述通过浏览器加载所述目标网页后提取该目标网页的第二链接个数,包括:
通过浏览器加载方式获取所述目标网页的HTML源码;
根据所述目标网页的HTML源码,提取所述目标网页的第二链接个数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标网页的资源定位符URL;
若所述目标网页通过浏览器加载,则将所述目标网页的URL存储在浏览器数据库中;
若所述目标网页不通过浏览器加载,则将所述目标网页的URL存储在爬虫数据库中。
6.根据权利要求5所述的方法,其特征在于,在所述提取目标网页的第一链接个数之前,所述方法还包括:
获取待加载网页的URL;
查找所述浏览器数据库中,是否存在所述待加载网页的URL;
若存在,则通过浏览器加载所述待加载网页后进行爬取;
若不存在,则查找所述爬虫数据库中,是否存在所述待加载网页的URL;
若存在,则爬取所述待加载网页;
若不存在,则将所述待加载网页确定为所述目标网页。
7.一种爬虫爬取网页的装置,其特征在于,所述装置包括:
第一提取单元,用于提取目标网页的第一链接个数,所述目标网页为待爬取的网页;
爬取单元,用于若所述第一链接个数小于预设阈值,则通过浏览器加载所述目标网页后进行爬取;
第二提取单元,用于若所述第一链接个数不小于所述预设阈值,则通过浏览器加载所述目标网页后提取该目标网页的第二链接个数;
所述爬取单元,还用于若所述第二链接个数大于所述第一链接个数,则对浏览器加载的所述目标网页进行爬取。
8.根据权利要求7所述的装置,其特征在于,所述第一提取单元,包括:
获取模块,用于获取所述目标网页的超文本标记语言HTML源码;
查找模块,用于在所述HTML源码中,查找预置的链接标识;
统计模块,用于统计所述链接标识的个数;
确定模块,用于将所述链接标识的个数,确定为所述第一链接个数。
9.根据权利要求7所述的装置,其特征在于,所述第二提取单元,包括:
获取模块,用于通过浏览器加载方式获取所述目标网页的HTML源码;
提取模块,用于根据所述目标网页的HTML源码,提取所述目标网页的第二链接个数。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
获取单元,用于获取所述目标网页的资源定位符URL;
存储单元,用于若所述目标网页通过浏览器加载,则将所述目标网页的URL存储在浏览器数据库中;
所述存储单元,还用于若所述目标网页不通过浏览器加载,则将所述目标网页的URL存储在爬虫数据库中。
CN201610056484.0A 2016-01-27 2016-01-27 一种爬虫爬取网页的方法及装置 Active CN107015986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610056484.0A CN107015986B (zh) 2016-01-27 2016-01-27 一种爬虫爬取网页的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610056484.0A CN107015986B (zh) 2016-01-27 2016-01-27 一种爬虫爬取网页的方法及装置

Publications (2)

Publication Number Publication Date
CN107015986A true CN107015986A (zh) 2017-08-04
CN107015986B CN107015986B (zh) 2020-06-05

Family

ID=59439186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610056484.0A Active CN107015986B (zh) 2016-01-27 2016-01-27 一种爬虫爬取网页的方法及装置

Country Status (1)

Country Link
CN (1) CN107015986B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416048A (zh) * 2018-03-16 2018-08-17 安徽大学 一种面向词典集的复杂从属结构网页信息抽取方法及系统
CN110069683A (zh) * 2017-09-18 2019-07-30 北京国双科技有限公司 一种基于浏览器爬取数据的方法及装置
CN110188258A (zh) * 2019-04-19 2019-08-30 平安科技(深圳)有限公司 使用爬虫获取外部数据的方法及装置
CN110968758A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 网页数据的爬取方法及装置
CN111291288A (zh) * 2020-01-22 2020-06-16 奇安信科技集团股份有限公司 网页链接抽取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162448A1 (en) * 2006-12-28 2008-07-03 International Business Machines Corporation Method for tracking syntactic properties of a url
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN104090976A (zh) * 2014-07-21 2014-10-08 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162448A1 (en) * 2006-12-28 2008-07-03 International Business Machines Corporation Method for tracking syntactic properties of a url
CN103970788A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种基于网页爬取的爬虫技术
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
CN104090976A (zh) * 2014-07-21 2014-10-08 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069683A (zh) * 2017-09-18 2019-07-30 北京国双科技有限公司 一种基于浏览器爬取数据的方法及装置
CN108416048A (zh) * 2018-03-16 2018-08-17 安徽大学 一种面向词典集的复杂从属结构网页信息抽取方法及系统
CN108416048B (zh) * 2018-03-16 2021-09-21 安徽大学 一种面向词典集的复杂从属结构网页信息抽取方法及系统
CN110968758A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 网页数据的爬取方法及装置
CN110968758B (zh) * 2018-09-30 2023-05-12 北京国双科技有限公司 网页数据的爬取方法及装置
CN110188258A (zh) * 2019-04-19 2019-08-30 平安科技(深圳)有限公司 使用爬虫获取外部数据的方法及装置
CN110188258B (zh) * 2019-04-19 2024-05-24 平安科技(深圳)有限公司 使用爬虫获取外部数据的方法及装置
CN111291288A (zh) * 2020-01-22 2020-06-16 奇安信科技集团股份有限公司 网页链接抽取方法及系统
CN111291288B (zh) * 2020-01-22 2023-05-12 奇安信科技集团股份有限公司 网页链接抽取方法及系统

Also Published As

Publication number Publication date
CN107015986B (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN107015986B (zh) 一种爬虫爬取网页的方法及装置
CN106649316B (zh) 一种视频推送方法及装置
CN108628751B (zh) 一种无用依赖项检测方法及装置
CN110069683B (zh) 一种基于浏览器爬取数据的方法及装置
CN109918296B (zh) 软件自动化测试方法及装置
CN107273269B (zh) 日志解析方法及装置
CN104035863B (zh) 一种浏览器测试方法及装置
CN104036011A (zh) 网页元素的显示方法以及浏览器装置
CN110020339B (zh) 基于无埋点的网页数据采集方法及装置
CN107294918B (zh) 一种钓鱼网页检测方法及装置
CN106844486A (zh) 爬取动态网页的方法及装置
CN110020236B (zh) 网页解析方法、装置、存储介质、处理器和设备
CN113568841B (zh) 一种针对小程序的风险检测方法、装置及设备
CN110569429B (zh) 一种内容选择模型的生成方法、装置和设备
CN112632358B (zh) 一种资源链接获取方法、装置、电子设备及存储介质
CN103823907A (zh) 一种整合在线视频资源地址的方法、装置及引擎
CN109558548B (zh) 一种消除css样式冗余的方法及相关产品
CN106919620B (zh) 单页面处理方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN108255891B (zh) 一种判别网页类型的方法及装置
CN112579947A (zh) 网页元素图的截取方法、装置及电子设备
CN111125087A (zh) 数据的存储方法及装置
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
CN110929188A (zh) 服务端页面渲染方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant