CN110069684A - 一种数据爬取方法、装置、存储介质及处理器 - Google Patents

一种数据爬取方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN110069684A
CN110069684A CN201710916799.2A CN201710916799A CN110069684A CN 110069684 A CN110069684 A CN 110069684A CN 201710916799 A CN201710916799 A CN 201710916799A CN 110069684 A CN110069684 A CN 110069684A
Authority
CN
China
Prior art keywords
network request
web page
page server
equipment
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710916799.2A
Other languages
English (en)
Inventor
满悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710916799.2A priority Critical patent/CN110069684A/zh
Publication of CN110069684A publication Critical patent/CN110069684A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种数据爬取方法、装置、存储介质及处理器,通过对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,根据网页服务器返回给第一设备的、对网络请求的响应对网络请求记录进行更新;再根据网络请求记录确定网页服务器是否已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,当网页服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求时,控制爬虫对第一网页进行数据爬取。本发明可以确保爬取到第一设备加载第一网页时发送至网页服务器的网络请求对应的所有数据,进而实现对网站进行全面及准确的分析。

Description

一种数据爬取方法、装置、存储介质及处理器
技术领域
本发明涉及网络数据处理技术领域,更具体的,涉及一种数据爬取方法、装置、存储介质及处理器。
背景技术
网络爬虫是一种自动提取网页内容的程序,其按照一定的规则抓取互联网信息。网络爬虫从一个或若干个初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的内容,并继续抽取满足规则的新的URL,将其放入队列,周而复始,直到完成满足系统设定的一定条件时停止。
目前大量的网站使用的都是AJAX(Asynchronous JavaScript And XML,异步JavaScript及XML)技术,某设备在访问某个网页时,可能需要向该网页对应的网页服务器发送多个网络请求以加载多个页面内容,网页服务器对接收到的各网络请求进行处理并向该设备返回响应。现有的数据爬取技术下,爬虫在某设备访问一个网页后就开始对该网页进行爬取,但是此时网页服务器可能并未对该网页对应的所有网络请求处理完毕,这就导致该网页中的部分网页内容未加载完成。这种情况下,爬虫就无法爬取到该网页的全部网页内容,进而导致所爬取数据的分析结果的准确性降低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据爬取方法、装置、存储介质及处理器。
具体技术方案如下:
一种数据爬取方法,包括:
对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新;
根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
当所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,控制爬虫对所述第一网页进行数据爬取。
优选的,所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新,包括:
判断所述网页服务器返回给第一设备的、对第一网络请求的响应是否为预设响应组中的响应;
当所述网页服务器返回给第一设备的、对第一网络请求的响应为预设响应组中的响应时,将所述网络请求记录中的所述第一网络请求删除。
优选的,所述根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求,包括:
确定所述网络请求记录是否存在至少一个网络请求;
如果是,则确定所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
如果否,则判断在距离第一时刻之后的预设时间内是否获得所述第一设备加载第一网页时发送至网页服务器的至少一个网络请求;
如果获得至少一个网络请求,则确定所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
如果未获得网络请求,则确定所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求,所述第一时刻是确定所述网络请求记录不存在至少一个网络请求的时刻。
优选的,所述方法还包括:
当所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,返回执行所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新的步骤。
优选的,所述对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,包括:
对第一设备加载第一网页时发送至网页服务器的网络请求中的网络地址信息进行记录,获得网络请求记录,其中,所述网络请求记录中包括:网络请求中的网络地址信息。
优选的,所述对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,包括:
监测所述第一设备加载所述第一网页时发送至网页服务器的网络请求对应的网络请求发出事件;
当监测到所述网络请求发生事件时,记录所述网络请求中的网络地址信息,获得网络请求记录,其中,所述网络请求记录中包括:网络请求中的网络地址信息。
优选的,所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新,包括:
监测所述网页服务器返回给第一设备的、对网络请求发出事件的响应是否为预设响应组中的响应,所述预设响应组中的响应包括:网络完成事件和网络报错事件;
当所述网页服务器返回给第一设备的、对网络请求发出事件的响应为预设响应组中的响应时,将所述网络请求记录中的所述网络地址信息删除。
一种数据爬取装置,包括:
获取单元,用于对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录;
更新单元,用于根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新;
确定单元,用于根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
爬取单元,当所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,用于控制爬虫对所述第一网页进行数据爬取。
一种存储介质,其特征在于,所述存储介质包括存储的程序,
其中,在所述程序运行时控制所述存储介质所在的设备执行如上述所述的数据爬取方法。
一种处理器,其特征在于,所述处理器用于运行程序,
其中,所述程序运行时执行如上述所述的数据爬取方法。
借由上述技术方案,本发明提供的一种数据爬取方法、装置、存储介质及处理器,可以通过对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,根据网页服务器返回给第一设备的、对网络请求的响应对网络请求记录进行更新;再根据网络请求记录确定网络服务器是否已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,当网络服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求时,控制爬虫对第一网页进行数据爬取。本发明通过对网络请求进行记录并根据网络请求响应对网络请求记录进行更新,然后根据网络请求记录确定是否已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,当网络服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求时,控制爬虫对第一网页进行数据爬取,确保可以爬取到第一设备加载第一网页时发送至网络服务器的网络请求对应的所有数据,进而实现对网站进行全面及准确的分析。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据爬取方法流程图;
图2示出了本发明实施例提供的另一种数据爬取方法流程图;
图3示出了本发明实施例提供的另一种数据爬取方法流程图;
图4示出了本发明实施例提供的另一种数据爬取方法流程图;
图5示出了本发明实施例提供的一种数据爬取装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图1,本实施例公开了一种数据爬取方法,具体包括以下步骤:
S101、对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录。
其中,图1所示方法可以应用于服务器中,也可以应用于分别与服务器、终端设备通信连接的中间设备中。
在图1所示方法应用于服务器中时,本发明可以通过网页服务器上的浏览器网络API接口预先建立网络监测器,然后使用网络监测器监测第一设备加载第一网页时发送至网页服务器的网络请求,并对网络请求进行记录,得的网络请求记录。
S102、根据网页服务器返回给第一设备的、对网络请求的响应对网络请求记录进行更新。
优选的,请参阅图2,根据网页服务器返回给第一设备的、对网络请求的响应对网络请求记录进行更新,具体执行过程包括如下步骤:
S201、判断网页服务器返回给第一设备的、对第一网络请求的响应是否为预设响应组中的响应,若是,则执行步骤S202;若否,则结束。
需要说明的是,预设响应组中的响应可以为均为代表网络请求已被处理完毕的响应,例如:网络服务器在对网络请求处理完毕后返回给第一设备的包含处理结果的响应,其中,该处理结果可以为处理成功或处理失败。
S202、将网络请求记录中的第一网络请求删除。
需要说明的是,当第一网络请求的响应为预设响应组中的响应时,例如,当网络请求返回的处理结果为处理完成或者处理失败时,则将网络请求记录中的第一网络请求删除。
S103、根据网络请求记录确定网页服务器是否已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,若是,则执行步骤S104,若否,则返回执行步骤S102根据服务器返回给第一设备的、对网络请求的响应对网络请求记录进行更新的步骤。
需要说明的是,当服务器未处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求时,则返回执行步骤S102根据服务器返回给第一设备的、对网络请求的响应对网络请求记录进行更新的步骤,对网络请求记录进行更新。
S104、控制爬虫对第一网页进行数据爬取。
需要说明的是,在确定网页服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网页请求后再控制爬虫对第一网页进行数据爬取,确保在执行爬虫程序之前,网页服务器的全部网页请求均已处理完毕,在执行爬虫程序时,可以爬取到第一设备加载第一网页时发送至网页服务器的全部网页请求对应的第一网页上的所有数据。
本实施例提供一种数据爬取方法,该方法通过对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,根据网页服务器返回给第一设备的、对网络请求的响应对网络请求记录进行更新;再根据网络请求记录确定网页服务器是否已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,当网页服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求时,控制爬虫对第一网页进行数据爬取。通过本实施例可以爬取到第一设备加载第一网页时发送至网页服务器的网络请求对应的所有数据,进而实现对网站进行全面及准确的分析。
请参阅图3,本实施例公开了另一种数据爬取方法,具体包括以下步骤:
S301、对第一设备加载第一网页时发送至网页服务器的网络请求中的网络地址信息进行记录,获得网络请求记录,其中,网络请求记录中包括:网络请求中的网络地址信息。
其中,图3所示方法可以应用于服务器中,也可以应用于分别与服务器、终端设备通信连接的中间设备中。
在图3所示方法应用于服务器中时,本发明可以通过网页服务器上的浏览器网络API接口预先建立网络监测器,然后使用网络监测器监测第一设备加载第一网页时发送至网页服务器的网络请求中的网络地址信息,并对网络地址信息进行记录,获得网络请求记录,该网络请求记录中包含网络请求中的网络地址信息。
需要说明的是,当网络请求发出时,需要对网络请求中的网络地址信息进行记录,获得网络请求记录,其中,网络请求记录中包括:网络请求中的网络地址信息,本领域技术人员可以具体的知道网络请求中的网络地址信息可以为统一资源定位符URL。
S302、判断网页服务器返回给第一设备的、对第一网络请求的响应是否为预设响应组中的响应,若是,则执行步骤S303;若否,则结束。
需要说明的是,预设响应组中的响应可以为均为代表网络请求已被处理完毕的响应,例如:网络服务器在对网络请求处理完毕后返回给第一设备的包含处理结果的响应,其中,该处理结果可以为处理成功或处理失败。。
S303、将网络请求记录中的第一网络请求所对应的网络地址信息删除。
需要说明的是,当第一网络请求的响应为预设响应组中的响应时,例如,当网络请求返回的处理结果为处理完成或者处理失败时,则将网络请求记录中的网络地址信息删除。
S304、确定网络请求记录是否存在至少一个网络请求,如果是,则返回步骤S302执行;如果否,则执行步骤S305。
S305、判断在距离第一时刻之后的预设时间内是否获得第一设备加载第一网页时发送至网页服务器的至少一个网络请求,如果是,则执行步骤S307;如果否,则执行步骤S308。
S306、确定网页服务器未处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,并返回步骤S302。
S307、确定网页服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求。
需要说明的是,第一时刻是确定网络请求记录不存在至少一个网络请求的时刻。
S308、控制爬虫对第一网页进行数据爬取。
需要说明的是,如果网络服务器已处理完毕第一设备加载第一网页时发送至网络服务器的全部网络请求,且在距离第一时刻之后的预设时间内未获得网络请求,则确定网页服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求。
本实施例中,当确定全部网络请求已处理完毕后,控制爬虫对第一网页进行数据爬取,更进一步的确保在执行爬虫程序之前,网页服务器的全部网络请求均已执行完毕。
本实施例提供一种数据爬取方法,该方法通过对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,根据网页服务器返回给第一设备的、对网络请求的响应对网络请求记录进行更新;再根据网络请求记录确定网络服务器是否已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,当网络服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求且在距离第一时刻之后的预设时间内未获得网络请求时,则确定网页服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,然后再控制爬虫对第一网页进行数据爬取。本实施例进一步确保可以爬取到第一设备加载第一网页时发送至网络服务器的网络请求对应的所有数据,进而实现对网站进行全面及准确的分析。
请参阅图4,本实施例公开了另一种数据爬取方法,具体包括以下步骤:
S401、监测第一设备加载第一网页时发送至网页服务器的网络请求对应的网络请求发出事件。
S402、当监测到网络请求发生事件时,记录网络请求中的网络地址信息,获得网络请求记录,其中,网络请求记录中包括:网络请求中的网络地址信息。
其中,图3所示方法可以应用于分别与服务器、终端设备通信连接的中间设备中,也可以应用于服务器中。
在图3所示方法应用于分别与服务器、终端设备通信连接的中间设备中时,本发明可以通过网页服务器上的浏览器网络API接口预先建立网络监测器,然后使用网络监测器监测第一设备加载第一网页时发送至网页服务器的网络请求中的网络地址信息,并对网络地址信息进行记录,获得网络请求记录,该网络请求记录中包含网络请求中的网络地址信息。
需要说明的是,当网络请求发出时,需要对网络请求中的网络地址信息进行记录,获得网络请求记录,其中,网络请求记录中包括:网络请求中的网络地址信息,本领域技术人员可以具体的知道网络请求中的网络地址信息可以为统一资源定位符URL。
S403、监测网页服务器返回给第一设备的、对网络请求发出事件的响应是否为预设响应组中的响应。
需要说明的是,预设响应组中的响应可以包括:网络完成事件和网络报错事件;
S404、当网页服务器返回给第一设备的、对网络请求发出事件的响应为预设响应组中的响应时,将网络请求记录中的网络地址信息删除。
S405、确定网络请求记录是否存在至少一个网络请求发出事件,如果是,则执行步骤S406;如果否,则执行步骤S407。
S406、确定网页服务器未处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求。
需要说明的是,如果服务器未处理完毕服务器接收的全部访问请求,则可以在等待第二时间段后再返回步骤S302执行确定服务器返回给终端设备的、对第一访问请求的响应是否为预设响应组中的响应。
S407、判断在距离第一时刻之后的预设时间内是否获得第一设备加载第一网页时发送至网页服务器的至少一个网络请求发出事件,如果是,则执行步骤S406;如果否,则执行步骤S408。
S408、确定网页服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求。
需要说明的是,第一时刻是确定网络请求记录不存在至少一个网络请求发出事件的时刻。
S409、控制爬虫对第一网页进行数据爬取。
需要说明的是,如果网络服务器已处理完毕第一设备加载第一网页时发送至网络服务器的全部网络请求,且在距离第一时刻之后的预设时间内未获得网络请求,则确定网页服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求。
本实施例中,当确定全部网络请求已处理完毕后,控制爬虫对第一网页进行数据爬取,更进一步的确保在执行爬虫程序之前,网页服务器的全部网络请求均已执行完毕。
本实施例提供一种数据爬取方法,该方法通过监测第一设备加载第一网页时发送至网页服务器的网络请求对应的网络请求发生事件,当监测到网络请求发生事件时,记录网络请求中的网络地址信息,获得网络请求记录,监测网页服务器返回给第一设备的、对网络请求发出事件的响应为预设响应组中的响应时,网络请求记录中的网络地址信息删除;再根据网络请求记录是否存在网络请求发出事件来确定网络服务器是否已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,当网络服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求且在距离第一时刻之后的预设时间内未获得网络请求时,则确定网页服务器已处理完毕第一设备加载第一网页时发送至网页服务器的全部网络请求,然后控制爬虫对第一网页进行数据爬取。本实施例进一步确保可以爬取到第一设备加载第一网页时发送至网络服务器的网络请求对应的所有数据,进而实现对网站进行全面及准确的分析。
请参阅图5,基于上述实施例公开的一种数据爬取方法,本实施例对应公开了一种数据爬取装置,该装置具体包括:获取单元501、更新单元502、确定单元503以及爬取单元504,其中:
获取单元501,用于对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录;
更新单元502,用于根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新;
确定单元503,用于根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
爬取单元504,当所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,用于控制爬虫对所述第一网页进行数据爬取。
所述数据爬取装置包括处理器和存储器,上述获取单元、更新单元、确定单元以及爬取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确保罗爬取到网页上所有数据,实现对网站进行全面及准确的分析。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述数据爬取方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据爬取方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新;
根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
当所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,控制爬虫对所述第一网页进行数据爬取。
优选的,所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新,包括:
判断所述网页服务器返回给第一设备的、对第一网络请求的响应是否为预设响应组中的响应;
当所述网页服务器返回给第一设备的、对第一网络请求的响应为预设响应组中的响应时,将所述网络请求记录中的所述第一网络请求删除。
优选的,所述根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求,包括:
确定所述网络请求记录是否存在至少一个网络请求;
如果是,则确定所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
如果否,则判断在距离第一时刻之后的预设时间内是否获得所述第一设备加载第一网页时发送至网页服务器的至少一个网络请求;
如果获得至少一个网络请求,则确定所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
如果未获得网络请求,则确定所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求,所述第一时刻是确定所述网络请求记录不存在至少一个网络请求的时刻。
优选的,所述方法还包括:
当所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,返回执行所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新的步骤。
优选的,所述对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,包括:
对第一设备加载第一网页时发送至网页服务器的网络请求中的网络地址信息进行记录,获得网络请求记录,其中,所述网络请求记录中包括:网络请求中的网络地址信息。
优选的,所述对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,包括:
监测所述第一设备加载所述第一网页时发送至网页服务器的网络请求对应的网络请求发出事件;
当监测到所述网络请求发生事件时,记录所述网络请求中的网络地址信息,获得网络请求记录,其中,所述网络请求记录中包括:网络请求中的网络地址信息。
优选的,所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新,包括:
监测所述网页服务器返回给第一设备的、对网络请求发出事件的响应是否为预设响应组中的响应,所述预设响应组中的响应包括:网络完成事件和网络报错事件;
当所述网页服务器返回给第一设备的、对网络请求发出事件的响应为预设响应组中的响应时,将所述网络请求记录中的所述网络地址信息删除。
本文中的设备可以是服务器和PC等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
一种数据爬取方法,包括:
对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新;
根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
当所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,控制爬虫对所述第一网页进行数据爬取。
优选的,所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新,包括:
判断所述网页服务器返回给第一设备的、对第一网络请求的响应是否为预设响应组中的响应;
当所述网页服务器返回给第一设备的、对第一网络请求的响应为预设响应组中的响应时,将所述网络请求记录中的所述第一网络请求删除。
优选的,所述根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求,包括:
确定所述网络请求记录是否存在至少一个网络请求;
如果是,则确定所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
如果否,则判断在距离第一时刻之后的预设时间内是否获得所述第一设备加载第一网页时发送至网页服务器的至少一个网络请求;
如果获得至少一个网络请求,则确定所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
如果未获得网络请求,则确定所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求,所述第一时刻是确定所述网络请求记录不存在至少一个网络请求的时刻。
优选的,所述方法还包括:
当所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,返回执行所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新的步骤。
优选的,所述对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,包括:
对第一设备加载第一网页时发送至网页服务器的网络请求中的网络地址信息进行记录,获得网络请求记录,其中,所述网络请求记录中包括:网络请求中的网络地址信息。
优选的,所述对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,包括:
监测所述第一设备加载所述第一网页时发送至网页服务器的网络请求对应的网络请求发出事件;
当监测到所述网络请求发生事件时,记录所述网络请求中的网络地址信息,获得网络请求记录,其中,所述网络请求记录中包括:网络请求中的网络地址信息。
优选的,所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新,包括:
监测所述网页服务器返回给第一设备的、对网络请求发出事件的响应是否为预设响应组中的响应,所述预设响应组中的响应包括:网络完成事件和网络报错事件;
当所述网页服务器返回给第一设备的、对网络请求发出事件的响应为预设响应组中的响应时,将所述网络请求记录中的所述网络地址信息删除。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据爬取方法,其特征在于,包括:
对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新;
根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
当所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,控制爬虫对所述第一网页进行数据爬取。
2.根据权利要求1所述的方法,其特征在于,所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新,包括:
判断所述网页服务器返回给第一设备的、对第一网络请求的响应是否为预设响应组中的响应;
当所述网页服务器返回给第一设备的、对第一网络请求的响应为预设响应组中的响应时,将所述网络请求记录中的所述第一网络请求删除。
3.根据权利要求2所述的方法,其特征在于,所述根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求,包括:
确定所述网络请求记录是否存在至少一个网络请求;
如果是,则确定所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
如果否,则判断在距离第一时刻之后的预设时间内是否获得所述第一设备加载第一网页时发送至网页服务器的至少一个网络请求;
如果获得至少一个网络请求,则确定所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
如果未获得网络请求,则确定所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求,所述第一时刻是确定所述网络请求记录不存在至少一个网络请求的时刻。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述网页服务器未处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,返回执行所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新的步骤。
5.根据权利要求1所述的方法,其特征在于,所述对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,包括:
对第一设备加载第一网页时发送至网页服务器的网络请求中的网络地址信息进行记录,获得网络请求记录,其中,所述网络请求记录中包括:网络请求中的网络地址信息。
6.根据权利要求1所述的方法,其特征在于,所述对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录,包括:
监测所述第一设备加载所述第一网页时发送至网页服务器的网络请求对应的网络请求发出事件;
当监测到所述网络请求发生事件时,记录所述网络请求中的网络地址信息,获得网络请求记录,其中,所述网络请求记录中包括:网络请求中的网络地址信息。
7.根据权利要求6所述的方法,其特征在于,所述根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新,包括:
监测所述网页服务器返回给第一设备的、对网络请求发出事件的响应是否为预设响应组中的响应,所述预设响应组中的响应包括:网络完成事件和网络报错事件;
当所述网页服务器返回给第一设备的、对网络请求发出事件的响应为预设响应组中的响应时,将所述网络请求记录中的所述网络地址信息删除。
8.一种数据爬取装置,其特征在于,包括:
获取单元,用于对第一设备加载第一网页时发送至网页服务器的网络请求进行记录,获得网络请求记录;
更新单元,用于根据所述网页服务器返回给所述第一设备的、对所述网络请求的响应对所述网络请求记录进行更新;
确定单元,用于根据所述网络请求记录确定所述网页服务器是否已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求;
爬取单元,当所述网页服务器已处理完毕所述第一设备加载所述第一网页时发送至所述网页服务器的全部网络请求时,用于控制爬虫对所述第一网页进行数据爬取。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,
其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1-7中任一项所述的数据爬取方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,
其中,所述程序运行时执行如权利要求1-7中任一项所述的数据爬取方法。
CN201710916799.2A 2017-09-30 2017-09-30 一种数据爬取方法、装置、存储介质及处理器 Pending CN110069684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710916799.2A CN110069684A (zh) 2017-09-30 2017-09-30 一种数据爬取方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710916799.2A CN110069684A (zh) 2017-09-30 2017-09-30 一种数据爬取方法、装置、存储介质及处理器

Publications (1)

Publication Number Publication Date
CN110069684A true CN110069684A (zh) 2019-07-30

Family

ID=67364414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710916799.2A Pending CN110069684A (zh) 2017-09-30 2017-09-30 一种数据爬取方法、装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN110069684A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504665A (zh) * 2009-03-18 2009-08-12 北京邮电大学 防假死爬虫系统的构建方法
CN102215146A (zh) * 2011-06-20 2011-10-12 Tcl集团股份有限公司 一种监测网页下载的方法及装置
CN103631806A (zh) * 2012-08-24 2014-03-12 华为技术有限公司 一种网络信息抓取方法和装置
CN104991904A (zh) * 2015-06-16 2015-10-21 浪潮软件集团有限公司 一种动态网页的页面数据采集方法
CN106066875A (zh) * 2016-05-30 2016-11-02 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统
CN106126747A (zh) * 2016-07-14 2016-11-16 北京邮电大学 基于爬虫的数据获取方法及装置
CN106844486A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 爬取动态网页的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504665A (zh) * 2009-03-18 2009-08-12 北京邮电大学 防假死爬虫系统的构建方法
CN102215146A (zh) * 2011-06-20 2011-10-12 Tcl集团股份有限公司 一种监测网页下载的方法及装置
CN103631806A (zh) * 2012-08-24 2014-03-12 华为技术有限公司 一种网络信息抓取方法和装置
CN104991904A (zh) * 2015-06-16 2015-10-21 浪潮软件集团有限公司 一种动态网页的页面数据采集方法
CN106066875A (zh) * 2016-05-30 2016-11-02 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统
CN106126747A (zh) * 2016-07-14 2016-11-16 北京邮电大学 基于爬虫的数据获取方法及装置
CN106844486A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 爬取动态网页的方法及装置

Similar Documents

Publication Publication Date Title
CN106294440B (zh) 数据实时迁移的方法和装置
CN109997126A (zh) 事件驱动提取、变换、加载(etl)处理
CN104731849B (zh) 应用开发阶段预测高速缓存对查询经过响应时间的影响的系统和方法
CN107463641A (zh) 用于改进对搜索结果的访问的系统和方法
US11082429B2 (en) Providing access to content within a computing environment
CN110020044A (zh) 一种爬虫的爬取方法及装置
CN104778123B (zh) 一种检测系统性能的方法及装置
CN106411639A (zh) 访问数据的监控方法及系统
CN108255628A (zh) 一种数据处理方法及装置
EP3309701A1 (en) Systems and methods for anonymous construction and indexing of visitor databases using first-party cookies
CN109600272A (zh) 爬虫检测的方法及装置
CN109101600A (zh) 一种网页中动态数据的爬取方法及装置
CN109614159A (zh) 计划任务分发、导入方法及装置
CN107391528A (zh) 前端组件依赖信息搜索方法及设备
CN107239689A (zh) 一种基于众包的验证信息的识别方法及系统
CN116842298A (zh) 数据读写管理方法、装置、存储介质以及电子设备
CN109558548A (zh) 一种消除css样式冗余的方法及相关产品
CN110069684A (zh) 一种数据爬取方法、装置、存储介质及处理器
CN112667934A (zh) 动态模拟图展示方法、装置、电子设备和计算机可读介质
CN106294700A (zh) 一种日志的存储与读取方法及装置
CN109597743A (zh) 页面圈选方法、点击量统计方法及相关设备
Malik et al. Performance evaluation of counter selection techniques to detect discontinuity in large-scale-systems
CN106407109A (zh) 一种实现推广信息控制的自动化测试方法及装置
CN107844484A (zh) 一种识别曝光代码的方法和装置
CN113641644B (zh) 数据推送系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730

RJ01 Rejection of invention patent application after publication