CN110532455A

CN110532455A - 一种基于Chrome浏览器的网页图片获取方法和系统

Info

Publication number: CN110532455A
Application number: CN201910839690.2A
Authority: CN
Inventors: 白冰; 李国华; 郭忠武; 纪军; 王荣芳
Original assignee: Bo Hui Science And Technology Co Ltd Of Beijing
Current assignee: Bo Hui Science And Technology Co Ltd Of Beijing
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2019-12-03

Abstract

本发明提供了一种基于Chrome浏览器的网页图片获取方法和系统，包括：获取待下载图片所在的网页的统一资源定位符；向Chrome浏览器发送访问统一资源定位符访问的指令，以使Chrome浏览器通过访问统一资源定位符加载网页；通过Chrome浏览器获取网页的缓存数据的资源列表；基于资源列表中的资源类型确定待下载图片的缓存地址；基于缓存地址获取待下载图片。本发明缓解了现有技术中存在的网页图片下载效率低和可靠性差的技术问题。

Description

一种基于Chrome浏览器的网页图片获取方法和系统

技术领域

本发明涉及互联网内容监测技术领域，尤其是涉及一种基于Chrome浏览器的网页图片获取方法和系统。

背景技术

现有网络爬虫技术风行的情况下，反爬技术随之日渐强大。JavaScript渲染已经成为一种通用的反爬手段。浏览器渲染已成为互联网数据获取的必备手段。通过反复的浏览器渲染，解析所需资源的信息，再访问，获得所需数据。现有技术中，网页图片的下载流程包括：抽出种子的统一资源定位符(Uniform Resource Locator，简称URL)，向种子URL发出请求，解析服务器返回响应，抽出图像资源URL地址，向URL地址发出请求，最后保存返回的数据。可见，现有技术对于网页图片的下载过程存在着，因需要多次访问资源URL地址而导致的下载效率低和可靠性差的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于Chrome浏览器的网页图片获取方法和系统，以缓解了现有技术中存在的网页图片下载效率低和可靠性差的技术问题。

第一方面，本发明实施例提供了一种基于Chrome浏览器的网页图片获取方法，应用于网络数据采集系统，包括：获取待下载图片所在的网页的统一资源定位符；向Chrome浏览器发送访问所述统一资源定位符访问的指令，以使所述Chrome浏览器通过访问所述统一资源定位符加载所述网页；通过Chrome浏览器获取所述网页的缓存数据的资源列表；基于所述资源列表中的资源类型确定所述待下载图片的缓存地址；基于所述缓存地址获取所述待下载图片。

进一步地，向Chrome浏览器发送访问所述统一资源定位符的指令，包括：通过devtools协议API向Chrome浏览器发送访问所述统一资源定位符的指令。

进一步地，通过Chrome浏览器获取所述网页的缓存数据的资源列表，包括：通过devtools协议API向所述Chrome浏览器发送获取所述网页的缓存数据的资源列表的获取指令，以使所述Chrome浏览器基于所述获取指令向所述devtools协议API返回所述缓存数据的资源列表。

进一步地，基于所述资源列表中的资源类型确定所述待下载图片的缓存地址，包括：获取所述资源列表中的目标缓存数据的缓存地址；其中，所述目标缓存数据的资源类型为图片类型；将所述目标缓存数据的缓存地址确定为所述待下载图片的缓存地址。

第二方面，本发明实施例还提供了一种基于Chrome浏览器的网页图片获取系统，包括：第一获取模块，访问模块，第二获取模块，确定模块和下载模块，其中，所述第一获取模块，用于获取待下载图片所在的网页的统一资源定位符；所述访问模块，用于向Chrome浏览器发送访问所述统一资源定位符访问的指令，以使所述Chrome浏览器通过访问所述统一资源定位符加载所述网页；所述第二获取模块，用于通过Chrome浏览器获取所述网页的缓存数据的资源列表；所述确定模块，用于基于所述资源列表中的资源类型确定所述待下载图片的缓存地址；所述下载模块，用于基于所述缓存地址获取所述待下载图片。

进一步地，所述访问模块，还用于：通过devtools协议API向Chrome浏览器发送访问所述统一资源定位符的指令。

进一步地，所述第二获取模块，还用于：通过devtools协议API向所述Chrome浏览器发送获取所述网页的缓存数据的资源列表的获取指令，以使所述Chrome浏览器基于所述获取指令向所述devtools协议API返回所述缓存数据的资源列表。

进一步地，所述确定模块，还用于：获取所述资源列表中的目标缓存数据的缓存地址；其中，所述目标缓存数据的资源类型为图片类型；将所述目标缓存数据的缓存地址确定为所述待下载图片的缓存地址。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行第一方面所述方法。

本发明实施例提供了一种基于Chrome浏览器的网页图片获取方法，首先获取待下载图片所在的网页的统一资源定位符，然后向Chrome浏览器发送访问统一资源定位符访问的指令，以使Chrome浏览器通过访问统一资源定位符加载网页，通过Chrome浏览器获取网页的缓存数据的资源列表，基于资源列表中的资源类型确定待下载图片的缓存地址，最后基于缓存地址获取待下载图片。本发明实施例提供的网页图片获取方法，可以只对网页的统一资源定位符进行一次访问即可获取到待下载图片，缓解了现有技术对于网页图片的下载过程存在的，因需要多次访问资源URL地址而导致的下载效率低和可靠性差的技术问题，本发明保证了网页图片获取的可靠行以及提高了网页图片的下载效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于Chrome浏览器的网页图片获取方法的流程图；

图2为本发明实施例提供的另一种基于Chrome浏览器的网页图片获取方法的流程图；

图3为本发明实施例提供的一种基于Chrome浏览器的网页图片获取系统的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

图1是根据本发明实施例提供的一种基于Chrome浏览器的网页图片获取方法的流程图，应用于网络数据采集系统。如图1所示，该方法具体包括如下步骤：

步骤S102，获取待下载图片所在的网页的统一资源定位符。

步骤S104，向Chrome浏览器发送访问统一资源定位符访问的指令，以使Chrome浏览器通过访问统一资源定位符加载网页。

具体地，在本发明实施例中，通过devtools协议API(应用程序接口，ApplicationProgramming Interface，简称API)向Chrome浏览器发送访问统一资源定位符的指令，同时指定页面加载中止条件。其中，页面加载中止条件包括以下至少之一：页面加载时间，单位时间内的请求次数。

步骤S106，通过Chrome浏览器获取网页的缓存数据的资源列表。

具体地，在本发明实施例中，通过devtools协议API向Chrome浏览器发送获取网页的缓存数据的资源列表的获取指令，以使Chrome浏览器基于获取指令向devtools协议API返回缓存数据的资源列表。

步骤S108，基于资源列表中的资源类型确定待下载图片的缓存地址。

具体地，在本发明实施例中，首先获取资源列表中的目标缓存数据的缓存地址；其中，目标缓存数据的资源类型为图片类型；然后将目标缓存数据的缓存地址确定为待下载图片的缓存地址。

即，对于Chrome浏览器返回的缓存数据的资源列表，根据资源类型，筛选出图片类型的数据的缓存地址，将得到的缓存地址作为待下载图片的缓存地址。

在本发明实施例中，待下载图片为通过Chrome浏览器加载的URL网页页面下的所有图片。

步骤S110，基于缓存地址获取待下载图片。

具体地，通过devtools协议API向缓存地址发送待下载图片的获取请求，然后根据获取请求获取待下载图片。

本发明实施例提供了一种基于Chrome浏览器的网页图片获取方法，应用于网络数据采集系统，首先获取待下载图片所在的网页的统一资源定位符，然后向Chrome浏览器发送访问统一资源定位符访问的指令，以使Chrome浏览器通过访问统一资源定位符加载网页，通过Chrome浏览器获取网页的缓存数据的资源列表，基于资源列表中的资源类型确定待下载图片的缓存地址，最后基于缓存地址获取待下载图片。本发明实施例提供的网页图片获取方法，可以只对网页的统一资源定位符进行一次访问即可获取到待下载图片，缓解了现有技术对于网页图片的下载过程存在的，因需要多次访问资源URL地址而导致的下载效率低和可靠性差的技术问题，本发明保证了网页图片获取的可靠行以及提高了网页图片的下载效率。

实施例二：

图2是根据本发明实施例提供的另一种基于Chrome浏览器的网页图片获取方法的流程图。

需要说明的是，本发明基于一个高级API来控制DevTools协议上的Chrome浏览器或Chromium浏览器来进行网页的访问及相关图片的下载。其中，chrome devtools协议允许工具检测、检查、调试和配置chrome、chrome和其他基于blink的浏览器。许多现有项目目前都使用该协议。chrome devtools使用这个协议，由Google团队负责维护它的API。DevTools协议API检测分为多个域(DOM、调试器、网络等)。每个域定义了它支持的许多命令和它生成的事件。命令和事件都是固定结构的序列化JSON对象。

具体地，如图2所示，该方法具体包括如下步骤：

步骤S21，使用devtools协议API向Chrome浏览器发送打开种子URL的指令，并指定页面加载终止条件(包括时间，或单位时间内请求次数)。其中，种子URL为待下载图片所在网页的URL。

步骤S22，页面加载终止后，通过devtools协议API向Chrome浏览器发出指令，要求获得Chrome浏览器加载的资源列表。

例如，在JavaScript语言下，实现上述步骤S21和步骤S22的返回示例如下：

步骤S23，Chrome浏览器返回的资源列表中，根据资源类型(mimeType)，筛选出图片类型的缓存数据所在的本地地址。

步骤S24，向本地缓存地址发送数据获取请求。

例如，在JavaScript语言下，可以通过page._client.send()发送对应的资源信息。以及可以通过以下示例实现上述步骤S23和步骤S24：

步骤S25，将返回的缓存数据以文件形式保存在磁盘上。其中，返回的缓存数据即为待下载图片。

通过以上描述可知，本发明主要用于更快速的进行网页图片的下载，通过访问浏览器缓存，避免在HTML中解析图片资源以及可以减少请求次数，达到提高网页图片下载的效率及提高下载的稳定性的技术效果。

本发明实施例提供的方法与现有技术相比，具有以下优点：

(1)在图片资源的解析方式上，本发明实施例利用devtools协议API从Chrome浏览器端获取加载的信息资源列表，不用为各种不同的图片写解析程序，从而使图片资源的解析更准确，可靠性更高。

(2)在对图片的网络加载放上，本发明实施例利用Chrome浏览器原生加载，与人工操作无差别。不会因为单独的请求造成服务器拒绝连接，保证了图片资源获取的可靠性。

(3)在对图片的获取来源上，本发明实施例通过Chrome浏览器缓存获取数据。保证通信次数最少，从而提供了对网页图片的获取效率，最高可提高50％的效能。

实施例三：

本发明实施例还提供了一种基于Chrome浏览器的网页图片获取系统，如图3所示，该系统包括：第一获取模块10，访问模块20，第二获取模块30，确定模块40和下载模块50。

具体地，第一获取模块10，用于获取待下载图片所在的网页的统一资源定位符。

访问模块20，用于向Chrome浏览器发送访问统一资源定位符访问的指令，以使Chrome浏览器通过访问统一资源定位符加载网页。

具体地，访问模块20通过devtools协议API向Chrome浏览器发送访问统一资源定位符的指令。同时通过devtools协议API指定页面加载中止条件。其中页面加载中止条件包括以下至少之一：页面加载时间，单位时间内的请求次数。

第二获取模块30，用于通过Chrome浏览器获取网页的缓存数据的资源列表。

具体地，第二获取模块30通过devtools协议API向Chrome浏览器发送获取网页的缓存数据的资源列表的获取指令，以使Chrome浏览器基于获取指令向devtools协议API返回缓存数据的资源列表。

确定模块40，用于基于资源列表中的资源类型确定待下载图片的缓存地址。

具体地，确定模块40还用于：

获取资源列表中的目标缓存数据的缓存地址；其中，目标缓存数据的资源类型为图片类型；将目标缓存数据的缓存地址确定为待下载图片的缓存地址。

下载模块50，用于基于缓存地址获取待下载图片。

通过以上描述可知，本发明实施例提供的一种基于Chrome浏览器的网页图片获取系统，首先通过第一获取模块10获取待下载图片所在的网页的统一资源定位符，然后通过访问模块20向Chrome浏览器发送访问统一资源定位符访问的指令，以使Chrome浏览器通过访问统一资源定位符加载网页，利用第二获取模块30通过Chrome浏览器获取网页的缓存数据的资源列表，通过确定模块40基于资源列表中的资源类型确定待下载图片的缓存地址，最后利用下载模块50基于缓存地址获取待下载图片。本发明实施例提供的网页图片获取系统，可以只对网页的统一资源定位符进行一次访问即可获取到待下载图片，缓解了现有技术对于网页图片的下载过程存在的，因需要多次访问资源URL地址而导致的下载效率低和可靠性差的技术问题，本发明保证了网页图片获取的可靠行以及提高了网页图片的下载效率。

本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述实施例一或实施例二中的方法的步骤。

本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，其中，程序代码使处理器执行上述实施例一或实施例二中提供的任一方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于Chrome浏览器的网页图片获取方法，应用于网络数据采集系统，其特征在于，包括：

获取待下载图片所在的网页的统一资源定位符；

向Chrome浏览器发送访问所述统一资源定位符访问的指令，以使所述Chrome浏览器通过访问所述统一资源定位符加载所述网页；

通过Chrome浏览器获取所述网页的缓存数据的资源列表；

基于所述资源列表中的资源类型确定所述待下载图片的缓存地址；

基于所述缓存地址获取所述待下载图片。

2.根据权利要求1所述的方法，其特征在于，向Chrome浏览器发送访问所述统一资源定位符的指令，包括：

通过devtools协议API向Chrome浏览器发送访问所述统一资源定位符的指令。

3.根据权利要求1所述的方法，其特征在于，通过Chrome浏览器获取所述网页的缓存数据的资源列表，包括：

通过devtools协议API向所述Chrome浏览器发送获取所述网页的缓存数据的资源列表的获取指令，以使所述Chrome浏览器基于所述获取指令向所述devtools协议API返回所述缓存数据的资源列表。

4.根据权利要求1所述的方法，其特征在于，基于所述资源列表中的资源类型确定所述待下载图片的缓存地址，包括：

获取所述资源列表中的目标缓存数据的缓存地址；其中，所述目标缓存数据的资源类型为图片类型；

将所述目标缓存数据的缓存地址确定为所述待下载图片的缓存地址。

5.一种基于Chrome浏览器的网页图片获取系统，其特征在于，包括：第一获取模块，访问模块，第二获取模块，确定模块和下载模块，其中，

所述第一获取模块，用于获取待下载图片所在的网页的统一资源定位符；

所述访问模块，用于向Chrome浏览器发送访问所述统一资源定位符访问的指令，以使所述Chrome浏览器通过访问所述统一资源定位符加载所述网页；

所述第二获取模块，用于通过Chrome浏览器获取所述网页的缓存数据的资源列表；

所述确定模块，用于基于所述资源列表中的资源类型确定所述待下载图片的缓存地址；

所述下载模块，用于基于所述缓存地址获取所述待下载图片。

6.根据权利要求5所述的系统，其特征在于，所述访问模块，还用于：

7.根据权利要求5所述的系统，其特征在于，所述第二获取模块，还用于：

8.根据权利要求5所述的系统，其特征在于，所述确定模块，还用于：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至4任一项所述的方法的步骤。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1-4任一所述方法。