CN111597421A

CN111597421A - 一种实现网站图片爬虫的方法、装置、设备及存储介质

Info

Publication number: CN111597421A
Application number: CN202010362794.1A
Authority: CN
Inventors: 郭泽生
Original assignee: Wuhan Sipuling Technology Co Ltd
Current assignee: Wuhan Sipuling Technology Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-28
Anticipated expiration: 2040-04-30
Also published as: CN111597421B

Abstract

本发明公开了一种实现网站图片爬虫的方法、装置、设备及存储介质，所述方法包括：S1、访问图片服务器，并获取当前访问的图片服务器网站的当前页面的所有图片信息；S2、筛选出当前页面需要下载的图片，将需要下载的图片加入下载队列中，并将所述下载队列中的图片逐一下载；S3、当所述下载队列中的图片都下载完成后，对当前页面进行翻页下拉处理，并在下拉处理成功时，获取下拉后的页面的所有图片信息，并重复步骤S2；S4、当下拉处理不成功时，调用Autoit控件，以实现所有下载的图片的自动保存。本发明完全代替和模拟操作人员的动作，可以将网站上的所有图片都下载下来，并且不需要再担心网络爬虫带来的封禁风险。

Description

一种实现网站图片爬虫的方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种实现网站图片爬虫的方法、装置、设备及存储介质。

背景技术

python(一种跨平台的计算机程序设计语言)爬虫是一种按照一定规则，自动抓取网络数据的程序或脚本，但是现在很多互联网网站为了保护自己的服务器，都增加反爬虫策略，阻止python爬虫的继续采集，导致目前使用的python爬虫在互联网上进行数据抓取时，经常会遇见各种奇怪的封禁问题，使得爬虫功能失效，工作无法正常进行。

因而现有技术还有待改进和提高。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供一种实现网站图片爬虫的方法、装置、设备及存储介质，可通过代替和模拟操作人员的动作将网站上的图片下载，无法再担心网络爬虫带来的封禁风险。

为了达到上述目的，本发明采取了以下技术方案：

第一方面，本发明提供了一种实现网站图片爬虫的方法，包括如下步骤：

S1、根据用户输入的访问信息访问图片服务器，并获取当前访问的图片服务器网站的当前页面的所有图片信息；

S2、筛选出当前页面需要下载的图片，将需要下载的图片加入下载队列中，并将所述下载队列中的图片逐一下载；

S3、当所述下载队列中的图片都下载完成后，对当前页面进行翻页下拉处理，并在下拉处理成功时，获取下拉后的页面的所有图片信息，并重复步骤S2；

S4、当下拉处理不成功时，调用Autoit控件，以实现所有下载的图片的自动保存，其中，所述Autoit控件中设置有通过Autoit编写windows框架脚本，所述windows框架脚本用于将图片自动保存至预设目录下。

第二方面，本发明提供了一种实现网站图片爬虫的装置，包括：

图片信息获取模块，用于根据用户输入的访问信息访问图片服务器，并获取当前访问的图片服务器网站的当前页面的所有图片信息；

图片下载模块，用于筛选出当前页面需要下载的图片，将需要下载的图片加入下载队列中，并将所述下载队列中的图片逐一下载；

页面下拉模块，用于当所述下载队列中的图片都下载完成后，对当前页面进行翻页下拉处理，并在下拉处理成功时，获取下拉后的页面的所有图片信息，并下载下拉后的页面中的需要下载的图片；

图片保存模块，用于当下拉处理不成功时，调用Autoit控件，以实现所有下载的图片的自动保存，其中，所述Autoit控件中设置有通过Autoit编写windows框架脚本，所述windows框架脚本用于将图片自动保存至预设目录下。

第三方面，本发明提供了一种实现网站图片爬虫的设备，其特征在于，包括处理器和存储器；

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述处理器执行所述计算机可读程序时实现如上所述的实现网站图片爬虫的方法。

第四方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的实现网站图片爬虫的方法中的步骤。

相较于现有技术，本发明提供的实现网站图片爬虫的方法、装置、设备及存储介质，通过完全代替和模拟操作人员的动作，可以将网站上的所有图片都下载下来，并且不需要再担心网络爬虫带来的封禁风险，此外，还能够高效的完全数据的获取，减轻工作量，有效提高工作效率。

附图说明

图1为本发明提供的实现网站图片爬虫的方法的一较佳实施例的流程图；

图2为本发明提供的实现网站图片爬虫的方法中所述步骤S2的一较佳实施例的流程图；

图3为本发明提供的实现网站图片爬虫的方法中所述步骤S3的一较佳实施例的流程图；

图4为本发明提供的实现网站图片爬虫的装置的一较佳实施例的结构框图；

图5为本发明安装实现网站图片爬虫的程序的较佳实施例的运行环境示意图。

具体实施方式

本发明提供一种实现网站图片爬虫的方法、装置、设备及存储介质，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明实施例提供的实现网站图片爬虫的方法，包括如下步骤：

S1、根据用户输入的访问信息访问图片服务器，并获取当前访问的图片服务器网站的当前页面的所有图片信息。

本实施例中，通过指定为访问的图片服务器的网站路径，来获取访问的图片服务器网站的当前页面，并获取所有当前页面的所有图片信息，其中，所述图片信息至少包括图片在当前页面的位置，进而实现完全模拟人工访问图片服务器，方便后续进行图片的下载，具体的，在一个具体实施例中，可通过如下方式进行服务器网站访问和图片信息获取：

driver.get("https://www.xxx.com")#访问图片服务器网站

gimgs＝driver.find_elements_by_tag_name('img')#获取当前页面所有图片信息。

S2、筛选出当前页面需要下载的图片，将需要下载的图片加入下载队列中，并将所述下载队列中的图片逐一下载。

本实施例中，为了获取用户所需的图片，需要对当前页面所有的图片进行下载判断，然后将需要下载的图片加入下载队列中后进行逐一下载，完全模拟人工选择图片并下载的方法来进行图片爬虫，可以避免服务器网站识别此下载方法为机器爬虫，从而可以实现方便快捷的网站图片爬虫，不需要担心存在被封禁的问题。具体的，请参阅图2，所述步骤S2具体包括：

S21、逐一获取当前页面的各个图片信息，根据预设的下载规则判断各个图片是否需要下载；

S22、当当前所有的图片均判断完毕后，删除不需要下载的图片信息，并将需要下载的图片加入下载队列中；

S23、将所述下载队列中的图片逐一下载。

具体的，在进行筛选时，根据预设下载规则进行筛选，如果符合下载规则，则将图片加入下载队列中，如果不符合则删除，当所有的图片均判断完毕后，再逐一对图片进行下载，符合目前人工下载时选取图片，右键点击图片，然后下载的方式，实现了对人工动作的完全模拟，优选的，所述预设的下载规则具体为：将当前页面预设位置的图片下载。换而言之，本发明通过获取所有图片的位置，然后进行位置判断，例如下载规则为将当前页面的每一行第三列的图片下载，则在进行筛选时，所有不是第三列的图片均不下载，只下载当前页面的每一行第三列的图片，举例来说，可通过如下方式进行图片的筛选：

进一步来说，当筛选完毕后，即可开始逐一进行图片的下载，以实现对人工下载图片的模拟，举例来说，可通过如下的方式来实现图片的逐一下载：

S3、当所述下载队列中的图片都下载完成后，对当前页面进行翻页下拉处理，并在下拉处理成功时，获取下拉后的页面的所有图片信息，并重复步骤S2。

本实施例中，由于当前页面可能无法完整显示图片服务器的所有图片，所以为了将图片服务器网站中所有需要下载的图片均下载完毕，本发明还自动进行页面翻页下拉处理，如果下拉成功，则表示还有页面未进行图片下载判断，如果下拉不成功，则表示当前页面已经是最后一页，所有图片均已下载完成，以实现对人工下拉页面的模拟，以百度图片为例，进行页面下拉可通过如下方式实现：

具体的，请参阅图3，所述步骤S3具体包括：

S31、当所述下载队列中的图片都下载完成后，对当前页面进行翻页下拉处理；

S32、判断是否下拉出新的页面，如果是则判断当前页面下拉成功，否则判断当前页面下拉不成功；

S33、当当前页面下拉成功时，获取下拉后的页面的所有图片信息，并重复步骤S2，以实现下拉后的页面的图片下载。

具体来说，如果翻出新的页面，则表示页面下拉成功，此时需要重新计算下载图片的队列，并在计算完成后进行图片下载，如果翻不出新的页面，则表示当前页面为最后一页，此时可开始图片的保存。

本实施例中，当所有的页面的图片均下载完成后，调用Autoit控件来实现图片的保存动作，以模拟出人工保存图片的过程，具体的，所述windows框架脚本具体用于：

模拟人工右键点击下载的图片，然后模拟人工选择图片另存的目录，并模拟人工点击确定保存。

具体来说，人工在进行图片保存时，一般是右键图片->图片另存为->选择目录->确定保存这几步操作，本发明通过模拟出这几种操作，代替人工进行图片的保存，进而实现了图片爬虫，在一个实施例中，所述windows框架脚本如下所示：

本发明通过完全模拟人工进行图片访问下载保存的操作，实现了图片爬虫，将图片网站中所有图片爬到本地服务器中，由于爬虫脚本封禁一般原则为循环获取该网站的图片链接URL通过get方式进行下载，而本发明是通过模拟人工在浏览器中对图片进行逐一下载，所以可以跳过服务器的监测机制，从而可以避免被封禁，而且可以高效完成数据获取，减轻工作量。

基于上述实现网站图片爬虫的方法，本发明还相应的提供一种实现网站图片爬虫的装置，请参与图3，所述装置包括：

图片信息获取模块21，用于根据用户输入的访问信息访问图片服务器，并获取当前访问的图片服务器网站的当前页面的所有图片信息；

图片下载模块22，用于筛选出当前页面需要下载的图片，将需要下载的图片加入下载队列中，并将所述下载队列中的图片逐一下载；

页面下拉模块23，用于当所述下载队列中的图片都下载完成后，对当前页面进行翻页下拉处理，并在下拉处理成功时，获取下拉后的页面的所有图片信息，并下载下拉后的页面中的需要下载的图片；

图片保存模块24，用于当下拉处理不成功时，调用Autoit控件，以实现所有下载的图片的自动保存，其中，所述Autoit控件中设置有通过Autoit编写windows框架脚本，所述windows框架脚本用于将图片自动保存至预设目录下。

优选的实施例中，所述图片下载模块22具体包括：

下载判断单元，用于逐一获取当前页面的各个图片信息，根据预设的下载规则判断各个图片是否需要下载；

下载队列添加单元，用于当当前所有的图片均判断完毕后，删除不需要下载的图片信息，并将需要下载的图片加入下载队列中；

下载单元，用于将所述下载队列中的图片逐一下载。

其中，所述预设的下载规则具体为：将当前页面预设位置的图片下载。

优选的实施例中，所述页面下拉模块23具体包括：

翻页下拉单元，用于当所述下载队列中的图片都下载完成后，对当前页面进行翻页下拉处理；

下拉成功判断单元，用于判断是否下拉出新的页面，如果是则判断当前页面下拉成功，否则判断当前页面下拉不成功；

下拉页面图片下载单元，用于当当前页面下拉成功时，获取下拉后的页面的所有图片信息，并重复步骤S2，以实现下拉后的页面的图片下载。

优选的实施例中，所述图片保存模块24中，所述windows框架脚本具体用于：

由于上文已对实现网站图片爬虫的方法进行详细描述，在此不再对实现网站图片爬虫的装置赘述。

如图5所示，基于上述实现网站图片爬虫的方法，本发明还相应提供了一种实现网站图片爬虫的设备，所述实现网站图片爬虫的设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该实现网站图片爬虫的设备包括处理器10、存储器20及显示器30。图3仅示出了实现网站图片爬虫的设备的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述实现网站图片爬虫的设备的内部存储单元，例如实现网站图片爬虫的设备的硬盘或内存。所述存储器20在另一些实施例中也可以是所述实现网站图片爬虫的设备的外部存储设备，例如所述实现网站图片爬虫的设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括实现网站图片爬虫的设备的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述实现网站图片爬虫的设备的应用软件及各类数据，例如所述安装实现网站图片爬虫的设备的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有实现网站图片爬虫的程序40，该实现网站图片爬虫的程序40可被处理器10所执行，从而实现本申请各实施例的实现网站图片爬虫的方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述实现网站图片爬虫的方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述实现网站图片爬虫的设备的信息以及用于显示可视化的用户界面。所述实现网站图片爬虫的设备的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中实现网站图片爬虫的程序40时实现如上述实施例所述的实现网站图片爬虫的方法，由于上文已对实现网站图片爬虫的方法进行详细描述，在此不再赘述。

综上所述，本发明提供的实现网站图片爬虫的方法、装置、设备及存储介质，通过完全代替和模拟操作人员的动作，可以将网站上的所有图片都下载下来，并且不需要再担心网络爬虫带来的封禁风险，此外，还能够高效的完全数据的获取，减轻工作量，有效提高工作效率。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种实现网站图片爬虫的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的实现网站图片爬虫的方法，其特征在于，所述步骤S2具体包括：

S23、将所述下载队列中的图片逐一下载。

3.根据权利要求2所述的实现网站图片爬虫的方法，其特征在于，所述预设的下载规则具体为：将当前页面预设位置的图片下载。

4.根据权利要求1所述的实现网站图片爬虫的方法，其特征在于，所述步骤S3具体包括：

5.根据权利要求1所述的实现网站图片爬虫的方法，其特征在于，所述步骤S4中，所述windows框架脚本具体用于：

6.一种实现网站图片爬虫的装置，其特征在于，包括：

7.根据权利要求6所述的实现网站图片爬虫的装置，其特征在于，所述图片下载模块具体包括：

下载单元，用于将所述下载队列中的图片逐一下载。

8.根据权利要求6所述的实现网站图片爬虫的装置，其特征在于，所述图片保存模块中，所述windows框架脚本具体用于：

9.一种实现网站图片爬虫的设备，其特征在于，包括处理器和存储器；

所述处理器执行所述计算机可读程序时实现如权利要求1-5任意一项所述的实现网站图片爬虫的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-5任意一项所述的实现网站图片爬虫的方法中的步骤。