CN111597421A - 一种实现网站图片爬虫的方法、装置、设备及存储介质 - Google Patents

一种实现网站图片爬虫的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111597421A
CN111597421A CN202010362794.1A CN202010362794A CN111597421A CN 111597421 A CN111597421 A CN 111597421A CN 202010362794 A CN202010362794 A CN 202010362794A CN 111597421 A CN111597421 A CN 111597421A
Authority
CN
China
Prior art keywords
picture
pictures
downloading
downloaded
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010362794.1A
Other languages
English (en)
Other versions
CN111597421B (zh
Inventor
郭泽生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Sipuling Technology Co Ltd
Original Assignee
Wuhan Sipuling Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Sipuling Technology Co Ltd filed Critical Wuhan Sipuling Technology Co Ltd
Priority to CN202010362794.1A priority Critical patent/CN111597421B/zh
Publication of CN111597421A publication Critical patent/CN111597421A/zh
Application granted granted Critical
Publication of CN111597421B publication Critical patent/CN111597421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种实现网站图片爬虫的方法、装置、设备及存储介质,所述方法包括:S1、访问图片服务器,并获取当前访问的图片服务器网站的当前页面的所有图片信息;S2、筛选出当前页面需要下载的图片,将需要下载的图片加入下载队列中,并将所述下载队列中的图片逐一下载;S3、当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理,并在下拉处理成功时,获取下拉后的页面的所有图片信息,并重复步骤S2;S4、当下拉处理不成功时,调用Autoit控件,以实现所有下载的图片的自动保存。本发明完全代替和模拟操作人员的动作,可以将网站上的所有图片都下载下来,并且不需要再担心网络爬虫带来的封禁风险。

Description

一种实现网站图片爬虫的方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种实现网站图片爬虫的方法、装置、设备及存储介质。
背景技术
python(一种跨平台的计算机程序设计语言)爬虫是一种按照一定规则,自动抓取网络数据的程序或脚本,但是现在很多互联网网站为了保护自己的服务器,都增加反爬虫策略,阻止python爬虫的继续采集,导致目前使用的python爬虫在互联网上进行数据抓取时,经常会遇见各种奇怪的封禁问题,使得爬虫功能失效,工作无法正常进行。
因而现有技术还有待改进和提高。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种实现网站图片爬虫的方法、装置、设备及存储介质,可通过代替和模拟操作人员的动作将网站上的图片下载,无法再担心网络爬虫带来的封禁风险。
为了达到上述目的,本发明采取了以下技术方案:
第一方面,本发明提供了一种实现网站图片爬虫的方法,包括如下步骤:
S1、根据用户输入的访问信息访问图片服务器,并获取当前访问的图片服务器网站的当前页面的所有图片信息;
S2、筛选出当前页面需要下载的图片,将需要下载的图片加入下载队列中,并将所述下载队列中的图片逐一下载;
S3、当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理,并在下拉处理成功时,获取下拉后的页面的所有图片信息,并重复步骤S2;
S4、当下拉处理不成功时,调用Autoit控件,以实现所有下载的图片的自动保存,其中,所述Autoit控件中设置有通过Autoit编写windows框架脚本,所述windows框架脚本用于将图片自动保存至预设目录下。
第二方面,本发明提供了一种实现网站图片爬虫的装置,包括:
图片信息获取模块,用于根据用户输入的访问信息访问图片服务器,并获取当前访问的图片服务器网站的当前页面的所有图片信息;
图片下载模块,用于筛选出当前页面需要下载的图片,将需要下载的图片加入下载队列中,并将所述下载队列中的图片逐一下载;
页面下拉模块,用于当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理,并在下拉处理成功时,获取下拉后的页面的所有图片信息,并下载下拉后的页面中的需要下载的图片;
图片保存模块,用于当下拉处理不成功时,调用Autoit控件,以实现所有下载的图片的自动保存,其中,所述Autoit控件中设置有通过Autoit编写windows框架脚本,所述windows框架脚本用于将图片自动保存至预设目录下。
第三方面,本发明提供了一种实现网站图片爬虫的设备,其特征在于,包括处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述处理器执行所述计算机可读程序时实现如上所述的实现网站图片爬虫的方法。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的实现网站图片爬虫的方法中的步骤。
相较于现有技术,本发明提供的实现网站图片爬虫的方法、装置、设备及存储介质,通过完全代替和模拟操作人员的动作,可以将网站上的所有图片都下载下来,并且不需要再担心网络爬虫带来的封禁风险,此外,还能够高效的完全数据的获取,减轻工作量,有效提高工作效率。
附图说明
图1为本发明提供的实现网站图片爬虫的方法的一较佳实施例的流程图;
图2为本发明提供的实现网站图片爬虫的方法中所述步骤S2的一较佳实施例的流程图;
图3为本发明提供的实现网站图片爬虫的方法中所述步骤S3的一较佳实施例的流程图;
图4为本发明提供的实现网站图片爬虫的装置的一较佳实施例的结构框图;
图5为本发明安装实现网站图片爬虫的程序的较佳实施例的运行环境示意图。
具体实施方式
本发明提供一种实现网站图片爬虫的方法、装置、设备及存储介质,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明实施例提供的实现网站图片爬虫的方法,包括如下步骤:
S1、根据用户输入的访问信息访问图片服务器,并获取当前访问的图片服务器网站的当前页面的所有图片信息。
本实施例中,通过指定为访问的图片服务器的网站路径,来获取访问的图片服务器网站的当前页面,并获取所有当前页面的所有图片信息,其中,所述图片信息至少包括图片在当前页面的位置,进而实现完全模拟人工访问图片服务器,方便后续进行图片的下载,具体的,在一个具体实施例中,可通过如下方式进行服务器网站访问和图片信息获取:
driver.get("https://www.xxx.com")#访问图片服务器网站
gimgs=driver.find_elements_by_tag_name('img')#获取当前页面所有图片信息。
S2、筛选出当前页面需要下载的图片,将需要下载的图片加入下载队列中,并将所述下载队列中的图片逐一下载。
本实施例中,为了获取用户所需的图片,需要对当前页面所有的图片进行下载判断,然后将需要下载的图片加入下载队列中后进行逐一下载,完全模拟人工选择图片并下载的方法来进行图片爬虫,可以避免服务器网站识别此下载方法为机器爬虫,从而可以实现方便快捷的网站图片爬虫,不需要担心存在被封禁的问题。具体的,请参阅图2,所述步骤S2具体包括:
S21、逐一获取当前页面的各个图片信息,根据预设的下载规则判断各个图片是否需要下载;
S22、当当前所有的图片均判断完毕后,删除不需要下载的图片信息,并将需要下载的图片加入下载队列中;
S23、将所述下载队列中的图片逐一下载。
具体的,在进行筛选时,根据预设下载规则进行筛选,如果符合下载规则,则将图片加入下载队列中,如果不符合则删除,当所有的图片均判断完毕后,再逐一对图片进行下载,符合目前人工下载时选取图片,右键点击图片,然后下载的方式,实现了对人工动作的完全模拟,优选的,所述预设的下载规则具体为:将当前页面预设位置的图片下载。换而言之,本发明通过获取所有图片的位置,然后进行位置判断,例如下载规则为将当前页面的每一行第三列的图片下载,则在进行筛选时,所有不是第三列的图片均不下载,只下载当前页面的每一行第三列的图片,举例来说,可通过如下方式进行图片的筛选:
Figure BDA0002475675290000051
进一步来说,当筛选完毕后,即可开始逐一进行图片的下载,以实现对人工下载图片的模拟,举例来说,可通过如下的方式来实现图片的逐一下载:
Figure BDA0002475675290000052
S3、当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理,并在下拉处理成功时,获取下拉后的页面的所有图片信息,并重复步骤S2。
本实施例中,由于当前页面可能无法完整显示图片服务器的所有图片,所以为了将图片服务器网站中所有需要下载的图片均下载完毕,本发明还自动进行页面翻页下拉处理,如果下拉成功,则表示还有页面未进行图片下载判断,如果下拉不成功,则表示当前页面已经是最后一页,所有图片均已下载完成,以实现对人工下拉页面的模拟,以百度图片为例,进行页面下拉可通过如下方式实现:
Figure BDA0002475675290000061
具体的,请参阅图3,所述步骤S3具体包括:
S31、当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理;
S32、判断是否下拉出新的页面,如果是则判断当前页面下拉成功,否则判断当前页面下拉不成功;
S33、当当前页面下拉成功时,获取下拉后的页面的所有图片信息,并重复步骤S2,以实现下拉后的页面的图片下载。
具体来说,如果翻出新的页面,则表示页面下拉成功,此时需要重新计算下载图片的队列,并在计算完成后进行图片下载,如果翻不出新的页面,则表示当前页面为最后一页,此时可开始图片的保存。
S4、当下拉处理不成功时,调用Autoit控件,以实现所有下载的图片的自动保存,其中,所述Autoit控件中设置有通过Autoit编写windows框架脚本,所述windows框架脚本用于将图片自动保存至预设目录下。
本实施例中,当所有的页面的图片均下载完成后,调用Autoit控件来实现图片的保存动作,以模拟出人工保存图片的过程,具体的,所述windows框架脚本具体用于:
模拟人工右键点击下载的图片,然后模拟人工选择图片另存的目录,并模拟人工点击确定保存。
具体来说,人工在进行图片保存时,一般是右键图片->图片另存为->选择目录->确定保存这几步操作,本发明通过模拟出这几种操作,代替人工进行图片的保存,进而实现了图片爬虫,在一个实施例中,所述windows框架脚本如下所示:
Figure BDA0002475675290000071
本发明通过完全模拟人工进行图片访问下载保存的操作,实现了图片爬虫,将图片网站中所有图片爬到本地服务器中,由于爬虫脚本封禁一般原则为循环获取该网站的图片链接URL通过get方式进行下载,而本发明是通过模拟人工在浏览器中对图片进行逐一下载,所以可以跳过服务器的监测机制,从而可以避免被封禁,而且可以高效完成数据获取,减轻工作量。
基于上述实现网站图片爬虫的方法,本发明还相应的提供一种实现网站图片爬虫的装置,请参与图3,所述装置包括:
图片信息获取模块21,用于根据用户输入的访问信息访问图片服务器,并获取当前访问的图片服务器网站的当前页面的所有图片信息;
图片下载模块22,用于筛选出当前页面需要下载的图片,将需要下载的图片加入下载队列中,并将所述下载队列中的图片逐一下载;
页面下拉模块23,用于当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理,并在下拉处理成功时,获取下拉后的页面的所有图片信息,并下载下拉后的页面中的需要下载的图片;
图片保存模块24,用于当下拉处理不成功时,调用Autoit控件,以实现所有下载的图片的自动保存,其中,所述Autoit控件中设置有通过Autoit编写windows框架脚本,所述windows框架脚本用于将图片自动保存至预设目录下。
优选的实施例中,所述图片下载模块22具体包括:
下载判断单元,用于逐一获取当前页面的各个图片信息,根据预设的下载规则判断各个图片是否需要下载;
下载队列添加单元,用于当当前所有的图片均判断完毕后,删除不需要下载的图片信息,并将需要下载的图片加入下载队列中;
下载单元,用于将所述下载队列中的图片逐一下载。
其中,所述预设的下载规则具体为:将当前页面预设位置的图片下载。
优选的实施例中,所述页面下拉模块23具体包括:
翻页下拉单元,用于当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理;
下拉成功判断单元,用于判断是否下拉出新的页面,如果是则判断当前页面下拉成功,否则判断当前页面下拉不成功;
下拉页面图片下载单元,用于当当前页面下拉成功时,获取下拉后的页面的所有图片信息,并重复步骤S2,以实现下拉后的页面的图片下载。
优选的实施例中,所述图片保存模块24中,所述windows框架脚本具体用于:
模拟人工右键点击下载的图片,然后模拟人工选择图片另存的目录,并模拟人工点击确定保存。
由于上文已对实现网站图片爬虫的方法进行详细描述,在此不再对实现网站图片爬虫的装置赘述。
如图5所示,基于上述实现网站图片爬虫的方法,本发明还相应提供了一种实现网站图片爬虫的设备,所述实现网站图片爬虫的设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该实现网站图片爬虫的设备包括处理器10、存储器20及显示器30。图3仅示出了实现网站图片爬虫的设备的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述实现网站图片爬虫的设备的内部存储单元,例如实现网站图片爬虫的设备的硬盘或内存。所述存储器20在另一些实施例中也可以是所述实现网站图片爬虫的设备的外部存储设备,例如所述实现网站图片爬虫的设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括实现网站图片爬虫的设备的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述实现网站图片爬虫的设备的应用软件及各类数据,例如所述安装实现网站图片爬虫的设备的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有实现网站图片爬虫的程序40,该实现网站图片爬虫的程序40可被处理器10所执行,从而实现本申请各实施例的实现网站图片爬虫的方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述实现网站图片爬虫的方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述实现网站图片爬虫的设备的信息以及用于显示可视化的用户界面。所述实现网站图片爬虫的设备的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中实现网站图片爬虫的程序40时实现如上述实施例所述的实现网站图片爬虫的方法,由于上文已对实现网站图片爬虫的方法进行详细描述,在此不再赘述。
综上所述,本发明提供的实现网站图片爬虫的方法、装置、设备及存储介质,通过完全代替和模拟操作人员的动作,可以将网站上的所有图片都下载下来,并且不需要再担心网络爬虫带来的封禁风险,此外,还能够高效的完全数据的获取,减轻工作量,有效提高工作效率。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种实现网站图片爬虫的方法,其特征在于,包括如下步骤:
S1、根据用户输入的访问信息访问图片服务器,并获取当前访问的图片服务器网站的当前页面的所有图片信息;
S2、筛选出当前页面需要下载的图片,将需要下载的图片加入下载队列中,并将所述下载队列中的图片逐一下载;
S3、当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理,并在下拉处理成功时,获取下拉后的页面的所有图片信息,并重复步骤S2;
S4、当下拉处理不成功时,调用Autoit控件,以实现所有下载的图片的自动保存,其中,所述Autoit控件中设置有通过Autoit编写windows框架脚本,所述windows框架脚本用于将图片自动保存至预设目录下。
2.根据权利要求1所述的实现网站图片爬虫的方法,其特征在于,所述步骤S2具体包括:
S21、逐一获取当前页面的各个图片信息,根据预设的下载规则判断各个图片是否需要下载;
S22、当当前所有的图片均判断完毕后,删除不需要下载的图片信息,并将需要下载的图片加入下载队列中;
S23、将所述下载队列中的图片逐一下载。
3.根据权利要求2所述的实现网站图片爬虫的方法,其特征在于,所述预设的下载规则具体为:将当前页面预设位置的图片下载。
4.根据权利要求1所述的实现网站图片爬虫的方法,其特征在于,所述步骤S3具体包括:
S31、当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理;
S32、判断是否下拉出新的页面,如果是则判断当前页面下拉成功,否则判断当前页面下拉不成功;
S33、当当前页面下拉成功时,获取下拉后的页面的所有图片信息,并重复步骤S2,以实现下拉后的页面的图片下载。
5.根据权利要求1所述的实现网站图片爬虫的方法,其特征在于,所述步骤S4中,所述windows框架脚本具体用于:
模拟人工右键点击下载的图片,然后模拟人工选择图片另存的目录,并模拟人工点击确定保存。
6.一种实现网站图片爬虫的装置,其特征在于,包括:
图片信息获取模块,用于根据用户输入的访问信息访问图片服务器,并获取当前访问的图片服务器网站的当前页面的所有图片信息;
图片下载模块,用于筛选出当前页面需要下载的图片,将需要下载的图片加入下载队列中,并将所述下载队列中的图片逐一下载;
页面下拉模块,用于当所述下载队列中的图片都下载完成后,对当前页面进行翻页下拉处理,并在下拉处理成功时,获取下拉后的页面的所有图片信息,并下载下拉后的页面中的需要下载的图片;
图片保存模块,用于当下拉处理不成功时,调用Autoit控件,以实现所有下载的图片的自动保存,其中,所述Autoit控件中设置有通过Autoit编写windows框架脚本,所述windows框架脚本用于将图片自动保存至预设目录下。
7.根据权利要求6所述的实现网站图片爬虫的装置,其特征在于,所述图片下载模块具体包括:
下载判断单元,用于逐一获取当前页面的各个图片信息,根据预设的下载规则判断各个图片是否需要下载;
下载队列添加单元,用于当当前所有的图片均判断完毕后,删除不需要下载的图片信息,并将需要下载的图片加入下载队列中;
下载单元,用于将所述下载队列中的图片逐一下载。
8.根据权利要求6所述的实现网站图片爬虫的装置,其特征在于,所述图片保存模块中,所述windows框架脚本具体用于:
模拟人工右键点击下载的图片,然后模拟人工选择图片另存的目录,并模拟人工点击确定保存。
9.一种实现网站图片爬虫的设备,其特征在于,包括处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述处理器执行所述计算机可读程序时实现如权利要求1-5任意一项所述的实现网站图片爬虫的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-5任意一项所述的实现网站图片爬虫的方法中的步骤。
CN202010362794.1A 2020-04-30 2020-04-30 一种实现网站图片爬虫的方法、装置、设备及存储介质 Active CN111597421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010362794.1A CN111597421B (zh) 2020-04-30 2020-04-30 一种实现网站图片爬虫的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010362794.1A CN111597421B (zh) 2020-04-30 2020-04-30 一种实现网站图片爬虫的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111597421A true CN111597421A (zh) 2020-08-28
CN111597421B CN111597421B (zh) 2022-08-30

Family

ID=72185577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010362794.1A Active CN111597421B (zh) 2020-04-30 2020-04-30 一种实现网站图片爬虫的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111597421B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609412A (zh) * 2011-01-07 2012-07-25 华东师范大学 基于rss的多线程图文信息同步爬取的控制方法及系统
US20130024441A1 (en) * 2011-07-22 2013-01-24 Alibaba Group Holding Limited Configuring web crawler to extract web page information
CN106126747A (zh) * 2016-07-14 2016-11-16 北京邮电大学 基于爬虫的数据获取方法及装置
US20170193569A1 (en) * 2015-12-07 2017-07-06 Brandon Nedelman Three dimensional web crawler
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN108153880A (zh) * 2017-12-26 2018-06-12 北京非斗数据科技发展有限公司 一种关于网络图片的多策略自适应爬取技术
CN110209909A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 数据爬取方法、装置、计算机设备和存储介质
CN110365776A (zh) * 2019-07-17 2019-10-22 京东方科技集团股份有限公司 图片批量下载方法、装置、电子设备及存储介质
CN110413859A (zh) * 2019-06-27 2019-11-05 平安科技(深圳)有限公司 网页信息搜索方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609412A (zh) * 2011-01-07 2012-07-25 华东师范大学 基于rss的多线程图文信息同步爬取的控制方法及系统
US20130024441A1 (en) * 2011-07-22 2013-01-24 Alibaba Group Holding Limited Configuring web crawler to extract web page information
US20170193569A1 (en) * 2015-12-07 2017-07-06 Brandon Nedelman Three dimensional web crawler
CN106126747A (zh) * 2016-07-14 2016-11-16 北京邮电大学 基于爬虫的数据获取方法及装置
CN107895009A (zh) * 2017-11-10 2018-04-10 北京国信宏数科技有限责任公司 一种基于分布式的互联网数据采集方法及系统
CN108153880A (zh) * 2017-12-26 2018-06-12 北京非斗数据科技发展有限公司 一种关于网络图片的多策略自适应爬取技术
CN110209909A (zh) * 2019-04-19 2019-09-06 平安科技(深圳)有限公司 数据爬取方法、装置、计算机设备和存储介质
CN110413859A (zh) * 2019-06-27 2019-11-05 平安科技(深圳)有限公司 网页信息搜索方法、装置、计算机设备及存储介质
CN110365776A (zh) * 2019-07-17 2019-10-22 京东方科技集团股份有限公司 图片批量下载方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111597421B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN108228119B (zh) 基于hxml的打印方法、终端设备及存储介质
CN107943997B (zh) 一种基于谷歌浏览器的远程网站取证方法、终端设备及存储介质
CN109325195A (zh) 浏览器的渲染方法和系统、计算机设备、计算机存储介质
US9325717B1 (en) Web-store restriction of external libraries
US20140222947A1 (en) Method and apparatus for browsings webpages, and storage medium
CN110032314B (zh) 一种长截屏方法、装置、存储介质和终端设备
CN107656729B (zh) 列表视图的更新装置、方法及计算机可读存储介质
CN109189686A (zh) 自动化回归测试方法、装置、存储介质和计算机设备
CN108197024B (zh) 嵌入式浏览器调试方法、调试终端及计算机可读存储介质
WO2013130328A1 (en) Persistent storage of profile data for script compilation
CN112685671A (zh) 页面显示方法、装置、设备及存储介质
US10594764B2 (en) Request cache to improve web applications performance
CN112579187A (zh) 一种应用程序冷启动的优化方法及装置
CN111581553B (zh) 网络图像的展示方法、系统、电子设备和存储介质
CN110750664A (zh) 图片的显示方法及装置
CN108762809A (zh) 软件功能扩展方法、装置、计算机设备及存储介质
CN111597421B (zh) 一种实现网站图片爬虫的方法、装置、设备及存储介质
CN107608733B (zh) 图片显示方法、装置和终端设备
CN103488508A (zh) 一种浏览器的工作方法、浏览器及终端设备
CN117390326A (zh) 页面管理方法、装置、设备以及存储介质
CN114116443A (zh) 一种页面数据传递方法、装置、系统及介质
CN113760896A (zh) 搜索表格的构建方法、装置、电子设备以及储存介质
CN105045893A (zh) 一种网页中的图片的适配方法和装置
CN112100553B (zh) 一种网页页面配置方法、装置、电子设备及存储介质
CN113591003A (zh) 网页页面的处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant