CN109947959A - 图片采集方法、装置及计算机可读存储介质 - Google Patents

图片采集方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109947959A
CN109947959A CN201910109890.2A CN201910109890A CN109947959A CN 109947959 A CN109947959 A CN 109947959A CN 201910109890 A CN201910109890 A CN 201910109890A CN 109947959 A CN109947959 A CN 109947959A
Authority
CN
China
Prior art keywords
network address
picture
file
read
page data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910109890.2A
Other languages
English (en)
Inventor
宋杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910109890.2A priority Critical patent/CN109947959A/zh
Publication of CN109947959A publication Critical patent/CN109947959A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种人工智能技术,揭露了一种图片采集方法,包括:从网络中收集网址,并将所述网址放入第一文件夹中;依次读取所述第一文件夹中的网址,并将所读取的网址进行加密处理后,放入历史队列中;解析所读取的网址所对应的页面数据,下载所述页面数据中的图片,将所述下载的图片放入第二文件夹中;重复执行上述的步骤,直到所述第一文件夹中的网址全部读取完毕。本发明还提出一种图片采集装置以及一种计算机可读存储介质。本发明实现了高效快速的执行图片采集。

Description

图片采集方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于高效可恢复的图片采 集的图片采集方法、装置及计算机可读存储介质。
背景技术
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出 一种新的能以人类智能相似的方式做出反应的智能机器。但是创造这类智能 机器首先就需要万级的数据样本做训练分析。对于刚起步的人工智能来说, 数据样本主要以图片为主。而现今的图片训练集主要可以通过以下几个途径 获得:人工利用相机摄影机等,制造万级的图片样本、购买别人已经整理好 的图片样本、根据图片类型,到相关网站下载。
由以上的途径可以看出,人为制造样本费时费力,耽误项目进程;购买 样本虽然方便,但是人工智能的图片集价格昂贵,动辄十多万,项目开销大。 所以从相关网站下载图片集的方法最切实可行。但是从网站下载的图片样本 虽然比人工制造速度更快,但由于数量巨大,同样会花费很多时间,不仅如 此,由于数量多、操作繁琐,很容易下重图片。针对以上问题,本案提出了 一种高效可恢复的图片采集方法和装置。
发明内容
本发明提供一种图片采集方法、装置及计算机可读存储介质,其主要目 的在于当用户需要采集图片时,给用户呈现出快速自动的图片下载效果。
为实现上述目的,本发明还提供的图片采集方法包括:
网址收集步骤:从网络中收集网址,并将所述网址放入第一文件夹中;
网址读取步骤:依次读取所述第一文件夹中的网址,并将所读取的网址 进行加密处理后,放入历史队列中;
网址解析步骤:解析所读取的网址所对应的页面数据,下载所述页面数 据中的图片,将所述下载的图片放入第二文件夹中;
网址扩充步骤:获取所读取的网址所对应的页面数据,当所述页面数据 中包括有其他网址时,对所述其他网址进行加密处理后与所述历史队列中的 网址进行比较,若所述其他网址在所述历史队列时,则将所述其他网址丢弃, 以及若所述其他网址不在所述历史队列时,将所述网址链接加载到所述第一 文件夹中;
重复执行上述的网址读取步骤、网址解析步骤以及网址扩充步骤,直到 所述第一文件夹中的网址全部读取完毕。
可选地,在所述网址收集步骤中,将从网络中收集到的网址,按照一行 一个网址的规则,输入到所述第一文件夹中。
可选地,所述网址读取步骤包括:
读取所述第一文件夹中的一个或者多个网址,并将所述网址加载到一个 初始队列中;
按照网址的读取顺序,依次从所述初始队列中采集一份网址;
将从所述初始队列中采集的网址,使用信息摘要算法加密存储到历史队 列中。
可选地,所述解析所读取的网址所对应的页面数据,下载所述页面数据 中的图片,将所述下载的图片放入第二文件夹中包括:
打开所述网址中的页面数据,解析页面数据中的图片信息后,提取所述 图片的路径,将图片的路径写入到所述第二文件夹中。。
可选地,所述网址解析步骤还包括:
在图片暂停下载后再次对页面数据中的图片下载时,比对第一文件夹和 历史队列中的网址信息,从所述第一文件夹中找到暂停的网址位置,继续完 成图片下载。
此外,为实现上述目的,本发明提供的图片采集装置包括存储器和处理 器,所述存储器上存储有可在所述处理器上运行的图片采集程序,所述图片 采集程序被所述处理器执行时实现如下步骤:
网址收集步骤:从网络中收集网址,并将所述网址放入第一文件夹中;
网址读取步骤:依次读取所述第一文件夹中的网址,并将所读取的网址 进行加密处理后,放入历史队列中;
网址解析步骤:解析所读取的网址所对应的页面数据,下载所述页面数 据中的图片,将所述下载的图片放入第二文件夹中;
网址扩充步骤:获取所读取的网址所对应的页面数据,当所述页面数据 中包括有其他网址时,对所述其他网址进行加密处理后与所述历史队列中的 网址进行比较,若所述其他网址在所述历史队列时,则将所述其他网址丢弃, 以及若所述其他网址不在所述历史队列时,将所述网址链接加载到所述第一 文件夹中;重复执行上述的网址读取步骤,网址解析步骤以及网址扩充步骤, 直到所述第一文件夹中的网址全部读取完毕。
可选地,所述网址读取步骤包括:
读取所述第一文件夹中的一个或者多个网址,并将所述网址加载到一个 初始队列中;
按照网址的读取顺序,依次从所述初始队列中采集一份网址;
将从所述初始队列中采集的网址,使用信息摘要算法加密存储到历史队 列中。
可选地,
所述解析所读取的网址所对应的页面数据,下载所述页面数据中的图片, 将所述下载的图片放入第二文件夹中包括:
打开所述网址中的页面数据,解析页面数据中的图片信息后,提取所述 图片的路径,将图片的路径写入到所述第二文件夹中。
可选地,所述网址解析步骤还包括:
在图片暂停下载后再次对页面数据中的图片下载时,比对第一文件夹和 历史队列中的网址信息,从所述第一文件夹中找到暂停的网址位置,继续完 成图片下载。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述 计算机可读存储介质上存储有图片采集程序,所述图片采集程序可被一个或 者多个处理器执行,以实现如上所述的图片采集方法的步骤。
本发明提出的图片采集方法、装置及计算机可读存储介质,收集网址, 并将所述网址放入第一文件夹中,读取所述第一文件夹中的网址,并将读取 的网址进行加密处理后,放入历史队列中,解析所述第一文件夹中的网址, 下载所述网址中的图片,图片下载完成后,将所述图片放入第二文件夹中, 在所述网址中有其他网址链接时,判断所述网址链接是否在所述历史队列中, 当所述网址链接在所述历史队列中,则将所述网址链接丢弃,以及当所述网 址链接不在所述历史队列中,则将所述网址链接加载到所述第一文件夹中,重复执行上述的网址读取步骤、网址解析步骤以及网址扩充步骤,直到所述 第一文件夹中的网址全部读取完毕,从而可以给用户呈现出快速高效的图片 采集结果。
附图说明
图1为本发明一实施例提供的图片采集方法的流程示意图;
图2为本发明一实施例提供的初始表的示意图;
图3为本发明一实施例提供的网址加密的示意图;
图4为本发明一实施例提供的图片采集装置的内部结构示意图;
图5为本发明一实施例提供的图片采集装置中图片采集程序的模块示意 图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限 定本发明。
本发明提供一种图片采集方法。参照图1所示,为本发明一实施例提供 的图片采集方法的流程示意图。该方法可以由一个装置执行,该装置可以由 软件和/或硬件实现。
在本实施例中,图片采集方法包括:
S1、从网络中收集网址,并将所述网址放入第一文件夹中。
人工智能的发展日新月异,研究方向也不尽相同,现如今,有针对人脸 识别、生物种类判断、运动物体检测等各个方向的研究。所以根据研究方向 的不同,准备的图片数据集种类也不相同。因此,本发明采集特定种类的网 址,即根据需要的图片数据集种类,选取相对应的网址,如需要人脸图片的 数据集,则选择娱乐八卦、人物传记等类别的网址等。本发明所收集的网址 数量不做要求,少则几个,多则几十个。
本发明较佳实施例将收集到的若干数量的网址,按照一行一个网址的规 则,输入到指定的第一文件夹中。
进一步地,为了更高效的下载图片,本发明先加载一部分网址到一个初 始队列中。所述初始队列的存在是为了方便后续直接调用网址,不需要每次 打开第一文件夹并读取其中的网址,加快了网址读取的运行速度。优选地, 每次预加载到初始队列中的网址的数量y按照幂函数公式:
y=1.5x
本发明较佳实施例将自动读取并分析网址的程序,称为图片采集程序。x 指所述图片采集程序一个周期内的启动次数,即后文的N。同时给加载到初 始队列中的网址数量y设定了值为1.5的阈值,即当图片采集程序一个周期内 的启动次数N大于10时,每次也只加载15个网址到初始队列中。设定阈值 的优点是有效的节约内存,提高下载图片的效率。
S2、依次读取所述第一文件夹中的网址,并将读取的网址进行加密处理 后,放入历史队列中。
所述图片采集程序每运行一次,就从初始队列中读取一份网址数据。在 一个采集周期内,按顺序启动N次图片采集程序。一个采集周期完成,循环 至下个采集周期,直到第一文件夹中没有网址数据为止。
进一步地,本发明将从初始队列中采集的网址数据,加密之后,存储到 历史队列中。图片采集程序采用MD5的加密算法,即“Message-Digest Algorithm 5(信息-摘要算法)”,其主要通过采集网址的信息摘要,以此进行 计算并加密,加密的主要原理分如下几步:
1、先将网址转为原始的十六进制型数据,然后通过填充数据,达到信息 摘要的长度,形成链接变量;
参考公式:原始消息+填充(1~512位)+原始消息的长度LEN=>要散列 的数据(摘要);
2、将消息分成n个512位的块后,初始化链接变量,初始表如图2所示;
3、将4个链接变量赋值到4个变量中,a=A、b=B、c=C、d=D,将当前 512位的块分成16个子块,则每个子块为32位,以此类推,处理其他的块;
4、将16个子块分别设为M[0],M[1],M[2]……M[15],或表示为M[i], i=1~15,设一个包含64个元素的常量数组,表示为T[i],i=1~64,T[i]为32 位,再按图3的过程对数据进行加密,共四轮循环,每轮循环都很相似,第 一轮进行16次操作,每次操作对a、b、c和d中的其中三个作一次非线性函 数运算,然后将所得结果加上第四个变量,再将所得结果向左环移一个不定 的数,并加上a、b、c或d中之一。最后用该结果取代a、b、c或d中之一, 得到加密后的网址哈希值。
S3、解析所读取的网址所对应的页面数据,下载所述页面数据中的图片, 将所述下载的图片放入第二文件夹中。
本发明较佳实施例中,所述图片采集程序打开所述网址中的页面数据, 解析页面数据中的图片信息后,提取所述图片的路径,将图片的路径写入到 第二文件夹中。
S4、当所读取的网址所对应的页面数据中包括有其他网址时,对所述其 他网址进行加密处理后与所述历史队列中的网址进行比较;若所述其他网址 在所述历史队列时,则将所述其他网址丢弃,以及若所述其他网址不在所述 历史队列时,将所述网址链接加载到所述第一文件夹中。
本发明从采集的网址中进一步解析其中的页面数据中包括的其他的网址 信息,并且逐一的对解析到的其他网址信息进行MD5加密操作,将生成的哈 希值与历史队列中的哈希值比较,如果有相同的,则说明该网址信息已经处 理,则丢弃该网址信息,如果都不同,则将此次生成的哈希值加载到历史队 列中。
重复执行上述的S2至S4,直到所述第一文件夹中的网址全部读取完毕。
可选地,当由于某种原因,比如异常断电,电脑死机等,本发明同样支 持可恢复的记忆下载功能。所述可恢复的记忆下载功能通过下述方法实现: 在图片暂停下载后再次对页面数据中的图片下载时,比对第一文件夹和历史 队列中的网址信息,从所述第一文件夹中找到暂停的网址位置,继续完成图 片下载。
进一步地,本发明还提供一种图片采集装置。参照图4所示,为本发明 一实施例提供的图片采集装置的内部结构示意图。
在本实施例中,所述图片采集装置1可以是PC(Personal Computer,个 人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一 种服务器等。该图片采集装置1至少包括存储器11、处理器12,通信总线13, 以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质 包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁 性存储器、磁盘、光盘等。存储器11在一些实施例中可以是图片采集装置1 的内部存储单元,例如该图片采集装置1的硬盘。存储器11在另一些实施例 中也可以是图片采集装置1的外部存储设备,例如图片采集装置1上配备的 插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括图片 采集装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存 储安装于图片采集装置1的应用软件及各类数据,例如图片采集程序01的代 码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器 11中存储的程序代码或处理数据,例如执行图片采集程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口), 通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器 (Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标 准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显 示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏 或显示单元,用于显示在图片采集装置1中处理的信息以及用于显示可视化 的用户界面。
图4仅示出了具有组件11-14以及图片采集程序01的图片采集装置1, 本领域技术人员可以理解的是,图4示出的结构并不构成对图片采集装置1 的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不 同的部件布置。
在图4所示的装置1实施例中,存储器11中存储有图片采集程序01;处 理器12执行存储器11中存储的图片采集程序01时实现如下步骤:
步骤一、从网络中收集网址,并将所述网址放入第一文件夹中。
人工智能的发展日新月异,研究方向也不尽相同,现如今,有针对人脸 识别、生物种类判断、运动物体检测等各个方向的研究。所以根据研究方向 的不同,准备的图片数据集种类也不相同。因此,本发明采集特定种类的网 址,即根据需要的图片数据集种类,选取相对应的网址,如需要人脸图片的 数据集,则选择娱乐八卦、人物传记等类别的网址等。本发明所收集的网址 数量不做要求,少则几个,多则几十个。
本发明较佳实施例将收集到的若干数量的网址,按照一行一个网址的规 则,输入到指定的第一文件夹中。
进一步地,为了更高效的下载图片,本发明先加载一部分网址到一个初 始队列中。所述初始队列的存在是为了方便后续直接调用网址,不需要每次 打开第一文件夹并读取其中的网址,加快了网址读取的运行速度。优选地, 每次预加载到初始队列中的网址的数量y按照幂函数公式:
y=1.5x
本发明较佳实施例将自动读取并分析网址的程序,称为图片采集程序。x 指所述图片采集程序一个周期内的启动次数,即后文的N。同时给加载到初 始队列中的网址数量y设定了值为1.5的阈值,即当图片采集程序一个周期内 的启动次数N大于10时,每次也只加载15个网址到初始队列中。设定阈值 的优点是有效的节约内存,提高下载图片的效率。
步骤二、依次读取所述第一文件夹中的网址,并将读取的网址进行加密 处理后,放入历史队列中。
所述图片采集程序每运行一次,就从初始队列中读取一份网址数据。在 一个采集周期内,按顺序启动N次图片采集程序。一个采集周期完成,循环 至下个采集周期,直到第一文件夹中没有网址数据为止。
进一步地,本发明将从初始队列中采集的网址数据,加密之后,存储到 历史队列中。图片采集程序采用MD5的加密算法,即“Message-Digest Algorithm 5(信息-摘要算法)”,其主要通过采集网址的信息摘要,以此进行 计算并加密,加密的主要原理分如下几步:
1、先将网址转为原始的十六进制型数据,然后通过填充数据,达到信息 摘要的长度,形成链接变量;
参考公式:原始消息+填充(1~512位)+原始消息的长度LEN=>要散列 的数据(摘要);
2、将消息分成n个512位的块后,初始化链接变量,初始表如图2所示;
3、将4个链接变量赋值到4个变量中,a=A、b=B、c=C、d=D,将当前 512位的块分成16个子块,则每个子块为32位,以此类推,处理其他的块;
4、将16个子块分别设为M[0],M[1],M[2]……M[15],或表示为M[i], i=1~15,设一个包含64个元素的常量数组,表示为T[i],i=1~64,T[i]为32 位,再按图3的过程对数据进行加密,共四轮循环,每轮循环都很相似,第 一轮进行16次操作,每次操作对a、b、c和d中的其中三个作一次非线性函 数运算,然后将所得结果加上第四个变量,再将所得结果向左环移一个不定 的数,并加上a、b、c或d中之一。最后用该结果取代a、b、c或d中之一, 得到加密后的网址哈希值。
步骤三、解析所读取的网址所对应的页面数据,下载所述页面数据中的 图片,将所述下载的图片放入第二文件夹中。
本发明另外一个较佳实施例中,还可以包括步骤四、当所读取的网址所 对应的页面数据中包括有其他网址时,对所述其他网址进行加密处理后与所 述历史队列中的网址进行比较;若所述其他网址在所述历史队列时,则将所 述其他网址丢弃,以及若所述其他网址不在所述历史队列时,将所述网址链 接加载到所述第一文件夹中。
本发明较佳实施例中,所述图片采集程序打开所述网址中的页面数据, 解析页面数据中的图片信息后,提取所述图片的路径,将图片的路径写入到 第二文件夹中。
本发明从采集的网址中进一步解析其中的页面数据中包括的其他的网址 信息,并且逐一的对解析到的其他网址信息进行MD5加密操作,将生成的哈 希值与历史队列中的哈希值比较,如果有相同的,则说明该网址信息已经处 理,则丢弃该网址信息,如果都不同,则将此次生成的哈希值加载到历史队 列中。
重复执行上述的步骤二至步骤四,直到所述第一文件夹中的网址全部读 取完毕。
可选地,当由于某种原因,比如异常断电,电脑死机等,本发明同样支 持可恢复的记忆下载功能。所述可恢复的记忆下载功能通过下述方法实现: 在图片暂停下载后再次对页面数据中的图片下载时,比对第一文件夹和历史 队列中的网址信息,从所述第一文件夹中找到暂停的网址位置,继续完成图 片下载。
可选地,在其他实施例中,图片采集程序01还可以被分割为一个或者多 个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本 实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成 特定功能的一系列计算机程序指令段,用于描述图片采集程序01在图片采集 装置1中的执行过程。
例如,参照图5所示,为本发明图片采集装置一实施例中的图片采集程 序的程序模块示意图,该实施例中,所述图片采集程序可以被分割为网页收 集处理模块10、读取并加密网址模块20、解析分析网址模块30,示例性地:
所述网页收集处理模块10用于:从网络中收集网址,并将所述网址放入 第一文件夹中。
读取并加密网址模块20用于:依次读取所述第一文件夹中的网址,并将 所读取的网址进行加密处理后,放入历史队列中。
解析分析网址模块30用于:解析所读取的网址所对应的页面数据,下载 所述页面数据中的图片,将所述下载的图片放入第二文件夹中。
上述网页收集处理模块10、读取并加密网址模块20、解析分析网址模块 30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在 此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读 存储介质上存储有图片采集程序,所述图片采集程序可被一个或多个处理器 执行,以实现如下操作:
网址收集步骤:从网络中收集网址,并将所述网址放入第一文件夹中;
网址读取步骤:依次读取所述第一文件夹中的网址,并将所读取的网址 进行加密处理后,放入历史队列中;
网址解析步骤:解析所读取的网址所对应的页面数据,下载所述页面数 据中的图片,将所述下载的图片放入第二文件夹中;
重复执行上述的网址读取步骤以及网址解析步骤,直到所述第一文件夹 中的网址全部读取完毕。
本发明计算机可读存储介质具体实施方式与上述图片采集装置和方法各 实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的 优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他 性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括 那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、 装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括 一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法 中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、 磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机, 服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是 利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种图片采集方法,其特征在于,所述方法包括:
网址收集步骤:从网络中收集网址,并将所述网址放入第一文件夹中;
网址读取步骤:依次读取所述第一文件夹中的网址,并将所读取的网址进行加密处理后,放入历史队列中;
网址解析步骤:解析所读取的网址所对应的页面数据,下载所述页面数据中的图片,将所述下载的图片放入第二文件夹中;
网址扩充步骤:获取所读取的网址所对应的页面数据,当所述页面数据中包括有其他网址时,对所述其他网址进行加密处理后与所述历史队列中的网址进行比较,若所述其他网址在所述历史队列时,则将所述其他网址丢弃,以及若所述其他网址不在所述历史队列时,将所述网址链接加载到所述第一文件夹中;
重复执行上述的网址读取步骤、网址解析步骤以及网址扩充步骤,直到所述第一文件夹中的网址全部读取完毕。
2.如权利要求1所述的图片采集方法,其特征在于,在所述网址收集步骤中,将从网络中收集到的网址,按照一行一个网址的规则,输入到所述第一文件夹中。
3.如权利要求2所述的图片采集方法,其特征在于,所述网址读取步骤包括:
读取所述第一文件夹中的一个或者多个网址,并将所述网址加载到一个初始队列中;
按照网址的读取顺序,依次从所述初始队列中采集一份网址;
将从所述初始队列中采集的网址,使用信息摘要算法加密存储到历史队列中。
4.如权利要求1至3中任意一项所述的图片采集方法,其特征在于,所述解析所读取的网址所对应的页面数据,下载所述页面数据中的图片,将所述下载的图片放入第二文件夹中包括:
打开所述网址中的页面数据,解析页面数据中的图片信息后,提取所述图片的路径,将图片的路径写入到所述第二文件夹中。
5.如权利要求1所述的图片采集方法,其特征在于,所述网址解析步骤还包括:
在图片暂停下载后再次对页面数据中的图片下载时,比对第一文件夹和历史队列中的网址信息,从所述第一文件夹中找到暂停的网址位置,继续完成图片下载。
6.一种图片采集装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的图片采集程序,所述图片采集程序被所述处理器执行时实现如下步骤:
网址收集步骤:从网络中收集网址,并将所述网址放入第一文件夹中;
网址读取步骤:依次读取所述第一文件夹中的网址,并将所读取的网址进行加密处理后,放入历史队列中;
网址解析步骤:解析所读取的网址所对应的页面数据,下载所述页面数据中的图片,将所述下载的图片放入第二文件夹中;
网址扩充步骤:获取所读取的网址所对应的页面数据,当所述页面数据中包括有其他网址时,对所述其他网址进行加密处理后与所述历史队列中的网址进行比较,若所述其他网址在所述历史队列时,则将所述其他网址丢弃,以及若所述其他网址不在所述历史队列时,将所述网址链接加载到所述第一文件夹中;
重复执行上述的网址读取步骤、网址解析步骤以及网址扩充步骤,直到所述第一文件夹中的网址全部读取完毕。
7.如权利要求6所述的图片采集装置,其特征在于,所述网址读取步骤包括:
读取所述第一文件夹中的一个或者多个网址,并将所述网址加载到一个初始队列中;
按照网址的读取顺序,依次从所述初始队列中采集一份网址;
将从所述初始队列中采集的网址,使用信息摘要算法加密存储到历史队列中。
8.如权利要求6或7所述的图片采集装置,其特征在于,所述解析所读取的网址所对应的页面数据,下载所述页面数据中的图片,将所述下载的图片放入第二文件夹中包括:
打开所述网址中的页面数据,解析页面数据中的图片信息后,提取所述图片的路径,将图片的路径写入到所述第二文件夹中。
9.如权利要求6所述的图片采集装置,其特征在于,所述网址解析步骤还包括:
在图片暂停下载后再次对页面数据中的图片下载时,比对第一文件夹和历史队列中的网址信息,从所述第一文件夹中找到暂停的网址位置,继续完成图片下载。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图片采集程序,所述图片采集程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的图片采集方法的步骤。
CN201910109890.2A 2019-02-11 2019-02-11 图片采集方法、装置及计算机可读存储介质 Pending CN109947959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910109890.2A CN109947959A (zh) 2019-02-11 2019-02-11 图片采集方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910109890.2A CN109947959A (zh) 2019-02-11 2019-02-11 图片采集方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109947959A true CN109947959A (zh) 2019-06-28

Family

ID=67007545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910109890.2A Pending CN109947959A (zh) 2019-02-11 2019-02-11 图片采集方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109947959A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104219261A (zh) * 2013-05-30 2014-12-17 鸿富锦精密工业(深圳)有限公司 文件下载方法及系统
CN104572901A (zh) * 2014-12-25 2015-04-29 小米科技有限责任公司 网页数据的下载方法及装置
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104219261A (zh) * 2013-05-30 2014-12-17 鸿富锦精密工业(深圳)有限公司 文件下载方法及系统
CN104572901A (zh) * 2014-12-25 2015-04-29 小米科技有限责任公司 网页数据的下载方法及装置
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及系统

Similar Documents

Publication Publication Date Title
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN104462873A (zh) 一种图片处理方法和装置
CN107656729A (zh) 列表视图的更新装置、方法及计算机可读存储介质
CN107870976A (zh) 简历识别装置、方法及计算机可读存储介质
CN108898174A (zh) 一种场景数据采集方法、场景数据采集装置及电子设备
CN105493095A (zh) 用于样本提交的自适应和递归过滤
CN110889045B (zh) 标签分析方法、装置及计算机可读存储介质
CN106569860A (zh) 一种应用管理方法及终端
CN107277019A (zh) 数据明文获取方法、装置、电子终端及可读存储介质
CN112214766A (zh) 一种检测挖矿木马的方法、装置、电子装置和存储介质
CN116975010B (zh) 一种电子材料库共享方法及系统
CN109657125A (zh) 基于网络爬虫的数据处理方法、装置、设备及存储介质
CN108647023A (zh) 软件开发工具的图片压缩方法、装置、设备及存储介质
CN106169961A (zh) 基于人工智能的神经网络的网络参数处理方法及装置
CN104580109A (zh) 生成点选验证码的方法及装置
CN111382428A (zh) 恶意软件识别模型训练方法、恶意软件识别方法及装置
CN109284590A (zh) 访问行为安全防护的方法、设备、存储介质及装置
CN109947959A (zh) 图片采集方法、装置及计算机可读存储介质
CN105022746A (zh) 一种字库生成的方法、服务器及系统
CN112083925A (zh) 基于h5页面开发的数据获取方法、装置、设备及存储介质
CN110727576A (zh) 一种web页面测试方法、装置、设备及存储介质
CN110275974A (zh) 样本数据集的数据添加方法、装置、终端设备及存储介质
Marszałkowski et al. Analysis and solution of CSS-sprite packing problem
CN105589683A (zh) 样本抽取方法和装置
CN107861994B (zh) 日志整理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination