CN108228702A

CN108228702A - 一种基于Nodejs爬虫抓取并下载图片的实现方法

Info

Publication number: CN108228702A
Application number: CN201711016509.5A
Authority: CN
Inventors: 骆振东; 关班记; 张远世; 齐兆勇; 黄博; 庞毅; 何龙泉; 季统凯
Original assignee: G Cloud Technology Co Ltd
Current assignee: G Cloud Technology Co Ltd
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2018-06-29

Abstract

本发明涉及网页开发技术领域，特别是一种基于nodejs爬虫技术抓取并下载图片的实现方法。所述的方法是安装Node.js；然后实现负责响应网络请求的request模块、负责对抓取的数据进行处理的cheerio模块、负责下载图片的fs模块、负责格式化图片名称的path模块和处理异步并发的async模块；封装所有方法模块到JS文件并执行，等待检索完毕即可查看下载完的图片。本发明提供了一种便捷的网页信息获取方法。

Description

一种基于Nodejs爬虫抓取并下载图片的实现方法

技术领域

本发明涉及网页开发技术领域，特别是一种基于nodejs爬虫技术抓取并下载并下载图片的实现方法。

背景技术

在网页开发过程中，经常需涉及到网页信息的获取问题。目前，爬取网页上的信息的方法经常需要通过后台服务器交换数据；对于前端开发人员来说实现上较为繁琐。

发明内容

本发明解决的技术问题在于提供一种基于Nodejs爬虫抓取并下载图片的实现方法；可以避免后台服务器的数据交换；实现简便。

本发明解决上述技术问题的技术方案是：

所述的方法是安装Node.js；然后实现负责响应网络请求的request模块、负责对抓取的数据进行处理的cheerio模块、负责下载图片的fs模块、负责格式化图片名称的path模块和处理异步并发的async模块；封装所有方法模块到JS文件并执行，等待检索完毕即可查看下载完的图片。

安装NodeJs之后，在项目空间中创建需要的项目目录，并通过npm命令对项目进行初始化。

所述的request模块、cheerio模块、fs模块、path模块和async模块，进入要安装插件的目录，用npm软件安装包安装；输入命令分别为npm install request、npm installcheerio、npm install fs、npm install path、npm install async。

所述的方法是：

在循环里面配置获取url对象和headers对象，把集合封装到option[]网址链接数组里；

调用fs模块的函数方法下载图片；

调用path模块的函数方法把图片的src地址截取图片名称出来；

调用cheerio加载body内容，根据图片src标签的定位创建抓取方法，将src地址添加到图片格式化方法里，获取图片名称，把图片名称传给图片的下载方法，最终完成整个图片下载的操作；

利用async的mapLimit方法实现限定并发数为3的调用，最终打印输出图片的检索结果。

本发明整个实现方法结合爬虫技术遍历图片下载到本地文件的一个功能，不需要后台服务器的交换，可以直接在页面上实现，对于前端开发人员能够很容易上手，对于开发的技术领域和创新有着实在的参考价值。

附图说明

下面结合附图对本发明进一步说明：

图1为本发明的流程图。

图2为本发明的代码截图举例。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出实质性创造获得的方案，都属于本发明保护的范围。

以下是本发明关于一种基于Node.js爬虫抓取并下载图片的实现方法的重要功能点实现方法：

安装Node.js：NodeJs是本次发明所必须的核心工具，安装好NodeJs之后，我们就可以在我们的项目空间中创建我们的项目目录，并通过npm命令对项目进行初始化，进行下一步安装本次发明所需要的插件。

1.安装负责响应网络请求的request模块：进入要安装插件的目录，直接用npm软件安装包安装，输入命令npm install request。

2.安装负责对抓取的数据进行处理的cheerio模块：进入要安装插件的目录，直接用npm软件安装包安装，输入命令npm installcheerio。

3.安装负责下载图片的fs模块：进入要安装插件的目录，直接用npm软件安装包安装，输入命令npm installfs。

4.安装负责格式化图片名称的path模块：进入要安装插件的目录，直接用npm软件安装包安装，输入命令npm installpath。

5.安装负责处理异步并发的async模块：进入要安装插件的目录，直接用npm软件安装包安装，输入命令npm installasync。

6.创建获取图片库地址链接的数组方法：在循环里面配置获取url对象和headers对象，把集合封装到option[]网址链接数组里。

7.创建图片下载方法：调用fs模块的函数方法下载图片。

8.创建格式化图片名称的方法：调用path模块的函数方法把图片的src地址截取图片名称出来。

10.创建抓取图片的逻辑方法：调用cheerio加载body内容，根据图片src标签的定位创建抓取方法，将src地址添加到图片格式化方法里，获取图片名称，把图片名称传给图片的下载方法，最终完成整个图片下载的操作。

11.创建异步逻辑控制方法：利用async的mapLimit方法实现限定并发数为3的调用，最终打印输出图片的检索结果。

12.完毕。

爬取网页上的信息，实际上就是将目标网站的页面html下载下来，然后通过各种方式(如正则表达式)获取我们想要的信息并保存起来。从这点看来，使用Nodejs来写网页爬虫便有着相当大的优势：

a)Nodejs采用了Javascript的语法规则，是前端开发人员能够很容易上手。

b)Nodejs写爬虫可以避免写一大堆正则表达式去匹配元素，我们可以用jquery的语法直接获取dom对象，方便快捷，可读性强。

c)Nodejs解决了Javascript无法直接操作系统文件的短板，让我们可以轻松操作系统中文件。

d)Nodejs提供了可以下载图片的插件,使用起来更加方便。

Claims

1.一种基于Nodejs爬虫抓取并下载图片的实现方法,其特征在于：所述的方法是安装Node.js；然后实现负责响应网络请求的request模块、负责对抓取的数据进行处理的cheerio模块、负责下载图片的fs模块、负责格式化图片名称的path模块和处理异步并发的async模块；封装所有方法模块到JS文件并执行，等待检索完毕即可查看下载完的图片。

2.根据权利要求1所述的方法，其特征在于：安装NodeJs之后，在项目空间中创建需要的项目目录，并通过npm命令对项目进行初始化。

3.根据权利要求1所述的方法，其特征在于：所述的request模块、cheerio模块、fs模块、path模块和async模块，进入要安装插件的目录，用npm软件安装包安装；输入命令分别为npm install request、npm install cheerio、npm install fs、npm installpath、npminstallasync。

4.根据权利要求2所述的方法，其特征在于：所述的request模块、cheerio模块、fs模块、path模块和async模块，进入要安装插件的目录，用npm软件安装包安装；输入命令分别为npm install request、npm install cheerio、npm install fs、npm installpath、npminstallasync。

5.根据权利要求1至4任一项所述的方法，其特征在于：所述的方法是：

调用fs模块的函数方法下载图片；

调用path模块的函数方法把图片的src地址截取图片名称出来；