CN105760550A - 面向大数据存储中心的互联网数据采集系统和采集方法 - Google Patents
面向大数据存储中心的互联网数据采集系统和采集方法 Download PDFInfo
- Publication number
- CN105760550A CN105760550A CN201610168471.2A CN201610168471A CN105760550A CN 105760550 A CN105760550 A CN 105760550A CN 201610168471 A CN201610168471 A CN 201610168471A CN 105760550 A CN105760550 A CN 105760550A
- Authority
- CN
- China
- Prior art keywords
- data
- server
- crawl
- crawlers
- gateway
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明提供一种面向大数据存储中心的互联网数据采集系统,包括数据爬取服务器、数据网关、数据库服务器;数据爬取服务器连接数据网关,数据网关连接数据库服务器;在数据爬取服务器上,建立有数据爬取主程序和格式处理程序;在数据爬取服务器上,还建立有至少一个目标文件夹,每个目标文件夹对应一个目标网站;在各目标文件夹中,建立有与每个目标网站唯一对应的爬虫程序,以及一个目标地址文件,目标地址文件中存有目标内容的URL链接;数据网关作为一个中转站,负责连接数据爬取服务器和数据库服务器,将数据爬取服务器抓取的网站数据信息转送给数据库服务器。本发明可有效地抓取互联网数据,为后续数据分析打下来良好的基础。
Description
技术领域
本发明涉及数据采集技术领域,尤其是一种互联网数据采集系统。
背景技术
随着互联网信息技术的飞速发展,企业数据抓取、储存、分析、处理及其应用已变得很便捷,企业战略决策和危机处置正在朝数据驱动型的预测、发展和决策的方向发生转变。因此,未来应对竞争和危机的决策行为将基于对数据的抓取与分析,而并不是依靠经验和直觉判断的传统模式。
建立“大数据战略”体系,其首要实现的是数据抓取,因为企业对各类数据的分析解读与应用都必须是在采集到的数据上进行,只有通过对所需数据的全面准确采集,形成数据流规模,然后再对数据流进行分析,这样分析出的数据结果对决策行为才有指导性作用。
目前,很多公司在建立大数据存储中心时,只是采用数据仓库或者中间件等方法将各个分系统数据集合存储,并没有去获取互联网数据。而随着信息社会的发展,互联网数据对于公司的数据分析越来越重要。
发明内容
本发明的目的在于提供一种面向大数据存储中心的互联网数据采集系统,以及基于此系统的面向大数据存储中心的互联网数据采集方法,用于合理有效地抓取互联网数据;本发明采用的技术方案是:
一种面向大数据存储中心的互联网数据采集系统,包括数据爬取服务器、数据网关、数据库服务器;数据爬取服务器连接数据网关,数据网关连接数据库服务器;
在数据爬取服务器上,建立有数据爬取主程序和格式处理程序;
在数据爬取服务器上,还建立有至少一个目标文件夹,每个目标文件夹对应一个目标网站;在各目标文件夹中,建立有与每个目标网站唯一对应的爬虫程序,以及一个目标地址文件,目标地址文件中存有目标内容的URL链接;
数据网关作为一个中转站,负责连接数据爬取服务器和数据库服务器,将数据爬取服务器抓取的网站数据信息转送给数据库服务器。
一种面向大数据存储中心的互联网数据采集方法,基于上述面向大数据存储中心的互联网数据采集系统,包括下述步骤:
步骤S1,数据抓取前置处理,由数据爬取主程序完成,具体包括:
S1.1,获取用户输入的执行参数,包括:
获取用户设置的日志级别;
获取用户设置的所要爬取的目标网站和目标网站上的具体内容,以及数据库服务器上数据存储位置信息;
获取用户设置爬取间隔时间;
获取用户设置的数据网关的IP地址和端口;
S1.2,根据步骤S1.1获取到的IP地址和端口,首先连接数据网关;如果连接成功才继续执行S1.3,如果连接不成功,则直接给用户返回错误信息,让其检查数据网关的地址是否有效;
S1.3,数据爬取主程序加载目标网站对应的目标文件夹中的爬虫程序;
步骤S2,数据抓取及预处理,具体包括:
S2.1,读取目标地址文件里的链接地址,子步骤S2.1由爬虫程序完成;
S2.2,用一个工具包链接读取出来的网址,获取到网页的html源代码;子步骤S2.2由爬虫程序完成;
S2.3,用一个工具解析html源代码,获取得到所需的数据;子步骤S2.2由爬虫程序完成;
S2.4,然后将获取到的数据信息,利用格式处理程序进行JSON格式解封装,得到原始的数据;
S2.5,将得到的原始数据,转换成数据库服务器上数据库能够存储的格式,然后将推送给数据网关;子步骤S2.5由爬虫程序完成;
步骤S3,数据转发,具体包括:
S3.1,根据步骤S1中获取的IP地址和端口号,链接数据网关,如果连接成功则执行S3.2,如果连接不成功,则尝试重新连接,如果还不成功,就返回失败信息给用户;此子步骤S3.1通过爬虫程序完成;
S3.2,进行推送之前,需要先把步骤S2生成的数据,通过格式处理程序转化成JSON格式;
S3.3,将步骤S1获取的存储位置信息,和S3.2得到的打包成JSON格式的数据,一同组装成HTTP报文;此子步骤S3.3通过爬虫程序完成;
S3.4,执行推送操作,将HTTP报文数据发送到数据网关完成任务;此子步骤S3.4通过爬虫程序完成。
进一步地,子步骤S2.2中,采用的工具包为urllib2工具包。
进一步地,子步骤S2.3中,采用的工具为BeautifulSoup工具。
本发明的优点在于:本发明通过三个步骤,第一步是,数据抓取前置处理,为数据抓取做准备工作,确定目标,工作模式等;第二步是,数据抓取及预处理,完成数据的获取以及规范化等;第三步是,数据转发,将数据发送到数据网关,完成数据的存储操作。本发明解决了互联网数据抓取问题,为大数据存储中心提供更加全面和丰富的数据,便于数据挖掘与分析。
附图说明
图1为本发明的系统结构图。
图2为本发明的http报文格式示意图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
面向大数据存储中心的互联网数据采集系统,如图1所示,包括数据爬取服务器、数据网关、数据库服务器;数据爬取服务器连接数据网关,数据网关连接数据库服务器;
在数据爬取服务器上,建立有数据爬取主程序和格式处理程序;本发明中建立的数据爬取主程序名字为crawler,用户可以在此输入相关参数,开启执行任务。数据爬取服务器通过爬虫程序从第三方网站上爬取下来的有效数据,都是对方从自己数据库中查取出的,所以返回的都是JSON格式数据(JSON格式是Web服务通用的数据包装格式),这时需要用格式处理程序进行处理转换为可用数据;
在数据爬取服务器上,还建立有至少一个(通常是多个)目标文件夹,如图1中的dianping、meituan、qunar、atmyweibo等,均代表目标文件夹;每个目标文件夹对应一个目标网站;在各目标文件夹中,建立有与每个目标网站唯一对应的爬虫程序(文件名为fetch.py),以及一个目标地址文件(文件名为map.txt),目标地址文件中存有目标内容的URL链接;目标内容的URL链接指向需要爬取的目标网站以及该网站上的具体内容,比如美团网站上的某个酒店信息页面就是一个目标内容;
数据网关作为一个中转站,负责连接数据爬取服务器和数据库服务器,将数据爬取服务器抓取的网站数据信息转送给数据库服务器;
面向大数据存储中心的互联网数据采集方法,包括下述步骤:
步骤S1,数据抓取前置处理,具体包括:
S1.1,获取用户输入的执行参数,包括:
获取用户设置的日志级别;日志是用来记录本程序的执行过程以及产生的各种错误信息,有了日志信息,才能更好的监测程序运行状态;
获取用户设置的所要爬取的目标网站和目标网站上的具体内容,以及数据库服务器上数据存储位置信息如数据库名称,数据表名称;
获取用户设置爬取间隔时间;
获取用户设置的数据网关的IP地址和端口;
S1.2,根据步骤S1.1获取到的IP地址和端口,首先连接数据网关;如果连接成功才继续执行S1.3,如果连接不成功,则直接给用户返回错误信息,让其检查数据网关的地址是否有效;
S1.3,数据爬取主程序加载目标网站对应的目标文件夹中的爬虫程序fetch.py;
上述步骤S1由数据爬取主程序完成;
步骤S2,数据抓取及预处理,具体包括:
S2.1,读取目标地址文件(maps.txt)里的链接地址,子步骤S2.1由爬虫程序完成;
S2.2,用urllib2工具包链接读取出来的网址,获取到网页的html源代码;子步骤S2.2由爬虫程序完成;
S2.3,用BeautifulSoup工具解析html源代码,获取得到所需的数据,比如酒店的评论信息;子步骤S2.2由爬虫程序完成;
S2.4,然后将获取到的数据信息,利用格式处理程序进行JSON格式解封装,得到原始的数据;
S2.5,将得到的原始数据,转换成数据库服务器上数据库能够存储的格式,然后将推送给数据网关;子步骤S2.5由爬虫程序完成;
步骤S3,数据转发,具体包括:
S3.1,根据步骤S1中获取的IP地址和端口号,链接数据网关,如果连接成功则执行S3.2,如果连接不成功,则尝试重新连接,如果还不成功,就返回失败信息给用户;此子步骤S3.1通过爬虫程序完成;
S3.2,进行推送之前,需要先把步骤S2生成的数据,通过格式处理程序转化成JSON格式;
S3.3,将步骤S1获取的存储位置信息,和S3.2得到的打包成JSON格式的数据,一同组装成HTTP报文;此子步骤S3.3通过爬虫程序完成;
一个HTTP请求包的格式见图2,其中data是传输的数据,他的格式是JSON形式的,如箭头所指;在data之前的几行,是HTTP可以携带的数据相关的信息比如,数据大小,数据名称,存储位置等;
S3.4,执行推送操作,将HTTP报文数据发送到数据网关完成任务;此子步骤S3.4通过爬虫程序完成。
本发明所涉及的而一些术语解释如下:
JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式;
urllib2是Python的一个获取URLs(UniformResourceLocators)的组件;
Python是一种面向对象、解释型计算机程序设计语言;
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。
Claims (4)
1.一种面向大数据存储中心的互联网数据采集系统,其特征在于,包括数据爬取服务器、数据网关、数据库服务器;数据爬取服务器连接数据网关,数据网关连接数据库服务器;
在数据爬取服务器上,建立有数据爬取主程序和格式处理程序;
在数据爬取服务器上,还建立有至少一个目标文件夹,每个目标文件夹对应一个目标网站;在各目标文件夹中,建立有与每个目标网站唯一对应的爬虫程序,以及一个目标地址文件,目标地址文件中存有目标内容的URL链接;
数据网关作为一个中转站,负责连接数据爬取服务器和数据库服务器,将数据爬取服务器抓取的网站数据信息转送给数据库服务器。
2.一种面向大数据存储中心的互联网数据采集方法,基于如权利要求1所述的面向大数据存储中心的互联网数据采集系统,其特征在于,包括下述步骤:
步骤S1,数据抓取前置处理,由数据爬取主程序完成,具体包括:
S1.1,获取用户输入的执行参数,包括:
获取用户设置的日志级别;
获取用户设置的所要爬取的目标网站和目标网站上的具体内容,以及数据库服务器上数据存储位置信息;
获取用户设置的爬取间隔时间;
获取用户设置的数据网关的IP地址和端口;
S1.2,根据步骤S1.1获取到的IP地址和端口,首先连接数据网关;如果连接成功才继续执行S1.3,如果连接不成功,则直接给用户返回错误信息,让其检查数据网关的地址是否有效;
S1.3,数据爬取主程序加载目标网站对应的目标文件夹中的爬虫程序;
步骤S2,数据抓取及预处理,具体包括:
S2.1,读取目标地址文件里的链接地址,子步骤S2.1由爬虫程序完成;
S2.2,用一个工具包链接读取出来的网址,获取到网页的html源代码;子步骤S2.2由爬虫程序完成;
S2.3,用一个工具解析html源代码,获取得到所需的数据;子步骤S2.2由爬虫程序完成;
S2.4,然后将获取到的数据信息,利用格式处理程序进行JSON格式解封装,得到原始的数据;
S2.5,将得到的原始数据,转换成数据库服务器上数据库能够存储的格式,然后将推送给数据网关;子步骤S2.5由爬虫程序完成;
步骤S3,数据转发,具体包括:
S3.1,根据步骤S1中获取的IP地址和端口号,链接数据网关,如果连接成功则执行S3.2,如果连接不成功,则尝试重新连接,如果还不成功,就返回失败信息给用户;此子步骤S3.1通过爬虫程序完成;
S3.2,进行推送之前,需要先把步骤S2生成的数据,通过格式处理程序转化成JSON格式;
S3.3,将步骤S1获取的存储位置信息,和S3.2得到的打包成JSON格式的数据,一同组装成HTTP报文;此子步骤S3.3通过爬虫程序完成;
S3.4,执行推送操作,将HTTP报文数据发送到数据网关完成任务;此子步骤S3.4通过爬虫程序完成。
3.如权利要求2所述的面向大数据存储中心的互联网数据采集方法,其特征在于:
子步骤S2.2中,采用的工具包为urllib2工具包。
4.如权利要求2所述的面向大数据存储中心的互联网数据采集方法,其特征在于:
子步骤S2.3中,采用的工具为BeautifulSoup工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610168471.2A CN105760550A (zh) | 2016-03-23 | 2016-03-23 | 面向大数据存储中心的互联网数据采集系统和采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610168471.2A CN105760550A (zh) | 2016-03-23 | 2016-03-23 | 面向大数据存储中心的互联网数据采集系统和采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105760550A true CN105760550A (zh) | 2016-07-13 |
Family
ID=56346297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610168471.2A Pending CN105760550A (zh) | 2016-03-23 | 2016-03-23 | 面向大数据存储中心的互联网数据采集系统和采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760550A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875397A (zh) * | 2018-07-12 | 2018-11-23 | 江苏慧学堂系统工程有限公司 | 一种web数据采集方法及系统 |
CN110516139A (zh) * | 2019-09-05 | 2019-11-29 | 上海携程商务有限公司 | 爬虫系统及方法 |
CN111859073A (zh) * | 2020-07-27 | 2020-10-30 | 广西美立方工程咨询有限公司 | 基于Python的非结构化数据实时爬取系统以及其使用方法 |
CN113220703A (zh) * | 2021-05-31 | 2021-08-06 | 普瑞纯证医疗科技(广州)有限公司 | 一种基于大数据平台更新医疗数据的方法、服务器和系统 |
CN113660312A (zh) * | 2021-07-23 | 2021-11-16 | 中建材(合肥)粉体科技装备有限公司 | 一种水泥厂设备数据采集系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826110A (zh) * | 2010-04-13 | 2010-09-08 | 北京大学 | 一种BitTorrent种子文件爬取方法 |
CN102708178A (zh) * | 2012-05-08 | 2012-10-03 | 上海互联网软件有限公司 | 一种b/s结构系统的数据抓取方法 |
CN104376063A (zh) * | 2014-11-11 | 2015-02-25 | 南京邮电大学 | 基于分类管理的多线程网络爬虫方法和信息实时更新系统 |
-
2016
- 2016-03-23 CN CN201610168471.2A patent/CN105760550A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826110A (zh) * | 2010-04-13 | 2010-09-08 | 北京大学 | 一种BitTorrent种子文件爬取方法 |
CN102708178A (zh) * | 2012-05-08 | 2012-10-03 | 上海互联网软件有限公司 | 一种b/s结构系统的数据抓取方法 |
CN104376063A (zh) * | 2014-11-11 | 2015-02-25 | 南京邮电大学 | 基于分类管理的多线程网络爬虫方法和信息实时更新系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875397A (zh) * | 2018-07-12 | 2018-11-23 | 江苏慧学堂系统工程有限公司 | 一种web数据采集方法及系统 |
CN110516139A (zh) * | 2019-09-05 | 2019-11-29 | 上海携程商务有限公司 | 爬虫系统及方法 |
CN110516139B (zh) * | 2019-09-05 | 2023-07-07 | 上海携程商务有限公司 | 爬虫系统及方法 |
CN111859073A (zh) * | 2020-07-27 | 2020-10-30 | 广西美立方工程咨询有限公司 | 基于Python的非结构化数据实时爬取系统以及其使用方法 |
CN113220703A (zh) * | 2021-05-31 | 2021-08-06 | 普瑞纯证医疗科技(广州)有限公司 | 一种基于大数据平台更新医疗数据的方法、服务器和系统 |
CN113660312A (zh) * | 2021-07-23 | 2021-11-16 | 中建材(合肥)粉体科技装备有限公司 | 一种水泥厂设备数据采集系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760550A (zh) | 面向大数据存储中心的互联网数据采集系统和采集方法 | |
CN109543086B (zh) | 一种面向多数据源的网络数据采集与展示方法 | |
CN109033115B (zh) | 一种动态网页爬虫系统 | |
CN107273409B (zh) | 一种网络数据采集、存储及处理方法及系统 | |
CN107087001B (zh) | 一种分布式的互联网重要地址空间检索系统 | |
CN101651707B (zh) | 一种网络用户行为日志自动获取方法 | |
CN101984429B (zh) | 获取目标页面的方法、装置、搜索引擎和浏览器 | |
CN105243159A (zh) | 一种基于可视化脚本编辑器的分布式网络爬虫系统 | |
US7657591B2 (en) | Dispatching client requests to appropriate server-side methods | |
US20080071922A1 (en) | Methods, systems, and computer program products to transparently dispatch requests to remote resources in a multiple application server environment | |
CN101409937B (zh) | 一种将脚本转换成目标系统支持的数据格式的方法及装置 | |
CN101609415B (zh) | 基于中间件的通用服务调用系统及方法 | |
US20110258192A1 (en) | Providing question and answer services | |
CN103246963B (zh) | 基于物联网的员工培训系统 | |
CN102577237A (zh) | 网站托管服务调度方法、应用访问处理方法、装置及系统 | |
CN101441629A (zh) | 一种非结构化网页信息的自动采集方法 | |
CN103491089A (zh) | 一种基于http的数据还原中的转码方法及系统 | |
CN104615748A (zh) | 基于Watir的物联网Web事件处理方法 | |
CN106294885A (zh) | 一种面向异构网页的数据收集与标注方法 | |
CN110222251A (zh) | 一种基于网页分割和搜索算法的服务包装方法 | |
CN110442611B (zh) | 一种公司品牌域名自动化查询方法及系统 | |
CN103399871A (zh) | 获取一个主域名相关联的二级域名信息的设备和方法 | |
CN114390033A (zh) | 基于可扩展通信协议的回路状态巡检仪采集系统及方法 | |
CN201726425U (zh) | 嵌入式网络服务器 | |
CN103927367A (zh) | 基于事件的微博采集系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160713 |