CN104166729A - 定时多任务网页数据抓取系统及方法 - Google Patents

定时多任务网页数据抓取系统及方法 Download PDF

Info

Publication number
CN104166729A
CN104166729A CN201410433207.8A CN201410433207A CN104166729A CN 104166729 A CN104166729 A CN 104166729A CN 201410433207 A CN201410433207 A CN 201410433207A CN 104166729 A CN104166729 A CN 104166729A
Authority
CN
China
Prior art keywords
data
captured
timing
website
multitask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410433207.8A
Other languages
English (en)
Inventor
冉茂强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201410433207.8A priority Critical patent/CN104166729A/zh
Publication of CN104166729A publication Critical patent/CN104166729A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及计算机及互联网领域中的数据采集技术,一种定时多任务网页数据抓取系统及方法,解决传统技术中数据抓取技术存在的问题。在本发明中,系统启动时开启定时器计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。本发明适用于多网站数据同时抓取。

Description

定时多任务网页数据抓取系统及方法
技术领域
本发明涉及计算机及互联网领域中的数据采集技术,具体涉及一种定时多任务网页数据抓取系统及方法。
背景技术
网页数据抓取是指将非结构化的信息从网站中抓取出来保存到结构化的数据库中的技术。目前对于网络数据抓取技术都是采用即时抓取即时使用,即:服务器抓取到数据并经过解析处理后立刻给用户响应。
上述方式对于抓取数据量小、网速快的情况下能带给用户一种及时性的体验。但对于网络数据量庞大、需抓取多个不同网站数据时会导致响应时间很长,甚至出现连接服务器超时的情况。
发明内容
本发明所要解决的技术问题是:提出一种定时多任务网页数据抓取系统及方法,解决传统技术中数据抓取技术存在的问题。
本发明解决上述技术问题所采用的技术方案是:
定时多任务网页数据抓取系统,包括:
定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;
数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;
本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
具体的,所述待抓取网站的信息包括:待抓取网站的名称、内容。
具体的,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。
具体的,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
此外,本发明的另一目的,还在于提出一种定时多任务网页数据抓取方法,其包括以下步骤:
a.定时多任务网页数据抓取系统启动过程中加载配置文件中的定时器配置,同时启动定时器;
b.当定时器计时达到配置的抓取网页数据的执行时间时,触发数据抓取任务;
c.数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;
d.本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
具体的,步骤a中,所述配置文件中的定时器配置包括抓取网页数据的执行时间。
具体的,步骤c中,所述待抓取网站的信息包括:待抓取网站的名称、内容。
具体的,步骤c中,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。
具体的,步骤c中,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
本发明的有益效果是:可以将数据抓取任务通过定时器设置到服务器空闲时,可以避开服务器抓取数据所浪费的时间;同时采用多线程技术增加服务器资源的利用率,将数据提前抓取到本地服务器的数据库中,待用户需要数据时,直接从本地服务器的数据库中查询,提高服务器的响应时间,提升用户体验。
附图说明
图1为本发明中的定时多任务网页数据抓取方法流程图。
具体实施方式
本发明旨在提出一种定时多任务网页数据抓取系统及方法,解决传统技术中数据抓取技术存在的对于网络数据量庞大、需抓取多个不同网站数据时会导致响应时间很长,甚至出现连接服务器超时的情况的问题,本发明的技术核心在于:将数据抓取任务通过定时器设置到服务器空闲时,并同时对于待抓取数据的每个网站开启与之对应的单独线程。
在具体实施上,本发明中的定时多任务网页数据抓取系统包括:
定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;这里所述的“配置的抓取网页数据的执行时间”来源于系统在启动时加载配置文件中的定时器配置;
数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;即开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
下面结合附图对本发明的技术方案作进一步的描述:
如图1所示,本发明中的定时多任务网页数据抓取方法包括:
服务器启动定时多任务网页数据抓取系统,系统启动过程中加载配置文件中的定时器配置(该配置包含网页数据抓取的执行时间),同时启动定时器。当定时器执行到网页数据抓取模块指定的时间时,定时器开启线程并在该线程中触发数据抓取模块。此时抓取模块初始化抓取数据的基本信息:待抓取的网站名称、内容等。完成后系统根据不同的网站名称开启对应的线程并在线程中启动数据抓取、解析、匹配本地数据库中的数据、保存到本地数据库功能。一个网站的数据抓取并处理完毕后,该线程执行结束,当被开启的所有线程执行结束后,数据抓取功能模块执行完成。系统接着等待下一次定时器触发操作。

Claims (9)

1.定时多任务网页数据抓取系统,其特征在于,包括:
定时器,用于计时,当计时达到配置的抓取网页数据的执行时间时触发数据抓取任务;
数据抓取模块,用于从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;
本地数据库,用于对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
2.如权利要求1所述的定时多任务网页数据抓取系统,其特征在于,所述待抓取网站的信息包括:待抓取网站的名称、内容。
3.如权利要求1所述的定时多任务网页数据抓取系统,其特征在于,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。
4.如权利要求1-3任意一项所述的定时多任务网页数据抓取系统,其特征在于,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
5.定时多任务网页数据抓取方法,其特征在于,包括以下步骤:
a.定时多任务网页数据抓取系统启动过程中加载配置文件中的定时器配置,同时启动定时器;
b.当定时器计时达到配置的抓取网页数据的执行时间时,触发数据抓取任务;
c.数据抓取模块从本地数据库中获取待抓取网站的信息,并开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务,并对抓取的内容进行处理后匹配本地数据库中的数据;
d.本地数据库对数据抓取模块抓取并进行处理、匹配后的数据内容进行结构化存储。
6.如权利要求5所述的定时多任务网页数据抓取方法,其特征在于,步骤a中,所述配置文件中的定时器配置包括抓取网页数据的执行时间。
7.如权利要求5所述的定时多任务网页数据抓取方法,其特征在于,步骤c中,所述待抓取网站的信息包括:待抓取网站的名称、内容。
8.如权利要求5所述的定时多任务网页数据抓取方法,其特征在于,步骤c中,对抓取的内容进行处理包括:解析抓取的数据,过滤无用信息。
9.如权利要求5-8任意一项所述的定时多任务网页数据抓取方法,其特征在于,步骤c中,所述开启与待抓取网站个数相同的线程同时执行针对相应网站的数据抓取任务是指:开启与待抓取网站个数相同的线程,每一个线程针对一个网站,同时进行数据抓取。
CN201410433207.8A 2014-08-28 2014-08-28 定时多任务网页数据抓取系统及方法 Pending CN104166729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410433207.8A CN104166729A (zh) 2014-08-28 2014-08-28 定时多任务网页数据抓取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410433207.8A CN104166729A (zh) 2014-08-28 2014-08-28 定时多任务网页数据抓取系统及方法

Publications (1)

Publication Number Publication Date
CN104166729A true CN104166729A (zh) 2014-11-26

Family

ID=51910542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410433207.8A Pending CN104166729A (zh) 2014-08-28 2014-08-28 定时多任务网页数据抓取系统及方法

Country Status (1)

Country Link
CN (1) CN104166729A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095395A (zh) * 2015-06-30 2015-11-25 北京金山安全软件有限公司 一种信息处理方法及装置
CN105912471A (zh) * 2016-04-12 2016-08-31 上海斐讯数据通信技术有限公司 一种测试记录抓取系统及方法
CN109471663A (zh) * 2018-10-30 2019-03-15 珠海格力智能装备有限公司 单片机程序的执行方法及装置
CN110096666A (zh) * 2019-05-08 2019-08-06 上海泰豪迈能能源科技有限公司 数据处理的方法及装置
CN110188259A (zh) * 2019-05-27 2019-08-30 厦门商集网络科技有限责任公司 一种可配置化的数据抓取方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347930A (zh) * 2010-07-26 2012-02-08 中国电信股份有限公司 网页内容获取方法和系统
CN103399908A (zh) * 2013-07-30 2013-11-20 北京北纬通信科技股份有限公司 业务数据抓取方法和系统
CN103475687A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103559219A (zh) * 2013-10-18 2014-02-05 北京京东尚科信息技术有限公司 分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347930A (zh) * 2010-07-26 2012-02-08 中国电信股份有限公司 网页内容获取方法和系统
CN103475687A (zh) * 2013-05-24 2013-12-25 北京网秦天下科技有限公司 用于下载网站数据的分布式方法和系统
CN103399908A (zh) * 2013-07-30 2013-11-20 北京北纬通信科技股份有限公司 业务数据抓取方法和系统
CN103559219A (zh) * 2013-10-18 2014-02-05 北京京东尚科信息技术有限公司 分布式网络爬虫抓取任务调度方法、调度端设备及抓取节点

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095395A (zh) * 2015-06-30 2015-11-25 北京金山安全软件有限公司 一种信息处理方法及装置
CN105912471A (zh) * 2016-04-12 2016-08-31 上海斐讯数据通信技术有限公司 一种测试记录抓取系统及方法
CN109471663A (zh) * 2018-10-30 2019-03-15 珠海格力智能装备有限公司 单片机程序的执行方法及装置
CN110096666A (zh) * 2019-05-08 2019-08-06 上海泰豪迈能能源科技有限公司 数据处理的方法及装置
CN110188259A (zh) * 2019-05-27 2019-08-30 厦门商集网络科技有限责任公司 一种可配置化的数据抓取方法和装置

Similar Documents

Publication Publication Date Title
CN104166729A (zh) 定时多任务网页数据抓取系统及方法
CN102184227B (zh) 一种面向web服务的通用爬虫引擎系统及其工作方法
CN102646129B (zh) 一种主题相关的分布式网络爬虫系统
CN101799751B (zh) 一种构建主机监控代理软件的方法
US8713449B2 (en) Transferring data by touch between touch-screen devices
RU2015155711A (ru) Центры обработки данных конечных точек с разными наборами арендаторов
WO2019080233A1 (zh) 定时任务处理方法、装置、存储介质和计算机设备
CN104735138A (zh) 一种面向用户生成内容的分布式采集方法与系统
CN106293919A (zh) 一种时间触发的嵌入式任务调度装置与方法
CN102314463A (zh) 分布式爬虫系统及其提取网页数据的方法
CN103984745A (zh) 分布式视频垂直搜索方法及系统
CN102591726A (zh) 一种多进程通信方法
CN102867008A (zh) 基于增强现实和远端计算的识别系统和方法
CN107491346A (zh) 一种应用的任务处理方法、装置及系统
CN102867053A (zh) 收集网站信息中有效信息网页的方法、装置及系统
CN102207888A (zh) 定时器管理方法和装置
CN103384274A (zh) 基于http协议的公网连接内网计算机的通信方法
CN104714838A (zh) 一种任务调度方法及装置
CN104461563A (zh) 一种在linux下远程定时检测FTP服务器新增文件的方法
CN110865877B (zh) 一种任务请求的响应方法及设备
JP2012518215A5 (zh)
US20150062005A1 (en) Method and system for providing user interaction when capturing content in an electronic device
CN104967698A (zh) 一种爬取网络数据的方法和装置
CN103246709A (zh) 一种网页数据抓取的方法
CN110688581A (zh) 一种信息的实时推送方法、装置、计算设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141126