CN107066530A - 一种数据刷新系统及数据刷新方法 - Google Patents

一种数据刷新系统及数据刷新方法 Download PDF

Info

Publication number
CN107066530A
CN107066530A CN201710116830.4A CN201710116830A CN107066530A CN 107066530 A CN107066530 A CN 107066530A CN 201710116830 A CN201710116830 A CN 201710116830A CN 107066530 A CN107066530 A CN 107066530A
Authority
CN
China
Prior art keywords
url
data
crawlers
queues
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710116830.4A
Other languages
English (en)
Inventor
邓会林
王杰
王金虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Long Mobile Network Technology Co Ltd
Original Assignee
Suzhou Long Mobile Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Long Mobile Network Technology Co Ltd filed Critical Suzhou Long Mobile Network Technology Co Ltd
Priority to CN201710116830.4A priority Critical patent/CN107066530A/zh
Publication of CN107066530A publication Critical patent/CN107066530A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Abstract

本发明公开了一种数据刷新系统及数据刷新方法,其中的数据刷新系统包括中央服务器、两个以上的节点服务器和数据库;中央服务器包括:参数配置模块、URL队列生成模块、URL读取模块;参数配置模块设置请求参数;URL队列生成模块根据请求参数生成URL队列;URL读取模块读取URL队列内的URL,并将URL发送至各节点服务器;节点服务器中部署有爬虫程序,爬虫程序依据URL进行数据抓取,并将抓取的数据放入数据库。本发明提供的数据刷新系统具有两个以上的节点服务器,能够有效提高数据更新速度。通过URL读取模块,将URL分散均衡发送至各节点服务器,可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列,能够有效降低高并发量导致的系统崩溃。

Description

一种数据刷新系统及数据刷新方法
技术领域
本发明涉及计算机领域,特别涉及一种数据刷新系统及数据刷新方法。
背景技术
互联网的出现使得信息的获取变得便捷而高效,有时候我们不仅需要获取相关信息,而且我们还要求获取最新的信息。因此,需要有一种技术能够实现从目标站抓取更新后的数据,并将更新的数据放入到预先设定的数据库中,以方便查询和利用。
现有技术中,这种功能的实现是利用爬虫技术从目标站上抓取更新后的数据,然后将抓取的数据放入到设定的数据库。
但是现有技术中存在的问题是处理数据慢,且对服务器的要求很高,不适合进行大批量的数据刷新。
发明内容
本发明的目的在于解决现有技术中数据刷新系统处理数据慢,且对服务器的要求很高,不适合进行大批量的数据刷新。
为实现上述目的,本发明提供一种数据刷新系统,包括:中央服务器、两个以上的节点服务器和数据库;
所述中央服务器包括:参数配置模块、URL队列生成模块、URL读取模块;
其中,参数配置模块用于设置请求参数;
URL队列生成模块用于根据所述请求参数生成URL队列;
URL读取模块用于读取URL队列内的URL,并将URL发送至各节点服务器;
所述节点服务器中部署有爬虫程序,所述爬虫程序依据URL读取模块发送的URL进行数据抓取,并将抓取的数据放入数据库;
所述数据库用于存储数据。
进一步,还包括:
兼容处理模块,所述兼容处理模块用于将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式。
进一步,还包括:
缓存,所述缓存用于存储所述爬虫程序抓取的数据,然后将该数据读入到数据库中。
进一步,所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。
进一步,所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败,对应的URL将被重新放回URL队列中。
与现有技术相比,本技术方案具有以下优点:
本发明提供的数据刷新系统具有两个以上的节点服务器,能够多线程运行爬虫程序,提高数据获取效率,有效提高数据更新速度。通过URL读取模块,将URL分散均衡发送至各节点服务器,达到负载均衡,可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列,能够有效降低高并发量导致的系统崩溃。
本发明还提供一种数据刷新方法,包括:
通过参数配置模块配置请求参数;
URL队列生成模块根据所述请求参数生成URL队列;
URL读取模块读取URL队列内的URL,并将URL发送至各节点服务器;
各节点服务器中部署的爬虫程序依据URL读取模块发送的URL进行数据抓取,并将抓取的数据放入数据库。
进一步,爬虫程序将抓取的数据放入数据库之前还包括:
通过兼容处理模块将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式。
进一步,通过兼容处理模块将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式之前还包括:
判断爬虫程序抓取的数据是否放在缓存内,若是,则直接从缓存内将数据进行格式转化;
若否,则需要通过爬虫程序获取数据后再进行格式转化。
进一步,所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。
进一步,所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败,对应的URL将被重新放回URL队列中。
与现有技术相比,本技术方案具有以下优点:
本技术方案的数据刷新方法采用两个以上的节点服务器,能够多线程运行爬虫程序,提高数据获取效率,有效提高数据更新速度。通过URL读取模块,将URL分散均衡发送至各节点服务器,达到负载均衡,可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列,能够有效降低高并发量导致的系统崩溃。
附图说明
图1为本发明第一实施例中数据刷新系统的示意图;
图2为本发明第二实施例中数据刷新方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
第一实施例
参考图1,本实施例提供了一种数据刷新系统,包括:中央服务器、两个以上的节点服务器和数据库。
所述中央服务器包括:参数配置模块、URL队列生成模块和URL读取模块。
其中,参数配置模块用于设置请求参数。所述请求参数例如:需要获取苏州朗动网络科技有限公司的工商数据,则需要准备公司关键字:苏州朗动网络科技有限公司,公司所在省份:江苏等相关信息作为请求参数。
URL队列生成模块用于根据所述请求参数生成URL队列。也就是参数配置模块可以设置多组请求参数,以完成多组请求,对应的URL队列生成模块将生成多个URL,并形成队列。
URL读取模块用于读取URL队列内的URL,并将URL发送至各节点服务器。URL读取模块采用多线程方式不断从URL队列中读取URL,并将读取的URL分配到各节点服务器进行数据抓取。
所述节点服务器中部署有爬虫程序,所述爬虫程序依据URL读取模块发送的URL进行数据抓取,并将抓取的数据放入数据库。
在本实施例中,所述节点服务器的数量为3个,在其他实施例中也可以是两个,或者4个以上。
所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。以方便统计数据抓取的成功率和失败率,并可通过邮件发送给相关人员。
所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败,对应的URL将被重新放回URL队列中。这样可以再次进行数据抓取,防止信息抓取的遗漏。
所述数据库用于存储数据。
在本实施例中,数据刷新系统还包括兼容处理模块(未示出),所述兼容处理模块用于将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式。
在本实施例中,数据刷新系统还包括缓存(未示出),所述缓存用于存储所述爬虫程序抓取的数据,然后将该数据读入到数据库中。
有时爬虫程序从目标站抓取信息的速度很慢,通过先将抓取的数据放入缓存,有助于提高数据存入数据库的速度。
所述的数据刷新系统具有两个以上的节点服务器,能够多线程运行爬虫程序,提高数据获取效率,有效提高数据更新速度。通过URL读取模块,将URL分散均衡发送至各节点服务器,达到负载均衡,可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列,能够有效降低高并发量导致的系统崩溃。
第二实施例
参考图2,本实施例提供一种数据刷新方法,包括:
通过参数配置模块配置请求参数;
URL队列生成模块根据所述请求参数生成URL队列;
URL读取模块读取URL队列内的URL,并将URL发送至各节点服务器;
各节点服务器中部署的爬虫程序依据URL读取模块发送的URL进行数据抓取;
判断爬虫程序抓取的数据是否放在缓存内,若是,则直接从缓存内将数据进行格式转化;若否,则需要通过爬虫程序获取数据后再进行格式转化。
通过兼容处理模块将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式,并将抓取的数据放入数据库。
在具体实施例中,所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。
在具体实施例中,所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败,对应的URL将被重新放回URL队列中。
本技术方案的数据刷新方法采用两个以上的节点服务器,能够多线程运行爬虫程序,提高数据获取效率,有效提高数据更新速度。通过URL读取模块,将URL分散均衡发送至各节点服务器,达到负载均衡,可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列,能够有效降低高并发量导致的系统崩溃。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据刷新系统,其特征在于,包括:中央服务器、两个以上的节点服务器和数据库;
所述中央服务器包括:参数配置模块、URL队列生成模块、URL读取模块;
其中,参数配置模块用于设置请求参数;
URL队列生成模块用于根据所述请求参数生成URL队列;
URL读取模块用于读取URL队列内的URL,并将URL发送至各节点服务器;
所述节点服务器中部署有爬虫程序,所述爬虫程序依据URL读取模块发送的URL进行数据抓取,并将抓取的数据放入数据库;
所述数据库用于存储数据。
2.根据权利要求1所述的数据刷新系统,其特征在于,还包括:
兼容处理模块,所述兼容处理模块用于将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式。
3.根据权利要求1所述的数据刷新系统,其特征在于,还包括:
缓存,所述缓存用于存储所述爬虫程序抓取的数据,然后将该数据读入到数据库中。
4.根据权利要求1所述的数据刷新系统,其特征在于,所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。
5.根据权利要求1所述的数据刷新系统,其特征在于,所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败,对应的URL将被重新放回URL队列中。
6.一种数据刷新方法,其特征在于,包括:
通过参数配置模块配置请求参数;
URL队列生成模块根据所述请求参数生成URL队列;
URL读取模块读取URL队列内的URL,并将URL发送至各节点服务器;
各节点服务器中部署的爬虫程序依据URL读取模块发送的URL进行数据抓取,并将抓取的数据放入数据库。
7.根据权利要求6所述的数据刷新方法,其特征在于,爬虫程序将抓取的数据放入数据库之前还包括:
通过兼容处理模块将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式。
8.根据权利要求7所述的数据刷新方法,其特征在于,通过兼容处理模块将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式之前还包括:
判断爬虫程序抓取的数据是否放在缓存内,若是,则直接从缓存内将数据进行格式转化;
若否,则需要通过爬虫程序获取数据后再进行格式转化。
9.根据权利要求6所述的数据刷新方法,其特征在于,所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。
10.根据权利要求6所述的数据刷新方法,其特征在于,所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败,对应的URL将被重新放回URL队列中。
CN201710116830.4A 2017-03-01 2017-03-01 一种数据刷新系统及数据刷新方法 Pending CN107066530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710116830.4A CN107066530A (zh) 2017-03-01 2017-03-01 一种数据刷新系统及数据刷新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710116830.4A CN107066530A (zh) 2017-03-01 2017-03-01 一种数据刷新系统及数据刷新方法

Publications (1)

Publication Number Publication Date
CN107066530A true CN107066530A (zh) 2017-08-18

Family

ID=59621748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710116830.4A Pending CN107066530A (zh) 2017-03-01 2017-03-01 一种数据刷新系统及数据刷新方法

Country Status (1)

Country Link
CN (1) CN107066530A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506502A (zh) * 2017-10-10 2017-12-22 山东浪潮云服务信息科技有限公司 一种数据采集系统和数据采集方法
CN107657053A (zh) * 2017-10-17 2018-02-02 山东浪潮云服务信息科技有限公司 一种爬虫实现方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307467A1 (en) * 2010-06-10 2011-12-15 Stephen Severance Distributed web crawler architecture
CN102314463A (zh) * 2010-07-07 2012-01-11 北京瑞信在线系统技术有限公司 分布式爬虫系统及其提取网页数据的方法
CN102902669A (zh) * 2011-07-22 2013-01-30 同程网络科技股份有限公司 基于互联网系统的分布式信息抓取方法
CN103067521A (zh) * 2013-01-08 2013-04-24 中国科学院声学研究所 一种分布式爬虫集群中的节点和系统
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫系统
CN104199893A (zh) * 2014-08-25 2014-12-10 成都索贝数码科技股份有限公司 一种快速将全媒体内容发布的系统和方法
CN106385375A (zh) * 2015-07-31 2017-02-08 北京国双科技有限公司 用于消息队列的负载均衡方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307467A1 (en) * 2010-06-10 2011-12-15 Stephen Severance Distributed web crawler architecture
CN102314463A (zh) * 2010-07-07 2012-01-11 北京瑞信在线系统技术有限公司 分布式爬虫系统及其提取网页数据的方法
CN102902669A (zh) * 2011-07-22 2013-01-30 同程网络科技股份有限公司 基于互联网系统的分布式信息抓取方法
CN103067521A (zh) * 2013-01-08 2013-04-24 中国科学院声学研究所 一种分布式爬虫集群中的节点和系统
CN103310012A (zh) * 2013-07-02 2013-09-18 北京航空航天大学 一种分布式网络爬虫系统
CN104199893A (zh) * 2014-08-25 2014-12-10 成都索贝数码科技股份有限公司 一种快速将全媒体内容发布的系统和方法
CN106385375A (zh) * 2015-07-31 2017-02-08 北京国双科技有限公司 用于消息队列的负载均衡方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506502A (zh) * 2017-10-10 2017-12-22 山东浪潮云服务信息科技有限公司 一种数据采集系统和数据采集方法
CN107657053A (zh) * 2017-10-17 2018-02-02 山东浪潮云服务信息科技有限公司 一种爬虫实现方法及装置

Similar Documents

Publication Publication Date Title
CN104252536B (zh) 一种基于hbase的上网日志数据查询方法及装置
CN104778225B (zh) 一种非结构化数据多存储系统中同步数据的方法
CN107038162A (zh) 基于数据库日志的实时数据查询方法和系统
CN105677918A (zh) 一种基于Kafka和Quartz的分布式爬虫架构及其实现方法
CN105608188A (zh) 数据处理方法和数据处理装置
CN106951552A (zh) 一种基于Hadoop的用户行为数据处理方法
CN103268336A (zh) 一种快数据和大数据结合的数据处理方法及其系统
CN104111996A (zh) 基于hadoop平台的医保门诊大数据抽取系统及方法
CN101984421A (zh) 基于实时数据库的气象要素数据组织录入与查询方法
CN103914485A (zh) 一种远程收集和检索展示应用系统日志的系统及方法
CN104346458B (zh) 数据存储方法和存储设备
CN107317838A (zh) 一种基于流式数据处理架构的天文元数据归档方法及系统
CN110196847A (zh) 数据处理方法和装置、存储介质及电子装置
CN109391629A (zh) 轨道交通综合监控系统数据处理方法
CN201558116U (zh) 具有比对功能的人体生物信息一体化采集系统
CN103761262A (zh) 基于syslogd的重复日志控制方法
CN103324763A (zh) 一种手机端树形数据结构的展现方法
CN107066530A (zh) 一种数据刷新系统及数据刷新方法
CN106777387A (zh) 一种基于HBase的物联网大数据存取方法
CN110399351A (zh) 审计日志数据的处理方法与系统
CN102012946A (zh) 一种高效的安全监控视频/图像数据存储方法
CN105787090A (zh) 一种电力数据的olap系统的索引建立方法和系统
WO2020024798A1 (zh) 一种时序数据的高效存储方法
CN102937956A (zh) 一种智能变电站中实时报文的存储方法及其装置
CN103281383B (zh) 一种面向分布式数据源的时序信息记录方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818