CN107066530A

CN107066530A - 一种数据刷新系统及数据刷新方法

Info

Publication number: CN107066530A
Application number: CN201710116830.4A
Authority: CN
Inventors: 邓会林; 王杰; 王金虎
Original assignee: Suzhou Long Mobile Network Technology Co Ltd
Current assignee: Suzhou Long Mobile Network Technology Co Ltd
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2017-08-18

Abstract

本发明公开了一种数据刷新系统及数据刷新方法，其中的数据刷新系统包括中央服务器、两个以上的节点服务器和数据库；中央服务器包括：参数配置模块、URL队列生成模块、URL读取模块；参数配置模块设置请求参数；URL队列生成模块根据请求参数生成URL队列；URL读取模块读取URL队列内的URL，并将URL发送至各节点服务器；节点服务器中部署有爬虫程序，爬虫程序依据URL进行数据抓取，并将抓取的数据放入数据库。本发明提供的数据刷新系统具有两个以上的节点服务器，能够有效提高数据更新速度。通过URL读取模块，将URL分散均衡发送至各节点服务器，可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列，能够有效降低高并发量导致的系统崩溃。

Description

一种数据刷新系统及数据刷新方法

技术领域

本发明涉及计算机领域，特别涉及一种数据刷新系统及数据刷新方法。

背景技术

互联网的出现使得信息的获取变得便捷而高效，有时候我们不仅需要获取相关信息，而且我们还要求获取最新的信息。因此，需要有一种技术能够实现从目标站抓取更新后的数据，并将更新的数据放入到预先设定的数据库中，以方便查询和利用。

现有技术中，这种功能的实现是利用爬虫技术从目标站上抓取更新后的数据，然后将抓取的数据放入到设定的数据库。

但是现有技术中存在的问题是处理数据慢，且对服务器的要求很高，不适合进行大批量的数据刷新。

发明内容

本发明的目的在于解决现有技术中数据刷新系统处理数据慢，且对服务器的要求很高，不适合进行大批量的数据刷新。

为实现上述目的，本发明提供一种数据刷新系统，包括：中央服务器、两个以上的节点服务器和数据库；

所述中央服务器包括：参数配置模块、URL队列生成模块、URL读取模块；

其中，参数配置模块用于设置请求参数；

URL队列生成模块用于根据所述请求参数生成URL队列；

URL读取模块用于读取URL队列内的URL，并将URL发送至各节点服务器；

所述节点服务器中部署有爬虫程序，所述爬虫程序依据URL读取模块发送的URL进行数据抓取，并将抓取的数据放入数据库；

所述数据库用于存储数据。

进一步，还包括：

兼容处理模块，所述兼容处理模块用于将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式。

进一步，还包括：

缓存，所述缓存用于存储所述爬虫程序抓取的数据，然后将该数据读入到数据库中。

进一步，所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。

进一步，所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败，对应的URL将被重新放回URL队列中。

与现有技术相比，本技术方案具有以下优点：

本发明提供的数据刷新系统具有两个以上的节点服务器，能够多线程运行爬虫程序，提高数据获取效率，有效提高数据更新速度。通过URL读取模块，将URL分散均衡发送至各节点服务器，达到负载均衡，可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列，能够有效降低高并发量导致的系统崩溃。

本发明还提供一种数据刷新方法，包括：

通过参数配置模块配置请求参数；

URL队列生成模块根据所述请求参数生成URL队列；

URL读取模块读取URL队列内的URL，并将URL发送至各节点服务器；

各节点服务器中部署的爬虫程序依据URL读取模块发送的URL进行数据抓取，并将抓取的数据放入数据库。

进一步，爬虫程序将抓取的数据放入数据库之前还包括：

通过兼容处理模块将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式。

进一步，通过兼容处理模块将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式之前还包括：

判断爬虫程序抓取的数据是否放在缓存内，若是，则直接从缓存内将数据进行格式转化；

若否，则需要通过爬虫程序获取数据后再进行格式转化。

与现有技术相比，本技术方案具有以下优点：

本技术方案的数据刷新方法采用两个以上的节点服务器，能够多线程运行爬虫程序，提高数据获取效率，有效提高数据更新速度。通过URL读取模块，将URL分散均衡发送至各节点服务器，达到负载均衡，可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列，能够有效降低高并发量导致的系统崩溃。

附图说明

图1为本发明第一实施例中数据刷新系统的示意图；

图2为本发明第二实施例中数据刷新方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

第一实施例

参考图1，本实施例提供了一种数据刷新系统，包括：中央服务器、两个以上的节点服务器和数据库。

所述中央服务器包括：参数配置模块、URL队列生成模块和URL读取模块。

其中，参数配置模块用于设置请求参数。所述请求参数例如：需要获取苏州朗动网络科技有限公司的工商数据，则需要准备公司关键字：苏州朗动网络科技有限公司，公司所在省份：江苏等相关信息作为请求参数。

URL队列生成模块用于根据所述请求参数生成URL队列。也就是参数配置模块可以设置多组请求参数，以完成多组请求，对应的URL队列生成模块将生成多个URL，并形成队列。

URL读取模块用于读取URL队列内的URL，并将URL发送至各节点服务器。URL读取模块采用多线程方式不断从URL队列中读取URL，并将读取的URL分配到各节点服务器进行数据抓取。

所述节点服务器中部署有爬虫程序，所述爬虫程序依据URL读取模块发送的URL进行数据抓取，并将抓取的数据放入数据库。

在本实施例中，所述节点服务器的数量为3个，在其他实施例中也可以是两个，或者4个以上。

所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。以方便统计数据抓取的成功率和失败率，并可通过邮件发送给相关人员。

所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败，对应的URL将被重新放回URL队列中。这样可以再次进行数据抓取，防止信息抓取的遗漏。

所述数据库用于存储数据。

在本实施例中，数据刷新系统还包括兼容处理模块(未示出)，所述兼容处理模块用于将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式。

在本实施例中，数据刷新系统还包括缓存(未示出)，所述缓存用于存储所述爬虫程序抓取的数据，然后将该数据读入到数据库中。

有时爬虫程序从目标站抓取信息的速度很慢，通过先将抓取的数据放入缓存，有助于提高数据存入数据库的速度。

所述的数据刷新系统具有两个以上的节点服务器，能够多线程运行爬虫程序，提高数据获取效率，有效提高数据更新速度。通过URL读取模块，将URL分散均衡发送至各节点服务器，达到负载均衡，可以有效降低节点服务器的运行压力。URL队列生成模块用于生成URL队列，能够有效降低高并发量导致的系统崩溃。

第二实施例

参考图2，本实施例提供一种数据刷新方法，包括：

通过参数配置模块配置请求参数；

URL队列生成模块根据所述请求参数生成URL队列；

各节点服务器中部署的爬虫程序依据URL读取模块发送的URL进行数据抓取；

判断爬虫程序抓取的数据是否放在缓存内，若是，则直接从缓存内将数据进行格式转化；若否，则需要通过爬虫程序获取数据后再进行格式转化。

通过兼容处理模块将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式，并将抓取的数据放入数据库。

在具体实施例中，所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。

在具体实施例中，所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败，对应的URL将被重新放回URL队列中。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据刷新系统，其特征在于，包括：中央服务器、两个以上的节点服务器和数据库；

其中，参数配置模块用于设置请求参数；

URL队列生成模块用于根据所述请求参数生成URL队列；

所述数据库用于存储数据。

2.根据权利要求1所述的数据刷新系统，其特征在于，还包括：

3.根据权利要求1所述的数据刷新系统，其特征在于，还包括：

4.根据权利要求1所述的数据刷新系统，其特征在于，所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。

5.根据权利要求1所述的数据刷新系统，其特征在于，所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败，对应的URL将被重新放回URL队列中。

6.一种数据刷新方法，其特征在于，包括：

通过参数配置模块配置请求参数；

URL队列生成模块根据所述请求参数生成URL队列；

7.根据权利要求6所述的数据刷新方法，其特征在于，爬虫程序将抓取的数据放入数据库之前还包括：

8.根据权利要求7所述的数据刷新方法，其特征在于，通过兼容处理模块将爬虫程序抓取的数据的格式转化为数据库可兼容的数据格式之前还包括：

若否，则需要通过爬虫程序获取数据后再进行格式转化。

9.根据权利要求6所述的数据刷新方法，其特征在于，所述爬虫程序依据URL读取模块发送的URL进行数据抓取的状态以日志的形式记录保持。

10.根据权利要求6所述的数据刷新方法，其特征在于，所述爬虫程序依据URL读取模块发送的URL进行数据抓取若失败，对应的URL将被重新放回URL队列中。