CN106506673A

CN106506673A - 一种大规模分布式数据管理系统及其方法

Info

Publication number: CN106506673A
Application number: CN201611055775.4A
Authority: CN
Inventors: 王亚松; 刘希; 常子青
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2017-03-15
Anticipated expiration: 2036-11-25
Also published as: CN106506673B

Abstract

本发明提供一种大规模分布式数据管理系统及其方法。该系统包括爬虫端、数据收集服务器、主控制器、分布式存储服务器和业务端，爬虫端和业务端分别与数据收集服务器进行数据交互，其中，爬虫端根据主控制器的指令来抓取网页数据并向数据收集服务器发送；数据收集服务器用于将爬虫端发送的数据整合之后上传至分布式存储服务器，并将数据发送给业务端；主控制器用于管理爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定爬虫端和业务端的身份合法性，根据预定的分配规则为爬虫端分布相适配的数据收集服务器，当数据达到相适配的数据收集服务器的存储预设值时，主控制器控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。

Description

一种大规模分布式数据管理系统及其方法

技术领域

本发明涉及一种数据管理系统，具体涉及大规模分布式数据管理系统及其方法。

背景技术

随着网络技术的大力发展，通过互联网获取数据已成为当前人们获取信息资源的重要途径。采用网络爬虫获取数据已成为主流的获取手段，然而，由于多个爬虫同时爬取数据，并将爬取的数据发送到一个接口中，如此之大规模的数据量会占用相当大的网络资源，而且由于爬虫的身份没有得到验证，会导致不必要的网络污染，这会浪费大量的网络资源和使得数据传送不安全。

发明内容

针对上述技术问题，本发明提供一种能有效避免资源浪费和保证数据安全传送的大规模分布式数据管理系统。

本发明采用的技术方案为：

本发明的一实施例提供一种大规模分布式数据管理系统，包括爬虫端、数据收集服务器、主控制器、分布式存储服务器和业务端，所述爬虫端和所述业务端分别与所述数据收集服务器进行数据交互，其中，所述爬虫端根据所述主控制器的指令来抓取网页数据并向数据收集服务器发送；所述数据收集服务器用于将爬虫端发送的数据整合之后上传至所述分布式存储服务器，并根据所述业务端发送的请求指令将相对应的数据发送给所述业务端；所述主控制器用于管理所述爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定所述爬虫端和所述业务端的身份合法性，根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器，当所述爬虫端爬取的数据达到相适配的数据收集服务器的存储预设值时，所述主控制器控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。

可选地，所述数据收集服务器设置有数据清洗模块，其中，所述数据清理模块用于对爬取的数据进行清理，使得经清理后的数据形成标准的数据包；所述数据清理模块包括：数据清洗单元，用于过滤或者修改不符合业务端要求的数据；数据整理单元，用于根据业务端的需求对爬取的网页数据进行重新整合，使得整合后的数据与业务端的需求之间具有更高的相关性。

可选地，所述主控制器在所述爬虫端获得其认证授权后，根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器；所述爬虫端在获得所述数据收集服务器的认证授权后，向相适配的数据收集服务器发送所爬取的数据；以及所述数据收集服务器在所述业务端获得认证授权后，向所述业务端发送响应请求指令的数据包。

可选地，当所述爬虫端爬取的数据大小达到预设阈值时，所述主控制器控制所述爬虫端向相适配的数据收集服务器传送数据；当所述爬虫端爬取的数据大小未达到预设阈值时，所爬取的数据暂时存放在缓存器中。

可选地，所述预定的分配规则为负载均衡算法；所述不符合业务端要求的数据包括不完整的数据、错误的数据和重复的数据。

可选地，所述根据业务端的需求对爬取的网页数据进行重新整合包括：将数据进行分割以获取指定行数的目标数据、满足指定条件的目标数据和只包含指定列编号的目标数据；将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表；以及将数据进行格式转换，以将包括时间的复杂类型从原始字符串格式转换为目标字符串格式。

可选地，所述分布式存储服务器包括用于存储结构化数据的结构化数据存储器和用于存储非结构化数据的非结构化数据存储器。

本发明的另一实施例提供一种大规模分布式数据管理方法，包括：

S100：多个爬虫端基于主控制器的爬取指令爬取数据；

S200：主控制器根据预定的分配规则为所述爬虫端爬取的数据分配相适配的数据收集服务器，并在爬虫端爬取的数据达到数据收集服务器的存储预设值时，控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据；

S300：所述数据收集服务器对所接收的数据进行清理操作，使得经清理后的数据形成标准的数据包，并根据业务端发送的请求指令将所述数据包发送给所述业务端。

可选地，步骤S200具体包括：

主控制器根据负载均衡算法为爬虫端爬取的数据分配相适配的数据收集服务器，主控制器根据负载均衡算法为爬虫端爬取的数据分配相适配的数据收集服务器，当所述爬虫端爬取的数据大小未达到预设阈值时，主控制器将所爬取的数据暂时存放在缓存器中。

可选地，步骤S300中，对所接收的数据进行清理操作包括：过滤或者修改不符合业务端要求的数据；根据业务端的需求对爬取的网页数据进行重新整合，使得整合后的数据与业务端的需求之间具有更高的相关性。

可选地，在步骤S100中，所述主控制器在所述爬虫端获得其认证授权后，根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器；在步骤S200中，所述爬虫端在获得所述数据收集服务器的认证授权后，向相适配的数据收集服务器发送所爬取的数据；以及在步骤S300中，所述数据收集服务器在所述业务端获得认证授权后，向所述业务端发送响应请求指令的数据包。

本发明提供的大规模分布式数据管理系统，在对爬虫端和业务端的身份进行验证后才允许爬虫端向数据收集服务器发送数据，以及允许数据收集服务器向业务端发送数据，如此保证了数据传送的安全性，进而保证整个系统数据的输入输出都是有效的。并且，只有在爬虫端爬取的数据内存达到一定值后才存入数据收集服务器中，从而减少了系统的负担。此外，设置多个数据收集服务器，为爬虫端分配相适配的数据接收端口，保证系统的负载均衡，既解决了单点故障问题，又提高了吞吐量。

附图说明

图1为本发明实施例提供的大规模分布式数据管理系统的结构示意图。

图2为本发明实施例提供的大规模分布式数据管理方法的流程示意图。

具体实施方式

以下结合附图对本发明的大规模分布式数据管理系统的具体实施方式进行介绍。

【实施例1】大规模分布式数据管理系统

图1为本发明实施例提供的大规模分布式数据管理系统的结构示意图。如图1所示，本发明的实施例提供的一种大规模分布式数据管理系统，包括多个爬虫端1、缓存器2、多个数据收集服务器3、分布式存储服务器4、主控制器5和业务端6。所述爬虫端1和所述业务端6分别与所述数据收集服务器3进行数据交互。

其中，所有爬虫端1均受所述主控制器5的控制，在主控制器5的控制下保持同步，并根据所述主控制器5的指令来抓取网页数据并向数据收集服务器3发送。具体地，爬虫端1的数目可根据具体实际情况来设置，例如，根据需要可设置约400个爬虫端来分别向400个网站爬取数据，每个爬虫端以公用的Redis内存数据库作为统一的URL调度器，以插件式的形式安装在爬虫端上；或者采用实现分布式的部署，直接将相应的程序jar包部署在每台机器上，启动运行即可。每个爬虫端的具体URL调度将会由Redis服务器进行集中式的管理，保证数据不重复爬取。这样的实现能够保证每个爬虫之间耦合度低，不相互依赖，部署简单，爬取速度快。主控制器5可实时控制爬虫端1的运行状态和监控爬虫端1的运行状况，做到实时监测实时报警处理，全方位控制爬虫，满足各方面业务需求。

所述数据收集服务器3用于将爬虫端1发送的数据整合之后周期性地上传至所述分布式存储服务器4，供有离线数据需求的业务使用，并根据所述业务端6发送的请求指令将相对应的数据发送给所述业务端6。数据收集服务器3可根据需要设置多个，既能够解决采用单一数据接口而导致的单点故障问题，又提高了数据吞吐量。分布式存储服务器4可包括用于存储结构化数据的结构化数据存储器和用于存储非结构化数据的非结构化数据存储器。对于结构化数据，包括传统的关系数据模型、行数据，存储于数据库，可用二维表结构表示的数据等可采用Hbase进行存储，对于非结构化数据，包括办公文档、文本、图片、各类报表、图像和音频、视频信息等没有固定结构的数据等可采用HDFS进行存储。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写，为分布式计算存储提供了底层支持。HDFS提供了相当好的扩展性和容错能力，并且建设成本低廉，使用HDFS弹性存储可以实现自动控制，灵活地进行存储空间的释放和分配，以适应快速变化的需求。

所述主控制器5用于管理所述爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定所述爬虫端1和所述业务端6的身份合法性，根据预定的分配规则为所述爬虫端分布相适配的数据收集服务器，当所述爬虫端1爬取的网页数据大小达到预设值时，所述主控制器5控制所述爬虫端向相适配的数据收集服务器3发送所爬取的网页数据，爬虫端爬取的小于预设值的网页数据暂时存放在缓存器(未图示)中，并在爬虫端爬取的数据达到数据收集服务器存储预设值时，主控制器控制爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据，以确保负载均衡。爬虫端1爬取的数据以单条(或单个网页)论都是零碎繁多的小段数据，如果每产生一点数据就进行传送，必然效率低下，因此，为减轻系统负担，只有当爬虫数据达到预设值，例如64MB时才进行传送，小于预设值的网页数据暂时存放在缓存器中。此外，爬虫端1发送数据和业务端6拉取数据都需要通过身份验证之后才能进行，以保证数据传送安全性，具体地，所述主控制器在所述爬虫端获得其认证授权后，根据预定的分配规则为所述爬虫端分布相适配的数据收集服务器；所述爬虫端在获得所述数据收集服务器的认证授权后，向相适配的数据收集服务器发送所爬取的网页数据；以及所述数据收集服务器在所述业务端获得其认证授权后，向所述业务端发送响应请求指令的数据。如此，能够确保数据传送的安全性和合法性。

关于爬虫端向数据收集服务器发送数据以及数据收集服务器向业务端发送数据的主要操作包括以下内容：

(1)认证及数据的传输。爬虫端必须先向数据收集服务器发送认证信息，经数据收集服务器验证合法后才能开始向数据收集服务器传输数据。

(2)爬虫端的注册。爬虫端必须向主控制器进行注册，由主控制器根据预定的分配原则为该爬虫端分配合适的数据收集服务器。预定的分配原则可采用经典负载均衡算法中的Least-Busy，将新增设的爬虫端分配给负载最小的数据收集服务器，以保证系统的负载均衡。

(3)业务端的注册及分发。通过业务端的注册，为系统的业务状态的获取和数据收集服务器负载计算提供必要信息。

(4)数据收集服务器向业务端的数据发送。业务端先向数据收集服务器发起认证请求，数据收集服务器确认业务端身份合法后，向其发起数据连接并发送相对应的数据。

(5)每个数据收集服务器向主控制器发送“心跳”，主要是自身负载情况，这是主控制器负载决策的主要信息提供者；此外，数据收集服务器必须向主控制器确认爬虫端或者业务端的认证是否合法，如果不合法，则拒绝接收或发送数据。

由于爬虫爬取的数据往往有许多存在信息不全、有脏数据、数据冗余等问题，直接使用将会影响分析结果的可信度和准确性，故而通常还需要经过一步数据清洗；另一方面，由于数据使用者的业务方向与数据来源不可能百分百的完全契合，就会导致围绕业务开发的算法分析如果直接应用在来源数据上效果模糊，或无效运算量过大导致效率偏低，因此，需要针对业务需求进行数据整理。为此，可选地，所述数据收集服务器3设置有数据清洗模块，其中，所述数据清理模块用于对爬取的网页数据进行清理，包括：数据清单元，用于过滤或者修改不符合业务端要求的数据；数据整理单元，用于根据业务端的需求对爬取的网页数据进行重新整合，使得整合后的数据与业务端的需求之间具有更高的相关性。

其中，不符合业务端要求的数据主要包括不完整的数据、错误的数据和重复的数据，不完整数据的特征是一些应该有的信息缺失，如机构名称、分公司的名称、区域信息缺失等。错误数据产生的原因是业务系统不够健全，在接收输入后没有进行判断而直接写入后台数据库造成的，比如数值数据输成全角数字字符、字符串数据后有一个回车、日期格式不正确、日期越界等。错误值包括输入错误和错误数据，输入错误是由原始数据录入人员疏忽而造成的，而错误数据大多是由一些客观原因引起的，例如人员填写的所属单位的不同和人员的升迁等。针对不完整数据可提供多种策略进行灵活处理，用户可以自行配置清理策略的细节，主要包括数据补全和过分残缺数据的剔除，其中数据补全主要通过对字段的缺省值配置策略实现，包含的策略主要有：字段均值补全(对数值型字段以该字段的总体均值对缺失数据进行补全)、半监督学习补全(通过对数据总体以及残缺数据其它字段的分析，运用机器学习算法对缺失字段进行猜测性补全，系统内置的补全算法为Cart分类回归树算法。异常数据是指所有记录中如果一个或几个字段间绝大部分遵循某种模式，其它不遵循该模式的记录，如年龄字段超过历史上的最高记录年龄等。此类数据大多可以通过数据分析的方法检测出来，系统内置的异常数据检测算法为基于密度的DBSCAN聚类算法，通过聚类分析确定各点周围的密度空间，密度过稀的点即为异常点。

根据业务端的需求对爬取的网页数据进行重新整合包括：将数据进行分割以获取指定行数的目标数据、满足满足指定条件的目标数据和只包含指定列编号的目标数据；将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表；以及将数据进行格式转换，包括基本类型转换，用以以将时间等复杂类型从原始字符串格式转换为目标字符串格式，以及元组和列表互转，多对应关系数据大体存在元组和列表两种格式，改变格式可适应不同算法需求。数据整理单元根据业务需求对现有数据进行重新整合，使整合后的数据与目标业务相关性更高，进而减少无用IO或运算，提高算法效率。

【实施例2】大规模分布式数据管理方法

图2为本发明实施例提供的大规模分布式数据管理方法的流程示意图。如图2所示，本实施例提供的大规模分布式数据管理方法包括以下步骤：

S100：多个爬虫端基于主控制器的爬取指令爬取数据。

具体地，所有爬虫端均受所述主控制器的控制，在主控制器的控制下保持同步，并根据所述主控制器的指令来抓取网页数据并向数据收集服务器发送。

S200：主控制器根据预定的分配规则为所述爬虫端爬取的数据分配相适配的数据收集服务器，并在爬虫端爬取的数据达到数据收集服务器的存储预设值时，控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。

具体地，主控制器可根据负载均衡算法为爬虫端爬取的数据分配相适配的数据收集服务器；当所述爬虫端爬取的数据大小达到预设阈值时，所述主控制器控制所述爬虫端向相适配的数据收集服务器传送数据，并在爬虫端爬取的数据达到数据收集服务器的存储预设值时，控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。

S300：所述数据收集服务器对所接收的数据进行清理操作，并将清理后的数据形成标准的数据包，并将所述数据包根据业务端发送的请求指令发送给所述业务端。

在步骤S300中，对所接收的数据进行清理操作包括：过滤或者修改不符合业务端要求的数据；根据业务端的需求对爬取的网页数据进行重新整合，使得整合后的数据与业务端的需求之间具有更高的相关性，具体包括：将数据进行分割以获取指定行数的目标数据、满足指定条件的目标数据和只包含指定列编号的目标数据；将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表；以及将数据进行格式转换，以将时间等复杂类型从原始字符串格式转换为目标字符串格式。此外，数据收集服务器在处理后的数据上传至分布式存储服务器进行存储，分布式存储服务器可包括用于存储结构化数据的结构化数据存储器和用于存储非结构化数据的非结构化数据存储器。

此外，在步骤S100中，所述主控制器在所述爬虫端获得其认证授权后，根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器；在步骤S200中，所述爬虫端在获得所述数据收集服务器的认证授权后，向相适配的数据收集服务器发送所爬取的数据；以及在步骤S300中，所述数据收集服务器在所述业务端获得认证授权后，向所述业务端发送响应请求指令的数据包。具体的授权操作和数据传送操作与前述实施例1相同，在此，为避免赘述，省略对它们的详细介绍。

此外，在本实施例中，没有描述的所涉及的各部件的结构和功能等均与前述实施例1所描述的相同，在此避免赘述，省略对它们的详细介绍。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种大规模分布式数据管理系统，其特征在于，包括爬虫端、数据收集服务器、主控制器、分布式存储服务器和业务端，所述爬虫端和所述业务端分别与所述数据收集服务器进行数据交互，其中，所述爬虫端根据所述主控制器的指令来抓取网页数据并向数据收集服务器发送；所述数据收集服务器用于将爬虫端发送的数据整合之后上传至所述分布式存储服务器，并根据所述业务端发送的请求指令将相对应的数据发送给所述业务端；所述主控制器用于管理所述爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定所述爬虫端和所述业务端的身份合法性，根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器，当所述爬虫端爬取的数据达到相适配的数据收集服务器的存储预设值时，所述主控制器控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。

2.根据权利要求1所述的大规模分布式数据管理系统，其特征在于，所述数据收集服务器设置有数据清洗模块，其中，所述数据清理模块用于对爬取的数据进行清理，使得经清理后的数据形成标准的数据包；

所述数据清理模块包括：数据清洗单元，用于过滤或者修改不符合业务端要求的数据；数据整理单元，用于根据业务端的需求对爬取的网页数据进行重新整合，使得整合后的数据与业务端的需求之间具有更高的相关性。

3.根据权利要求2所述的大规模分布式数据管理系统，其特征在于，所述主控制器在所述爬虫端获得其认证授权后，根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器；

所述爬虫端在获得所述数据收集服务器的认证授权后，向相适配的数据收集服务器发送所爬取的数据；以及

所述数据收集服务器在所述业务端获得认证授权后，向所述业务端发送响应请求指令的数据包。

4.根据权利要求1所述的大规模分布式数据管理系统，其特征在于，当所述爬虫端爬取的数据大小达到预设阈值时，所述主控制器控制所述爬虫端向相适配的数据收集服务器传送数据；

当所述爬虫端爬取的数据大小未达到预设阈值时，所爬取的数据暂时存放在缓存器中。

5.根据权利要求2所述的大规模分布式数据管理系统，其特征在于，

所述预定的分配规则为负载均衡算法；

所述不符合业务端要求的数据包括不完整的数据、错误的数据和重复的数据。

6.根据权利要求2所述的大规模分布式数据管理系统，其特征在于，所述根据业务端的需求对爬取的网页数据进行重新整合包括：将数据进行分割以获取指定行数的目标数据、满足指定条件的目标数据和只包含指定列编号的目标数据；将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表；以及将数据进行格式转换，以将包括时间的复杂类型从原始字符串格式转换为目标字符串格式。

7.根据权利要求1所述的大规模分布式数据管理系统，其特征在于，所述分布式存储服务器包括用于存储结构化数据的结构化数据存储器和用于存储非结构化数据的非结构化数据存储器。

8.一种大规模分布式数据管理方法，其特征在于，包括：

S100：多个爬虫端基于主控制器的爬取指令爬取数据；

9.根据权利要求8所述的大规模分布式数据管理方法，其特征在于，步骤S200具体包括：

主控制器根据负载均衡算法为爬虫端爬取的数据分配相适配的数据收集服务器，当所述爬虫端爬取的数据大小未达到预设阈值时，主控制器将所爬取的数据暂时存放在缓存器中。

10.根据权利要求9所述的大规模分布式数据管理方法，其特征在于，

步骤S300中，对所接收的数据进行清理操作包括：过滤或者修改不符合业务端要求的数据；根据业务端的需求对爬取的网页数据进行重新整合，使得整合后的数据与业务端的需求之间具有更高的相关性。

11.根据权利要求10所述的大规模分布式数据管理方法，其特征在于，在步骤S100中，所述主控制器在所述爬虫端获得其认证授权后，根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器；

在步骤S200中，所述爬虫端在获得所述数据收集服务器的认证授权后，向相适配的数据收集服务器发送所爬取的数据；以及

在步骤S300中，所述数据收集服务器在所述业务端获得认证授权后，向所述业务端发送响应所述请求指令的数据包。

12.根据权利要求10所述的大规模分布式数据管理方法，其特征在于，所述根据业务端的需求对爬取的网页数据进行重新整合包括：将数据进行分割以获取指定行数的目标数据、满足指定条件的目标数据和只包含指定列编号的目标数据；将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表；以及将数据进行格式转换，以将包括时间的复杂类型从原始字符串格式转换为目标字符串格式。