CN106506673A - 一种大规模分布式数据管理系统及其方法 - Google Patents

一种大规模分布式数据管理系统及其方法 Download PDF

Info

Publication number
CN106506673A
CN106506673A CN201611055775.4A CN201611055775A CN106506673A CN 106506673 A CN106506673 A CN 106506673A CN 201611055775 A CN201611055775 A CN 201611055775A CN 106506673 A CN106506673 A CN 106506673A
Authority
CN
China
Prior art keywords
data
reptile
collection server
data collection
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611055775.4A
Other languages
English (en)
Other versions
CN106506673B (zh
Inventor
王亚松
刘希
常子青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin Youe Data Co Ltd
Original Assignee
Guoxin Youe Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoxin Youe Data Co Ltd filed Critical Guoxin Youe Data Co Ltd
Priority to CN201611055775.4A priority Critical patent/CN106506673B/zh
Publication of CN106506673A publication Critical patent/CN106506673A/zh
Application granted granted Critical
Publication of CN106506673B publication Critical patent/CN106506673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种大规模分布式数据管理系统及其方法。该系统包括爬虫端、数据收集服务器、主控制器、分布式存储服务器和业务端,爬虫端和业务端分别与数据收集服务器进行数据交互,其中,爬虫端根据主控制器的指令来抓取网页数据并向数据收集服务器发送;数据收集服务器用于将爬虫端发送的数据整合之后上传至分布式存储服务器,并将数据发送给业务端;主控制器用于管理爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定爬虫端和业务端的身份合法性,根据预定的分配规则为爬虫端分布相适配的数据收集服务器,当数据达到相适配的数据收集服务器的存储预设值时,主控制器控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。

Description

一种大规模分布式数据管理系统及其方法
技术领域
本发明涉及一种数据管理系统,具体涉及大规模分布式数据管理系统及其方法。
背景技术
随着网络技术的大力发展,通过互联网获取数据已成为当前人们获取信息资源的重要途径。采用网络爬虫获取数据已成为主流的获取手段,然而,由于多个爬虫同时爬取数据,并将爬取的数据发送到一个接口中,如此之大规模的数据量会占用相当大的网络资源,而且由于爬虫的身份没有得到验证,会导致不必要的网络污染,这会浪费大量的网络资源和使得数据传送不安全。
发明内容
针对上述技术问题,本发明提供一种能有效避免资源浪费和保证数据安全传送的大规模分布式数据管理系统。
本发明采用的技术方案为:
本发明的一实施例提供一种大规模分布式数据管理系统,包括爬虫端、数据收集服务器、主控制器、分布式存储服务器和业务端,所述爬虫端和所述业务端分别与所述数据收集服务器进行数据交互,其中,所述爬虫端根据所述主控制器的指令来抓取网页数据并向数据收集服务器发送;所述数据收集服务器用于将爬虫端发送的数据整合之后上传至所述分布式存储服务器,并根据所述业务端发送的请求指令将相对应的数据发送给所述业务端;所述主控制器用于管理所述爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定所述爬虫端和所述业务端的身份合法性,根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器,当所述爬虫端爬取的数据达到相适配的数据收集服务器的存储预设值时,所述主控制器控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。
可选地,所述数据收集服务器设置有数据清洗模块,其中,所述数据清理模块用于对爬取的数据进行清理,使得经清理后的数据形成标准的数据包;所述数据清理模块包括:数据清洗单元,用于过滤或者修改不符合业务端要求的数据;数据整理单元,用于根据业务端的需求对爬取的网页数据进行重新整合,使得整合后的数据与业务端的需求之间具有更高的相关性。
可选地,所述主控制器在所述爬虫端获得其认证授权后,根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器;所述爬虫端在获得所述数据收集服务器的认证授权后,向相适配的数据收集服务器发送所爬取的数据;以及所述数据收集服务器在所述业务端获得认证授权后,向所述业务端发送响应请求指令的数据包。
可选地,当所述爬虫端爬取的数据大小达到预设阈值时,所述主控制器控制所述爬虫端向相适配的数据收集服务器传送数据;当所述爬虫端爬取的数据大小未达到预设阈值时,所爬取的数据暂时存放在缓存器中。
可选地,所述预定的分配规则为负载均衡算法;所述不符合业务端要求的数据包括不完整的数据、错误的数据和重复的数据。
可选地,所述根据业务端的需求对爬取的网页数据进行重新整合包括:将数据进行分割以获取指定行数的目标数据、满足指定条件的目标数据和只包含指定列编号的目标数据;将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表;以及将数据进行格式转换,以将包括时间的复杂类型从原始字符串格式转换为目标字符串格式。
可选地,所述分布式存储服务器包括用于存储结构化数据的结构化数据存储器和用于存储非结构化数据的非结构化数据存储器。
本发明的另一实施例提供一种大规模分布式数据管理方法,包括:
S100:多个爬虫端基于主控制器的爬取指令爬取数据;
S200:主控制器根据预定的分配规则为所述爬虫端爬取的数据分配相适配的数据收集服务器,并在爬虫端爬取的数据达到数据收集服务器的存储预设值时,控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据;
S300:所述数据收集服务器对所接收的数据进行清理操作,使得经清理后的数据形成标准的数据包,并根据业务端发送的请求指令将所述数据包发送给所述业务端。
可选地,步骤S200具体包括:
主控制器根据负载均衡算法为爬虫端爬取的数据分配相适配的数据收集服务器,主控制器根据负载均衡算法为爬虫端爬取的数据分配相适配的数据收集服务器,当所述爬虫端爬取的数据大小未达到预设阈值时,主控制器将所爬取的数据暂时存放在缓存器中。
可选地,步骤S300中,对所接收的数据进行清理操作包括:过滤或者修改不符合业务端要求的数据;根据业务端的需求对爬取的网页数据进行重新整合,使得整合后的数据与业务端的需求之间具有更高的相关性。
可选地,在步骤S100中,所述主控制器在所述爬虫端获得其认证授权后,根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器;在步骤S200中,所述爬虫端在获得所述数据收集服务器的认证授权后,向相适配的数据收集服务器发送所爬取的数据;以及在步骤S300中,所述数据收集服务器在所述业务端获得认证授权后,向所述业务端发送响应请求指令的数据包。
可选地,所述根据业务端的需求对爬取的网页数据进行重新整合包括:将数据进行分割以获取指定行数的目标数据、满足指定条件的目标数据和只包含指定列编号的目标数据;将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表;以及将数据进行格式转换,以将包括时间的复杂类型从原始字符串格式转换为目标字符串格式。
本发明提供的大规模分布式数据管理系统,在对爬虫端和业务端的身份进行验证后才允许爬虫端向数据收集服务器发送数据,以及允许数据收集服务器向业务端发送数据,如此保证了数据传送的安全性,进而保证整个系统数据的输入输出都是有效的。并且,只有在爬虫端爬取的数据内存达到一定值后才存入数据收集服务器中,从而减少了系统的负担。此外,设置多个数据收集服务器,为爬虫端分配相适配的数据接收端口,保证系统的负载均衡,既解决了单点故障问题,又提高了吞吐量。
附图说明
图1为本发明实施例提供的大规模分布式数据管理系统的结构示意图。
图2为本发明实施例提供的大规模分布式数据管理方法的流程示意图。
具体实施方式
以下结合附图对本发明的大规模分布式数据管理系统的具体实施方式进行介绍。
【实施例1】大规模分布式数据管理系统
图1为本发明实施例提供的大规模分布式数据管理系统的结构示意图。如图1所示,本发明的实施例提供的一种大规模分布式数据管理系统,包括多个爬虫端1、缓存器2、多个数据收集服务器3、分布式存储服务器4、主控制器5和业务端6。所述爬虫端1和所述业务端6分别与所述数据收集服务器3进行数据交互。
其中,所有爬虫端1均受所述主控制器5的控制,在主控制器5的控制下保持同步,并根据所述主控制器5的指令来抓取网页数据并向数据收集服务器3发送。具体地,爬虫端1的数目可根据具体实际情况来设置,例如,根据需要可设置约400个爬虫端来分别向400个网站爬取数据,每个爬虫端以公用的Redis内存数据库作为统一的URL调度器,以插件式的形式安装在爬虫端上;或者采用实现分布式的部署,直接将相应的程序jar包部署在每台机器上,启动运行即可。每个爬虫端的具体URL调度将会由Redis服务器进行集中式的管理,保证数据不重复爬取。这样的实现能够保证每个爬虫之间耦合度低,不相互依赖,部署简单,爬取速度快。主控制器5可实时控制爬虫端1的运行状态和监控爬虫端1的运行状况,做到实时监测实时报警处理,全方位控制爬虫,满足各方面业务需求。
所述数据收集服务器3用于将爬虫端1发送的数据整合之后周期性地上传至所述分布式存储服务器4,供有离线数据需求的业务使用,并根据所述业务端6发送的请求指令将相对应的数据发送给所述业务端6。数据收集服务器3可根据需要设置多个,既能够解决采用单一数据接口而导致的单点故障问题,又提高了数据吞吐量。分布式存储服务器4可包括用于存储结构化数据的结构化数据存储器和用于存储非结构化数据的非结构化数据存储器。对于结构化数据,包括传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示的数据等可采用Hbase进行存储,对于非结构化数据,包括办公文档、文本、图片、各类报表、图像和音频、视频信息等没有固定结构的数据等可采用HDFS进行存储。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。HDFS提供了相当好的扩展性和容错能力,并且建设成本低廉,使用HDFS弹性存储可以实现自动控制,灵活地进行存储空间的释放和分配,以适应快速变化的需求。
所述主控制器5用于管理所述爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定所述爬虫端1和所述业务端6的身份合法性,根据预定的分配规则为所述爬虫端分布相适配的数据收集服务器,当所述爬虫端1爬取的网页数据大小达到预设值时,所述主控制器5控制所述爬虫端向相适配的数据收集服务器3发送所爬取的网页数据,爬虫端爬取的小于预设值的网页数据暂时存放在缓存器(未图示)中,并在爬虫端爬取的数据达到数据收集服务器存储预设值时,主控制器控制爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据,以确保负载均衡。爬虫端1爬取的数据以单条(或单个网页)论都是零碎繁多的小段数据,如果每产生一点数据就进行传送,必然效率低下,因此,为减轻系统负担,只有当爬虫数据达到预设值,例如64MB时才进行传送,小于预设值的网页数据暂时存放在缓存器中。此外,爬虫端1发送数据和业务端6拉取数据都需要通过身份验证之后才能进行,以保证数据传送安全性,具体地,所述主控制器在所述爬虫端获得其认证授权后,根据预定的分配规则为所述爬虫端分布相适配的数据收集服务器;所述爬虫端在获得所述数据收集服务器的认证授权后,向相适配的数据收集服务器发送所爬取的网页数据;以及所述数据收集服务器在所述业务端获得其认证授权后,向所述业务端发送响应请求指令的数据。如此,能够确保数据传送的安全性和合法性。
关于爬虫端向数据收集服务器发送数据以及数据收集服务器向业务端发送数据的主要操作包括以下内容:
(1)认证及数据的传输。爬虫端必须先向数据收集服务器发送认证信息,经数据收集服务器验证合法后才能开始向数据收集服务器传输数据。
(2)爬虫端的注册。爬虫端必须向主控制器进行注册,由主控制器根据预定的分配原则为该爬虫端分配合适的数据收集服务器。预定的分配原则可采用经典负载均衡算法中的Least-Busy,将新增设的爬虫端分配给负载最小的数据收集服务器,以保证系统的负载均衡。
(3)业务端的注册及分发。通过业务端的注册,为系统的业务状态的获取和数据收集服务器负载计算提供必要信息。
(4)数据收集服务器向业务端的数据发送。业务端先向数据收集服务器发起认证请求,数据收集服务器确认业务端身份合法后,向其发起数据连接并发送相对应的数据。
(5)每个数据收集服务器向主控制器发送“心跳”,主要是自身负载情况,这是主控制器负载决策的主要信息提供者;此外,数据收集服务器必须向主控制器确认爬虫端或者业务端的认证是否合法,如果不合法,则拒绝接收或发送数据。
由于爬虫爬取的数据往往有许多存在信息不全、有脏数据、数据冗余等问题,直接使用将会影响分析结果的可信度和准确性,故而通常还需要经过一步数据清洗;另一方面,由于数据使用者的业务方向与数据来源不可能百分百的完全契合,就会导致围绕业务开发的算法分析如果直接应用在来源数据上效果模糊,或无效运算量过大导致效率偏低,因此,需要针对业务需求进行数据整理。为此,可选地,所述数据收集服务器3设置有数据清洗模块,其中,所述数据清理模块用于对爬取的网页数据进行清理,包括:数据清单元,用于过滤或者修改不符合业务端要求的数据;数据整理单元,用于根据业务端的需求对爬取的网页数据进行重新整合,使得整合后的数据与业务端的需求之间具有更高的相关性。
其中,不符合业务端要求的数据主要包括不完整的数据、错误的数据和重复的数据,不完整数据的特征是一些应该有的信息缺失,如机构名称、分公司的名称、区域信息缺失等。错误数据产生的原因是业务系统不够健全,在接收输入后没有进行判断而直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后有一个回车、日期格式不正确、日期越界等。错误值包括输入错误和错误数据,输入错误是由原始数据录入人员疏忽而造成的,而错误数据大多是由一些客观原因引起的,例如人员填写的所属单位的不同和人员的升迁等。针对不完整数据可提供多种策略进行灵活处理,用户可以自行配置清理策略的细节,主要包括数据补全和过分残缺数据的剔除,其中数据补全主要通过对字段的缺省值配置策略实现,包含的策略主要有:字段均值补全(对数值型字段以该字段的总体均值对缺失数据进行补全)、半监督学习补全(通过对数据总体以及残缺数据其它字段的分析,运用机器学习算法对缺失字段进行猜测性补全,系统内置的补全算法为Cart分类回归树算法。异常数据是指所有记录中如果一个或几个字段间绝大部分遵循某种模式,其它不遵循该模式的记录,如年龄字段超过历史上的最高记录年龄等。此类数据大多可以通过数据分析的方法检测出来,系统内置的异常数据检测算法为基于密度的DBSCAN聚类算法,通过聚类分析确定各点周围的密度空间,密度过稀的点即为异常点。
根据业务端的需求对爬取的网页数据进行重新整合包括:将数据进行分割以获取指定行数的目标数据、满足满足指定条件的目标数据和只包含指定列编号的目标数据;将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表;以及将数据进行格式转换,包括基本类型转换,用以以将时间等复杂类型从原始字符串格式转换为目标字符串格式,以及元组和列表互转,多对应关系数据大体存在元组和列表两种格式,改变格式可适应不同算法需求。数据整理单元根据业务需求对现有数据进行重新整合,使整合后的数据与目标业务相关性更高,进而减少无用IO或运算,提高算法效率。
【实施例2】大规模分布式数据管理方法
图2为本发明实施例提供的大规模分布式数据管理方法的流程示意图。如图2所示,本实施例提供的大规模分布式数据管理方法包括以下步骤:
S100:多个爬虫端基于主控制器的爬取指令爬取数据。
具体地,所有爬虫端均受所述主控制器的控制,在主控制器的控制下保持同步,并根据所述主控制器的指令来抓取网页数据并向数据收集服务器发送。
S200:主控制器根据预定的分配规则为所述爬虫端爬取的数据分配相适配的数据收集服务器,并在爬虫端爬取的数据达到数据收集服务器的存储预设值时,控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。
具体地,主控制器可根据负载均衡算法为爬虫端爬取的数据分配相适配的数据收集服务器;当所述爬虫端爬取的数据大小达到预设阈值时,所述主控制器控制所述爬虫端向相适配的数据收集服务器传送数据,并在爬虫端爬取的数据达到数据收集服务器的存储预设值时,控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。
S300:所述数据收集服务器对所接收的数据进行清理操作,并将清理后的数据形成标准的数据包,并将所述数据包根据业务端发送的请求指令发送给所述业务端。
在步骤S300中,对所接收的数据进行清理操作包括:过滤或者修改不符合业务端要求的数据;根据业务端的需求对爬取的网页数据进行重新整合,使得整合后的数据与业务端的需求之间具有更高的相关性,具体包括:将数据进行分割以获取指定行数的目标数据、满足指定条件的目标数据和只包含指定列编号的目标数据;将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表;以及将数据进行格式转换,以将时间等复杂类型从原始字符串格式转换为目标字符串格式。此外,数据收集服务器在处理后的数据上传至分布式存储服务器进行存储,分布式存储服务器可包括用于存储结构化数据的结构化数据存储器和用于存储非结构化数据的非结构化数据存储器。
此外,在步骤S100中,所述主控制器在所述爬虫端获得其认证授权后,根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器;在步骤S200中,所述爬虫端在获得所述数据收集服务器的认证授权后,向相适配的数据收集服务器发送所爬取的数据;以及在步骤S300中,所述数据收集服务器在所述业务端获得认证授权后,向所述业务端发送响应请求指令的数据包。具体的授权操作和数据传送操作与前述实施例1相同,在此,为避免赘述,省略对它们的详细介绍。
此外,在本实施例中,没有描述的所涉及的各部件的结构和功能等均与前述实施例1所描述的相同,在此避免赘述,省略对它们的详细介绍。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (12)

1.一种大规模分布式数据管理系统,其特征在于,包括爬虫端、数据收集服务器、主控制器、分布式存储服务器和业务端,所述爬虫端和所述业务端分别与所述数据收集服务器进行数据交互,其中,所述爬虫端根据所述主控制器的指令来抓取网页数据并向数据收集服务器发送;所述数据收集服务器用于将爬虫端发送的数据整合之后上传至所述分布式存储服务器,并根据所述业务端发送的请求指令将相对应的数据发送给所述业务端;所述主控制器用于管理所述爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定所述爬虫端和所述业务端的身份合法性,根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器,当所述爬虫端爬取的数据达到相适配的数据收集服务器的存储预设值时,所述主控制器控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。
2.根据权利要求1所述的大规模分布式数据管理系统,其特征在于,所述数据收集服务器设置有数据清洗模块,其中,所述数据清理模块用于对爬取的数据进行清理,使得经清理后的数据形成标准的数据包;
所述数据清理模块包括:数据清洗单元,用于过滤或者修改不符合业务端要求的数据;数据整理单元,用于根据业务端的需求对爬取的网页数据进行重新整合,使得整合后的数据与业务端的需求之间具有更高的相关性。
3.根据权利要求2所述的大规模分布式数据管理系统,其特征在于,所述主控制器在所述爬虫端获得其认证授权后,根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器;
所述爬虫端在获得所述数据收集服务器的认证授权后,向相适配的数据收集服务器发送所爬取的数据;以及
所述数据收集服务器在所述业务端获得认证授权后,向所述业务端发送响应请求指令的数据包。
4.根据权利要求1所述的大规模分布式数据管理系统,其特征在于,当所述爬虫端爬取的数据大小达到预设阈值时,所述主控制器控制所述爬虫端向相适配的数据收集服务器传送数据;
当所述爬虫端爬取的数据大小未达到预设阈值时,所爬取的数据暂时存放在缓存器中。
5.根据权利要求2所述的大规模分布式数据管理系统,其特征在于,
所述预定的分配规则为负载均衡算法;
所述不符合业务端要求的数据包括不完整的数据、错误的数据和重复的数据。
6.根据权利要求2所述的大规模分布式数据管理系统,其特征在于,所述根据业务端的需求对爬取的网页数据进行重新整合包括:将数据进行分割以获取指定行数的目标数据、满足指定条件的目标数据和只包含指定列编号的目标数据;将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表;以及将数据进行格式转换,以将包括时间的复杂类型从原始字符串格式转换为目标字符串格式。
7.根据权利要求1所述的大规模分布式数据管理系统,其特征在于,所述分布式存储服务器包括用于存储结构化数据的结构化数据存储器和用于存储非结构化数据的非结构化数据存储器。
8.一种大规模分布式数据管理方法,其特征在于,包括:
S100:多个爬虫端基于主控制器的爬取指令爬取数据;
S200:主控制器根据预定的分配规则为所述爬虫端爬取的数据分配相适配的数据收集服务器,并在爬虫端爬取的数据达到数据收集服务器的存储预设值时,控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据;
S300:所述数据收集服务器对所接收的数据进行清理操作,使得经清理后的数据形成标准的数据包,并根据业务端发送的请求指令将所述数据包发送给所述业务端。
9.根据权利要求8所述的大规模分布式数据管理方法,其特征在于,步骤S200具体包括:
主控制器根据负载均衡算法为爬虫端爬取的数据分配相适配的数据收集服务器,当所述爬虫端爬取的数据大小未达到预设阈值时,主控制器将所爬取的数据暂时存放在缓存器中。
10.根据权利要求9所述的大规模分布式数据管理方法,其特征在于,
步骤S300中,对所接收的数据进行清理操作包括:过滤或者修改不符合业务端要求的数据;根据业务端的需求对爬取的网页数据进行重新整合,使得整合后的数据与业务端的需求之间具有更高的相关性。
11.根据权利要求10所述的大规模分布式数据管理方法,其特征在于,在步骤S100中,所述主控制器在所述爬虫端获得其认证授权后,根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器;
在步骤S200中,所述爬虫端在获得所述数据收集服务器的认证授权后,向相适配的数据收集服务器发送所爬取的数据;以及
在步骤S300中,所述数据收集服务器在所述业务端获得认证授权后,向所述业务端发送响应所述请求指令的数据包。
12.根据权利要求10所述的大规模分布式数据管理方法,其特征在于,所述根据业务端的需求对爬取的网页数据进行重新整合包括:将数据进行分割以获取指定行数的目标数据、满足指定条件的目标数据和只包含指定列编号的目标数据;将数据进行聚合以将两个或多个数据表按指定条件关联聚合成一张表;以及将数据进行格式转换,以将包括时间的复杂类型从原始字符串格式转换为目标字符串格式。
CN201611055775.4A 2016-11-25 2016-11-25 一种大规模分布式数据管理系统及其方法 Active CN106506673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611055775.4A CN106506673B (zh) 2016-11-25 2016-11-25 一种大规模分布式数据管理系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611055775.4A CN106506673B (zh) 2016-11-25 2016-11-25 一种大规模分布式数据管理系统及其方法

Publications (2)

Publication Number Publication Date
CN106506673A true CN106506673A (zh) 2017-03-15
CN106506673B CN106506673B (zh) 2019-08-02

Family

ID=58328899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611055775.4A Active CN106506673B (zh) 2016-11-25 2016-11-25 一种大规模分布式数据管理系统及其方法

Country Status (1)

Country Link
CN (1) CN106506673B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241319A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
CN107679233A (zh) * 2017-10-24 2018-02-09 麦格创科技(深圳)有限公司 分布式爬虫任务分配方法及系统
CN108108423A (zh) * 2017-12-15 2018-06-01 吉旗(成都)科技有限公司 一种流式处理物联网数据的方法
CN108460093A (zh) * 2018-01-30 2018-08-28 青岛中兴智能交通有限公司 一种公安系统的数据处理方法和装置
WO2019079992A1 (zh) * 2017-10-25 2019-05-02 麦格创科技(深圳)有限公司 分布式爬虫系统中任务管理器的分配方法及系统
CN109922083A (zh) * 2019-04-10 2019-06-21 武汉金盛方圆网络科技发展有限公司 一种网络协议流量控制系统
CN110737647A (zh) * 2019-08-20 2020-01-31 广州宏数科技有限公司 一种互联网大数据清洗方法
CN110955853A (zh) * 2018-09-26 2020-04-03 北京国双科技有限公司 一种数据存储方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434548B1 (en) * 1999-12-07 2002-08-13 International Business Machines Corporation Distributed metadata searching system and method
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
CN103973744A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种分布式文件递进存储技术

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434548B1 (en) * 1999-12-07 2002-08-13 International Business Machines Corporation Distributed metadata searching system and method
CN102932448A (zh) * 2012-10-30 2013-02-13 工业和信息化部电信传输研究所 一种分布式网络爬虫的url排重系统及方法
CN103973744A (zh) * 2013-02-01 2014-08-06 北京英富森信息技术有限公司 一种分布式文件递进存储技术
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241319A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
CN107241319B (zh) * 2017-05-26 2020-06-02 山东省科学院情报研究所 基于vpn的分布式网络爬虫系统及调度方法
CN107679233A (zh) * 2017-10-24 2018-02-09 麦格创科技(深圳)有限公司 分布式爬虫任务分配方法及系统
WO2019079992A1 (zh) * 2017-10-25 2019-05-02 麦格创科技(深圳)有限公司 分布式爬虫系统中任务管理器的分配方法及系统
CN108108423A (zh) * 2017-12-15 2018-06-01 吉旗(成都)科技有限公司 一种流式处理物联网数据的方法
CN108460093A (zh) * 2018-01-30 2018-08-28 青岛中兴智能交通有限公司 一种公安系统的数据处理方法和装置
CN110955853A (zh) * 2018-09-26 2020-04-03 北京国双科技有限公司 一种数据存储方法及装置
CN109922083A (zh) * 2019-04-10 2019-06-21 武汉金盛方圆网络科技发展有限公司 一种网络协议流量控制系统
CN110737647A (zh) * 2019-08-20 2020-01-31 广州宏数科技有限公司 一种互联网大数据清洗方法
CN110737647B (zh) * 2019-08-20 2023-07-25 广州宏数科技有限公司 一种互联网大数据清洗方法

Also Published As

Publication number Publication date
CN106506673B (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN106506673A (zh) 一种大规模分布式数据管理系统及其方法
US10685283B2 (en) Demand classification based pipeline system for time-series data forecasting
Siddiqa et al. A survey of big data management: Taxonomy and state-of-the-art
US10430480B2 (en) Enterprise data processing
US20190138639A1 (en) Generating a subquery for a distinct data intake and query system
US20190147084A1 (en) Distributing partial results from an external data system between worker nodes
CN108549580A (zh) 自动部署Kubernetes从节点的方法及终端设备
US9183031B2 (en) Provisioning of a virtual machine by using a secured zone of a cloud environment
CN108847989A (zh) 基于微服务架构的日志处理方法、业务服务系统以及电子设备
CN104966006A (zh) 基于云变平台的智能人脸识别系统
CN110543464A (zh) 一种应用于智慧园区的大数据平台及操作方法
CN109919771B (zh) 一种应用分层区块链技术的工业互联网交易装置
CN110838065A (zh) 一种交易数据处理方法及装置
CN101420458B (zh) 基于内容分发网络的多媒体内容监控系统、方法及装置
CN104969213A (zh) 用于低延迟数据存取的数据流分割
CN102147809B (zh) 一种并行文件系统及其管理方法
US12058269B2 (en) Systems and methods for providing secure internet of things data notifications using blockchain
WO2021108582A1 (en) Managed materialized views created from heterogeneous data sources
CN104331464A (zh) 一种基于MapReduce的监控数据优先预取处理方法
CN113505260A (zh) 人脸识别方法、装置、计算机可读介质及电子设备
CN1682190A (zh) 管理硬件和软件部件的方法和装置
Ding et al. DS‐Harmonizer: A Harmonization Service on Spatiotemporal Data Stream in Edge Computing Environment
CN107729218A (zh) 一种监控处理计算资源设备的系统及方法
CN105426770B (zh) 面向多维数据的权限管理机制的配置方法
Song et al. Towards modeling large-scale data flows in a multidatacenter computing system with petri net

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Large-scale distributed data management system and method thereof

Effective date of registration: 20200518

Granted publication date: 20190802

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: SIC YOUE DATA Co.,Ltd.

Registration number: Y2020990000482

PE01 Entry into force of the registration of the contract for pledge of patent right
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100070, No. 101-8, building 1, 31, zone 188, South Fourth Ring Road, Beijing, Fengtai District

Patentee after: Guoxin Youyi Data Co., Ltd

Address before: 100070 Beijing city Fengtai District South Fourth Ring Road No. 188 (ABP) B headquarters mansion 9 floor

Patentee before: SIC YOUE DATA Co.,Ltd.

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20211129

Granted publication date: 20190802

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: Guoxin Youyi Data Co., Ltd

Registration number: Y2020990000482

PM01 Change of the registration of the contract for pledge of patent right
PM01 Change of the registration of the contract for pledge of patent right

Change date: 20211129

Registration number: Y2020990000482

Pledgor after: Guoxin Youyi Data Co., Ltd

Pledgor before: SIC YOUE DATA Co.,Ltd.