CN102780780A - 云计算模式下的数据处理方法、设备和系统 - Google Patents

云计算模式下的数据处理方法、设备和系统 Download PDF

Info

Publication number
CN102780780A
CN102780780A CN2012102608281A CN201210260828A CN102780780A CN 102780780 A CN102780780 A CN 102780780A CN 2012102608281 A CN2012102608281 A CN 2012102608281A CN 201210260828 A CN201210260828 A CN 201210260828A CN 102780780 A CN102780780 A CN 102780780A
Authority
CN
China
Prior art keywords
cloud service
data
extraction
node
service node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102608281A
Other languages
English (en)
Other versions
CN102780780B (zh
Inventor
李净
郭强
冯立华
张云勇
王志山
童晓渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201210260828.1A priority Critical patent/CN102780780B/zh
Publication of CN102780780A publication Critical patent/CN102780780A/zh
Application granted granted Critical
Publication of CN102780780B publication Critical patent/CN102780780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种云计算模式下的数据处理方法、设备和系统。方法包括:向目录服务器LDAP下发第一提取和转换指令,所述第一提取和转换指令中携带待处理数据的存储路径;接收所述第一云服务节点上报的提取和转换响应;向所述LDAP下发第一合并指令;接收至少一个所述第二云服务节点上报的合并响应;向至少一个所述第二云服务节点下发入库指令,所述入库指令中携带数据库服务器的标识信息。本发明实现数据处理系统的可扩展性和易用性。

Description

云计算模式下的数据处理方法、设备和系统
技术领域
本发明涉及信息技术领域,特别涉及一种云计算模式下的数据处理方法、设备和系统。
背景技术
随着计算机技术的发展,数据提取、转换和加载技术得到的广泛的应用。
现有技术中,数据的提取、转换和加载(Extraction TransformationLoading,ETL)普遍采用高性能服务器控制磁盘阵列的处理方式。然而,当ETL的性能要求提高时,需要提高服务器或磁盘阵列的配置,或者修改服务器中ETL的处理程序,系统可扩展和易用性差。
发明内容
本发明提供了一种云计算模式下的数据处理方法、设备和系统,以提高数据处理系统的可扩展性和易用性。
一方面,本发明提供一种云计算模式下的数据处理方法,包括:
向目录服务器LDAP下发第一提取和转换指令,所述第一提取和转换指令中携带待处理数据的存储路径,用于表示对所述待处理数据进行提取和转换操作,以使所述LDAP向至少一个第一云服务节点下发第二提取和转换指令,所述第二提取和转换指令中携带所述待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据进行提取和转换操作;
接收所述第一云服务节点上报的提取和转换响应,所述提取和转换响应表示完成对所述特征信息对应的待处理数据进行的提取和转换操作;
向所述LDAP下发第一合并指令,所述第一合并指令表示对所述第一云服务节点的提取和转换操作结果进行合并,以使所述LDAP向至少一个第二云服务节点下发第二合并指令,所述第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果;
接收至少一个所述第二云服务节点上报的合并响应,所述合并响应表示完成对所述标识信息对应的第一云服务节点的待合并数据进行合并;
向至少一个所述第二云服务节点下发入库指令,所述入库指令中携带数据库服务器的标识信息,所述入库指令表示将合并结果加载至所述数据库服务器。
本发明提供另一种云计算模式下的数据处理方法,包括:
接收云服务主节点下发的第一提取和转换指令,所述第一提取和转换指令中携带待处理数据的存储路径,用于表示对所述待处理数据进行提取和转换操作;
根据设定的分布式数据分发策略以及本地存储的系统中各云服务器节点的资源占用目录,向至少一个第一云服务器节点下发第二提取和转换指令,所述第二提取和转换指令中携带所述待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据进行提取和转换操作;
接收所述云服务主节点下发的第一合并指令,所述第一合并指令表示对所述第一云服务节点的提取和转换操作结果进行合并;
根据设定的分布式数据合并策略以及所述资源占用目录,向至少一个第二云服务节点下发第二合并指令,所述第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果。
本发明提供又一种云计算模式下的数据处理方法,包括:
接收目录服务器LDAP下发的第二提取和转换指令,所述第二提取和转换指令中携带待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据进行提取和转换操作;根据所述待处理数据的存储路径获取所述待处理数据,并对所述特征信息对应的待处理数据进行提取和转换操作;向云服务主节点上报提取和转换响应,所述提取和转换响应表示完成对所述特征信息对应的待处理数据进行的提取和转换操作;
和/或,接收所述LDAP下发的第二合并指令,所述第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果;根据所述待合并数据的存储路径获取所述待合并数据,对所述标识信息对应的第一云服务节点的待合并数据进行合并;向所述云服务主节点上报合并响应,所述合并响应表示完成对所述标识信息对应的第一云服务节点的待合并数据进行合并。
另一方面,本发明还提供一种云服务主节点,包括:
第一发送模块,用于向目录服务器LDAP下发第一提取和转换指令,所述第一提取和转换指令中携带待处理数据的存储路径,用于表示对所述待处理数据进行提取和转换操作,以使所述LDAP向至少一个第一云服务节点下发第二提取和转换指令,所述第二提取和转换指令中携带所述待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据的全部或部分进行提取和转换操作;
第一接收模块,用于接收所述第一云服务节点上报的提取和转换响应,所述提取和转换响应表示完成对所述特征信息对应的待处理数据进行的提取和转换操作;
所述第一发送模块,还用于向所述LDAP下发第一合并指令,所述第一合并指令表示对所述第一云服务节点的提取和转换操作结果进行合并,以使所述LDAP向至少一个第二云服务节点下发第二合并指令,所述第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果;
所述第一接收模块,还用于接收至少一个所述第二云服务节点上报的合并响应,所述合并响应表示完成对所述标识信息对应的第一云服务节点的待合并数据进行合并;
所述第一发送模块,还用于向至少一个所述第二云服务节点下发入库指令,所述入库指令中携带数据库服务器的标识信息,所述入库指令表示将合并结果加载至所述数据库服务器。
本发明还提供一种目录服务器,包括:
第二接收模块,用于接收云服务主节点下发的第一提取和转换指令,所述第一提取和转换指令中携带待处理数据的存储路径,用于表示对所述待处理数据进行提取和转换操作;
第二发送模块,用于根据设定的分布式数据分发策略以及本地存储的系统中各云服务器节点的资源占用目录,向至少一个第一云服务器节点下发第二提取和转换指令,所述第二提取和转换指令中携带所述待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据的全部或部分进行提取和转换操作;
所述第二接收模块,还用于接收所述云服务主节点下发的第一合并指令,所述第一合并指令表示对所述第一云服务节点的提取和转换操作结果进行合并;
所述第二发送模块,还用于根据设定的分布式数据合并策略以及所述资源占用目录,向至少一个第二云服务节点下发第二合并指令,所述第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果。
本发明提供一种云服务节点,包括:第三接收模块、执行模块和第三发送模块;
所述第三接收模块,用于接收目录服务器LDAP下发的第二提取和转换指令,所述第二提取和转换指令中携带待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据进行提取和转换操作;所述执行模块用于根据所述待处理数据的存储路径获取所述待处理数据,并对所述特征信息对应的待处理数据进行提取和转换操作;所述第三发送模块,用于向云服务主节点上报提取和转换响应,所述提取和转换响应表示完成对所述特征信息对应的待处理数据进行的提取和转换操作;
和/或,所述第三接收模块,用于接收所述LDAP下发的第二合并指令,所述第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果;所述执行模块,用于根据所述待合并数据的存储路径获取所述待合并数据,对所述标识信息对应的第一云服务节点的待合并数据进行合并;所述第三发送模块,用于向所述云服务主节点上报合并响应,所述合并响应表示完成对所述标识信息对应的第一云服务节点的待合并数据进行合并。
另一方面,本发明提供一种云计算模式下的数据处理系统,包括:如上所述的云服务主节点、如上所述的目录服务器和如上所述的至少一个云服务节点和至少一个数据库服务器。
本发明提供的云计算模式下的数据处理方法、设备和系统,云服务主节点将提取和转换指令下发给LDAP,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示系统中的一个或多个云服务器节点执行提取和转换操作;云服务器节点执行完提取和转换操作之后,云服务主节点可以向LDAP下发合并指令,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示系统中的一个或多个云服务器节点对提取和转换操作结果进行合并。本发明实现采用云计算模式提高了数据处理系统的可扩展性和易用性。
附图说明
图1为本发明提供的云计算模式下的数据处理方法一个实施例的流程图;
图2为本发明提供的云计算模式下的数据处理方法又一个实施例的流程图;
图3为本发明提供的云计算模式下的数据处理方法另一个实施例的流程图;
图4为本发明提供的云计算模式下的数据处理方法另一个实施例的流程图;
图5为本发明提供的云服务主节点一个实施例的结构示意图;
图6为本发明提供的云服务主节点又一个实施例的结构示意图;
图7为本发明提供的目录服务器一个实施例的结构示意图;
图8为本发明提供的目录服务器又一个实施例的结构示意图;
图9为本发明提供的云服务节点一个实施例的结构示意图;
图10为本发明提供的云计算模式下的数据处理系统一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的云计算模式下的数据处理方法一个实施例的流程图,如图1所示,该方法包括:
S101、向目录服务器LDAP下发第一提取和转换指令,第一提取和转换指令中携带待处理数据的存储路径,用于表示对待处理数据进行提取和转换操作,以使LDAP向至少一个第一云服务节点下发第二提取和转换指令,第二提取和转换指令中携带待处理数据的存储路径以及待处理数据的特征信息,用于表示对特征信息对应的待处理数据进行提取和转换操作;
S102、接收第一云服务节点上报的提取和转换响应,提取和转换响应表示完成对特征信息对应的待处理数据进行的提取和转换操作;
S103、向LDAP下发第一合并指令,第一合并指令表示对第一云服务节点的提取和转换操作结果进行合并,以使LDAP向至少一个第二云服务节点下发第二合并指令,第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对标识信息对应的第一云服务节点的待合并数据进行合并,待合并数据为第一云服务节点的提取和转换操作结果;
S104、接收第二云服务节点上报的合并响应,合并响应表示完成对标识信息指示的第一云服务节点的提取和转换操作结果进行合并;
S105、向第二云服务节点下发入库指令,入库指令中携带数据库服务器的标识信息,入库指令表示将合并结果加载至数据库服务器。
以上步骤的执行主体为云服务主节点,该云服务主节点具体可以是系统中的物理机,也可以是虚拟机等具有处理能力的设备。
本发明提供的云计算模式下的数据处理方法,其中涉及的云服务主节点、云服务节点和目录服务器(Lightweight Directory Access Protocoll,LDAP)上均安装有Hadoop云平台,该Hadoop云平台可以采用开源的Hadoop云计算软件,使云服务主节点、云服务节点和LDAP组成的云计算模式下的数据处理系统能够采用云化分布式文件处理。
此外,云服务主节点上可以设置ETL接口模块,由该ETL接口模块实现与其他设备或系统连接,接收其他设备或系统发出的ETL指令;还可以将该ETL接口模块作为人机接口,云服务主节点也可以直接由该ETL接口模块接收到用户发出的ETL指令,其中ETL指令中携带待处理数据的存储路径,用于指示对待处理数据进行ETL操作,ETL操作具体是:对待处理数据进行提取、转换和加载操作。
具体的:由于待处理数据通常存储在云计算模式下的数据处理系统的外部设备上,例如:可以存储在云服务节点连接的各种接口机上,文本传输协议(File Transfer Protocol,FTP)服务器(Server)等外部设备上。因此,执行ETL操作的云服务节点从存储待处理数据的设备上提取待处理数据的过程即为ETL操作中涉及的提取过程。待处理数据进行ETL操作后,通常要加载到云计算模式下的数据处理系统内的数据库服务器内,而数据库服务器内的所存储的数据格式与存储待处理数据的外部设备所存储的数据格式不同,因此,ETL操作中的转换过程,可以是数据格式转换过程。另外,转换过程还可以包括对待处理数据中所包含的各类信息的统计过程。例如:待处理数据为大量用户的访问记录,则ETL操作中的转换过程也可以包括:将同一用户的所有访问记录汇总,或者将同一网站的所有用户访问记录汇总的过程。ETL操作中的加载过程,可以是各个云服务节点将提取和转换操作结果加载到数据库服务器的过程。
云服务主节点接收到外部设备下发的ETL指令之后,向LDAP下发第一提取和转换指令,该第一提取和转换指令用于指示对待处理数据进行提取和转换处理。
LDAP接收到第一提取和转换指令后,可以向系统中的一个或多个第一云服务节点下发第二提取和转换指令,该第二提取和转换指令中携带待处理数据的存储路径和特征信息。特征信息可以是待处理数据中包括的特定内容,每个第一云服务节点接收到的第二提取和转发指令中携带的特征信息不同。举例来说,在待处理数据为大量用户的网站访问记录时,则一个第一云服务节点接收到的第二提取和转换指令中携带的特征信息为用户1的标识信息,则该第一云服务节点可以根据待处理数据的存储路径从存储待处理数据的外部设备上获取待处理数据,并对待处理数据中用户1的访问记录进行提取和转换处理;另一个第一云服务节点接收到的第二提取和转换指令中携带的特征信息为用户2的标识信息,则该第一云服务节点可以根据待处理数据的存储路径从存储待处理数据的外部设备上获取待处理数据,并对待处理数据中用户2的访问记录进行提取和转换处理。或者,第一云服务节点接收到的第二提取和转换指令中携带的特征信息还可以为网站的标识信息,则第一云服务节点可以对待处理数据中的网站的标识信息对应的访问记录进行提取和转换处理。
需要说明的是,本发明实施例中涉及第一云服务节点所执行的提取过程,除了包括第一云服务节点从存储待处理数据的设备上获取(即进行读取操作)待处理数据的过程之外,进一步的,还可以包括从待处理数据提取特征信息对应的待处理数据过程。
第一云服务节点执行提取和转换处理完毕后,可以向云服务主节点上报提取和转换响应,云服务主节点可以在接收到部分第一云服务节点上报的提取和转换响应后,下发一个第一合并指令,指示将完成提取和转换操作的第一云服务节点上的提取和转换操作结果进行合并。在这种实施场景下,云服务主节点下发的第一合并指令中可以携带完成提取和转换操作的第一云服务节点的标识信息,LDAP接收到第一合并指令后,可以向系统中的一个或多个第二云服务节点下发第二合并指令,该LDAP可以将至少两个第一云服务节点的标识信息和待合并数据的存储路径携带在第二合并指令中,以指示接收到第二合并指令的第二云服务节点对第二合并指令中携带的标识信息所指向的第一云服务节点中的待合并数据进行合并。其中,待合并数据是指第一云服务节点的提取和转换操作结果,第二云服务节点可以根据待合并数据在第一云服务节点上的存储路径,从第一云服务节点上获取待合并数据,从而进行合并操作。
或者,云服务主节点也可以在接收到全部第一云服务节点上报的提取和转换响应后,下发第一合并指令,指示将所有第一云服务节点的提取和转换操作结果进行合并。在这种实施场景下,云服务主节点下发的第一合并指令中可以携带所有第一云服务节点的标识信息,也可以不携带该标识信息,而是直接由LDAP在下发给第二云服务节点的第二合并指令携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,以指示接收到第二合并指令的第二云服务节点对第二合并指令中携带的标识信息所指向的第一云服务节点的待合并数据进行合并。
需要说明的是,任一个第二云服务节点可以是第一云服务节点,也可以是系统中除了第一云服务节点之外的其他任意节点。第二云服务节点可以是一个,也可以是多个,即,可以由一个第二云服务节点对所有第一云服务节点的提取和转换操作结果进行合并。也可以由多个第二云服务节点分别对一部分第一云服务节点的提取和转换操作结果进行合并。
其中,每个第二云服务节点执行的合并操作,可以是将两个或两个以上的第一云服务节点的提取和转换操作结果,即,经过提取和转换后得到的数据按照一定的顺序排列和整合起来。例如:待处理数据为数个用户的访问记录,每个第一云服务节点将同一用户的所有访问记录汇总后,每个第二云服务节点可以将至少两个或者全部第一云服务节点得到的至少两个用户或所有用户的访问记录,按照访问时间顺序,或者按照访问网站的顺序进行排列和整合,可以生成访问记录表,以便最终进行加载。
第二云服务节点执行完合并操作后,可以向云服务主节点上报合并响应,该合并响应表示完成对标识信息指示的第一云服务节点的提取和转换操作结果进行合并。
相应的,云服务主节点可以向第二云服务节点下发入库指令,在该入库指令中携带数据库服务器的标识信息,以指示第二云服务节点将合并结果加载到相应的数据库服务器中。
本实施例提供的云计算模式下的数据处理方法,云服务主节点将提取和转换指令下发给LDAP,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示系统中的一个或多个云服务器节点执行提取和转换操作;云服务器节点执行完提取和转换操作之后,云服务主节点可以向LDAP下发合并指令,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示系统中的一个或多个云服务器节点对提取和转换操作结果进行合并。本发明实现采用云计算模式提高了数据处理系统的可扩展性和易用性。
图2为本发明提供的云计算模式下的数据处理方法又一个实施例的流程图,如图2所示,该方法包括:
S201、接收云服务主节点下发的第一提取和转换指令,第一提取和转换指令中携带待处理数据的存储路径以及待处理数据的特征信息,用于表示对特征信息对应的待处理数据进行提取和转换操作;
S202、根据设定的分布式数据分发策略以及本地存储的系统中各云服务器节点的资源占用目录,向至少一个第一云服务器节点下发第二提取和转换指令,第二提取和转换指令中携带待处理数据的存储路径以及待处理数据的特征信息,用于表示对特征信息对应的待处理数据进行提取和转换操作;
S203、接收云服务主节点下发的第一合并指令,第一合并指令表示对第一云服务节点的提取和转换操作结果进行合并;
S204、根据设定的分布式数据合并策略以及资源占用目录,向至少一个第二云服务节点下发第二合并指令,第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对标识信息对应的第一云服务节点的待合并数据进行合并,待合并数据为第一云服务节点的提取和转换操作结果。
以上步骤的执行主体为LDAP。
LDAP接收到云服务主节点下发的第一提取和转换指令后,根据设定的分布式数据分发策略以及本地存储的系统中各云服务器节点的资源占用目录,向至少一个第一云服务器节点下发第二提取和转换指令,该第二提取和转换指令中携带待处理数据的存储路径和待处理数据的特征信息。
其中,LDAP可以实时检测系统中各个云服务节点的负载状态,例如:各个云服务节点的CPU线程启动情况,内存占用情况等。各个云服务节点的负载状态信息存储在LDAP本地的资源占用目录中,LDAP可以根据实时检测结果更新本地存储的资源占用目录。
作为一种可行的实施方式,分布式数据分发策略可以预先存储在LDAP上,分布式数据分发策略可以根据云服务节点的处理能力以及待处理数据的容量等因素来确定。例如:若待处理数据容量较大,则可以预先设定较多个数的云服务节点进行提取和转换处理,每个云服务节点可以执行的提取和转换处理的待处理数据容量可以相同也可以不同;若待处理数据容量较小,则可以预先设定较少个数的云服务节点进行提取和转换处理,每个云服务节点可以执行的提取和转换处理的待处理数据容量可以相同也可以不同。以上仅提供了几种可行的实施方式,但并不以此作为本发明的限制。
作为另一种可行的实施方式,云服务主节点可以在向LDAP下发第一提取和转换指令之前或之后,向LDAP下发分布式数据分发策略。
具体的,云服务主节点可以根据待处理数据的存储路径从外部设备上获取(即进行读取操作)待存储数据,并对待处理数据进行扫描,根据待处理数据的特征生成分布式数据分发策略。
可选的,云服务主节点可以根据待处理数据包含的字段信息生成分布式数据分发策略,即,待处理数据的特征可以是待处理数据所包含的字段信息(一个字段可以由多个特定的字符或字符串构成),在这种实施场景下,生成的分布式数据分发策略中,可以根据待处理数据所包含的字段信息,将待处理数据划分为不同的组,每组待处理数据可以由一个第一云服务节点进行提取和转换处理。例如:分布式数据分发策略中,可以将包含“A”字段的待处理数据划分为一组,将包含“B”字段的数据划分为一组,将包含“C”字段的数据划分为一组。则LDAP可以根据该分布式数据分发策略和各云服务节点的负载状况,指示一个云服务节点对包含“A”字段的待处理数据进行提取和转换,指示另一个云服务节点对包含“B”字段的待处理数据进行提取和转换,指示另一个云服务节点对包含“C”字段的待处理数据进行提取和转换。或者,LDAP还可以指示一个云服务节点同时对包含两个以上字段的待处理数据进行处理,例如:对“A”字段和“B”字段,或者,“B”字段和“C”字段的待处理数据进行提取和转换。
可选的,如果待处理数据以多个文件的形式存在,则云服务主节点可以根据待处理数据包含的文件信息生成分布式数据分发策略,即,待处理数据的特征还可以是文件类型(可以根据文件名后缀等方式来区分文件类型)。在这种实施场景下,生成的分布式数据分发策略中,可以将不同类型的文件划分为一组。LDAP可以根据分布式数据分发策略和系统中各云服务节点的负载状况,指示一个云服务节点对待处理数据中一种类型的文件进行提取和转换,指示另一个云服务节点对待处理数据中另一种类型的文件进行提取和转换。或者,LDAP还可以指示一个云服务节点同时对包含两种以上类型的文件进行提取和转换。
可选的,如果待处理数据以多条记录的形式存在,云服务主节点可以根据待处理数据包含的记录信息生成分布式数据分发策略,例如:数个用户的上网记录等。则待处理数据的特征还可以是每条记录对应的用户名称,或者是每条记录中所访问的网站名称。在这种实施场景下,生成的分布式数据分发策略中,可以将同一用户名称的记录划分为一组,LDAP可以根据分布式数据分发策略和系统中各云服务节点的负载状况,指示不同的云服务节点对不同用户名称的记录进行提取和转换。或者,生成的分布式数据分发策略中,可以将同一网站名称的记录划分为一组,LDAP可以根据分布式数据分发策略和系统中各云服务节点的负载状况,指示不同的云服务节点对不同网站名称的记录进行提取和转换。
可以理解的是,待处理数据的特征还可以是其他类型,相应的,云服务主节点也可以根据待处理数据的各种类型的特征生成分布式数据分发策略,并将生成的分布式数据分发策略下发给LDAP,LDAP可以根据数据分发策略以及各云服务节点的负载状况确定执行提取和转换操作的一个或多个第一云服务节点,并第一云服务节点下发第二提取和转换指令。
LDAP接收到云服务主节点下发的第一合并指令后,可以根据设定的分布式数据合并策略以及资源占用目录,向至少一个第二云服务节点下发第二合并指令,第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对标识信息对应的第一云服务节点的待合并数据进行合并。其中,待合并数据是指第一云服务节点执行提取和转换操作的结果,待合并数据的存储路径是指提取和转换操作的结果在第一云服务节点上的存储路径。
与分布式数据分发策略相类似的,作为一种可行的实施方式,分布式数据合并策略也可以预先存储在LDAP上,分布式数据合并策略可以根据云服务节点的处理能力、待处理数据的容量以及执行提取和转换操作的云服务节点的数量等因素来确定。例如:执行合并操作的第二云服务节点的个数可以为执行提取和转换操作的第一云服务节点个数的一半。在这种实施场景下,每个第二云服务节点可以对两个第一云服务节点的提取和操作结果进行合并。以下仅提供了几种可行的实施方式,但并不以此作为本发明的限制。
作为另一种可行的实施方式,云服务主节点可以在向LDAP下发第一合并指令之前或之后,向LDAP下发分布式数据合并策略。
可选的,云服务主节点可以根据分布式数据分发策略所基于的待处理数据的特征,生成分布式数据合并策略。
如果待处理数据的特征是待处理数据所包含的字段信息(一个字段可以由多个特定的字符或字符串构成),例如:分布式数据分发策略中,将包含“A”字段的待处理数据划分为一组,将包含“B”字段的待处理数据划分为一组,将包含“C”字段的待处理数据划分为一组,将包含“D”字段的待处理数据划分为一组,每组分别由一个第一云服务节点进行提取和转换操作。在该实施场景下,分布式数据合并策略,可以为首先将包含“A”字段的提取和转换操作结果(即待合并数据)和包含“B”字段的提取和转换操作结果(即待合并数据)进行合并,将包含“C”字段的提取和转换操作结果和包含“D”字段的提取和转换结果进行合并。LDAP可以根据分布式数据合并策略以及系统中各云服务节点的负载状况,向一个第二云服务节点下发第二合并指令,该第二合并指令中可以携带执行包含“A”字段的提取和转换操作的第一云服务节点的标识信息和待合并数据的存储路径,以及执行包含“B”字段的提取和转换操作的第一云服务节点的标识信息和待合并数据的存储路径。从而指示该第二云服务节点执行将包含“A”字段的提取和转换操作结果和包含“B”字段的提取和转换操作结果进行合并的操作,LDAP还可以向另一个第二云服务节点下发第二合并指令,该第二合并指令中可以携带执行包含“C”字段的提取和转换操作的第一云服务节点的标识信息和执行包含“D”字段的提取和转换操作的第一云服务节点的标识信息。从而指示该第二云服务节点执行将包含“C”字段的提取和转换操作结果和包含“D”字段的提取和转换操作结果进行合并的操作。或者,LDAP还可以向一个第二云服务节点下发两个第二合并指令,以指示该第二云服务节点分别执行将包含“A”字段的提取和转换操作结果和包含“B”字段的提取和转换操作结果进行合并的操作,以及执行将包含“C”字段的提取和转换操作结果和包含“D”字段的提取和转换操作结果进行合并的操作。
类似的,如果分布式数据分发策略中将不同类型的文件划分为一组,则分布式合并策略中可以指示将至少两个类型的文件的提取和转换结果进行合并。如果分布式数据分发策略中将同一用户名称的记录划分为一组,或者将同一网站名称的记录划分为一组,则相应的,分布式合并策略中可以指示将至少两个用户名称对应的记录的提取和转换结果或者将至少两个网站名称对应的记录的提取和转换结果进行合并。LDAP可以根据分布式数据合并策略以及系统中各云服务节点的负载状况,指示系统中的一个或多个第二云服务节点执行合并操作。
本实施例提供的云计算模式下的数据处理方法,LDAP接收到云服务主节点下发的提取和转换指令后,可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示系统中的一个或多个云服务器节点执行提取和转换操作;云服务器节点执行完提取和转换操作之后,云服务主节点可以向LDAP下发合并指令,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示系统中的一个或多个云服务器节点对提取和转换操作结果进行合并。本发明实现采用云计算模式提高了数据处理系统的可扩展性和易用性。
图3为本发明提供的云计算模式下的数据处理方法另一个实施例的流程图,如图3所示,本实施例以下步骤的执行主体为云服务节点,若该云服务节点为本发明涉及的第一云服务节点,则该方法执行S301-S303的步骤;若该云服务节点为本发明涉及的第二云服务节点,则该方法执行S304-S306的步骤;若该云服务节点既是第一云服务节点,也是第二云服务节点,则执行S301-S306的步骤。具体的:
S301、接收目录服务器LDAP下发的第二提取和转换指令,第二提取和转换指令中携带待处理数据的存储路径以及待处理数据的特征信息,用于表示对特征信息对应的待处理数据进行提取和转换操作。
S302、根据待处理数据的存储路径获取待处理数据,并对特征信息对应的待处理数据进行提取和转换操作。
S303、向云服务主节点上报提取和转换响应,提取和转换响应表示完成对特征信息对应的待处理数据的提取和转换操作。
S301-S303的执行主体为第一云服务节点,具体可以是系统中的物理机,也可以是虚拟机等具有处理能力的设备。
第一云服务节点接收到LDAP下发的第二提取和转换指令后,可以从该第二提取和转换指令中获取待处理数据的存储路径,从而根据该存储路径从存储待处理数据的外部设备上获取(即读取)待处理数据。第一云服务节点可以对特征信息对应的待处理数据进行提取和转换操作。提取和转换操作执行完毕后,第一云服务节点可以向云服务主节点上报提取和转换响应,以表示提取和转换操作执行完毕。
S304、接收LDAP下发的第二合并指令,第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对标识信息对应的第一云服务节点的待合并数据进行合并,待合并数据为第一云服务节点的提取和转换操作结果;
S305、根据待合并数据的存储路径待合并数据,对标识信息对应的第一云服务节点的待合并数据进行合并;
S306、向云服务主节点上报合并响应,合并响应表示完成对标识信息对应的第一云服务节点的待合并数据进行合并。
向云服务主节点上报合并响应之后,还包括:接收云服务主节点下发的入库指令,入库指令中携带数据库服务器的标识信息,入库指令表示将合并结果加载至数据库服务器;根据入库指令,将合并结果加载至数据库服务器。
以上S304-S306步骤的执行主体为第二云服务节点,该第二云服务节点可以为第一云服务节点,也可以为系统中除第一云服务节点之外的物理机,也可以是虚拟机等具有处理能力的设备。
第二云服务节点接收到LDAP下发的第二合并指令之后,从该第二合并指令中获取携带的至少两个第一云服务节点的标识信息和待合并数据的存储路径,第二云服务节点根据标识信息从对应的第一云服务节点的待合并数据的存储路径中获取(即读取)提取和转换操作结果(即待合并数据),从而对待合并数据进行合并操作。具体可以是:将两个或两个以上的第一云服务节点的提取和转换操作结果,即,经过提取和转换后得到的数据按照一定的顺序排列和整合起来。例如:待处理数据为数个用户的访问记录,每个第一云服务节点将同一用户的所有访问记录汇总后,每个第二云服务节点可以将至少两个或者全部第一云服务节点得到的至少两个用户或所有用户的访问记录,按照访问时间顺序,或者按照访问网站的顺序进行排列和整合,可以生成访问记录表,以便最终进行加载。
本实施例提供的数据处理方法,云服务主节点将提取和转换指令下发给LDAP,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示系统中的一个或多个云服务器节点执行提取和转换操作;云服务器节点执行完提取和转换操作之后,云服务主节点可以向LDAP下发合并指令,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示系统中的一个或多个云服务器节点对提取和转换操作结果进行合并。本发明实现采用云计算模式提高了数据处理系统的可扩展性和易用性。
图4为本发明提供的云计算模式下的数据处理方法另一个实施例的流程图,如图4所示,本实施例提供了云服务主节点、各个云服务节点、LDAP和数据库服务器在云计算模式下执行数据处理的全过程。该方法包括:
S401、ETL发送端向云服务主节点发起ETL指令,该ETL中携带待处理数据的存储路径。
其中,ETL发送端可以为与本实施例提供的云服务主节点、云服务节点、LDAP和数据库服务器组成的数据处理系统连接的其他设备或系统,还可以是通过云服务主节点中的ETL接口模块向云服务主节点下发ETL指令的用户。
S402、云服务主节点根据待处理数据的存储路径获取待处理数据,对待处理数据进行扫描,调用hadoop的map过程生成分布式数据分发策略。
作为一种可行的实施方式,云服务主节点根据存储路径从外部设备上获取待处理数据后,可以对待处理数据进行扫描,根据待处理数据的特征生成分布式数据分发策略。
可选的,云服务主节点扫描待处理数据后,可以采用map过程生成分布式数据分发策略。map的过程类似于合并同类项的过程,例如:待处理数据由多行数据组合,则云服务主节点执行map过程可以将各行数据中包括的特征A字段的合并成一组,将包括的特征B字段的合并成一组,将包括特征字段C的合并成一组……,生成分布式数据分发策略。
S403、云服务主节点将分布式数据分发策略下发给LDAP。
S404、云服务主节点向LDAP下发第一提取和转换指令,该第一提取和转换指令中携带待处理数据的存储路径,用于表示对待处理数据进行提取和转换操作。
其中S403和S404的执行顺序不分先后。
S405、LDAP根据分布式数据分发策略以及本地存储的中各云服务器节点的资源占用目录,向至少一个第一云服务器节点下发第二提取和转换指令,第二提取和转换指令中携带待处理数据的存储路径和待处理数据的特征信息,用于表示对特征信息对应的待处理数据进行提取和转换操作。
S406、第一云服务节点根据待处理数据的存储路径获取待处理数据,并对特征信息对应的待处理数据执行提取和转换操作。
S407、第一云服务节点执行提取和转换操作结束后,向云服务主节点上报提取和转换响应,该提取和转换响应表示完成对特征信息对应的待处理数据进行的提取和转换操作。
S408、云服务主节点执行reduce算法,根据分布式数据分发策略所基于的待处理数据的特征生成分布式数据合并策略。
其中reduce算法为现有技术,云服务主节点可以根据reduce算法确定将至少两个第一云服务节点的提取和转换结果进行合并,生成分布式数据合并策略。
S409、云服务主节点分布式数据合并策略下发给LDAP。
S410、云服务主节点向LDAP下发第一合并指令,该第一合并指令表示对第一云服务节点的提取和转换操作结果进行合并。
其中S408和S409的执行顺序不分先后。
S411、LDAP根据分布式数据合并策略以及资源占用目录,向至少一个第二云服务节点下发第二合并指令,第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对标识信息对应的第一云服务节点的待合并数据进行合并,待合并数据为第一云服务节点的提取和转换操作结果。
S412、第二云服务节点根据待合并数据的存储路径获取待合并数据,对待合并数据进行合并。
S413、第二云服务节点向云服务主节点上报合并响应,合并响应表示完成对标识信息对应的第一云服务节点的待合并数据进行合并。
S414、云服务主节点向第二云服务节点下发的入库指令,入库指令中携带数据库服务器的标识信息,入库指令表示将合并结果加载至数据库服务器。
其中,云服务主节点可以指示一个第二云服务节点将合并结果加载到一个数据库服务器中,也可以指示一个第二云服务节点将合并结果加载到多个数据库服务器中。
S415、第二云服务节点根据入库指令,将合并结果加载至数据库服务器。
S416、数据库服务器接收第二云服务节点加载的数据,根据设定规则将加载的数据存储在本地内存中。
从以上过程可以看出整个过程充分利用了云计算技术,和分布式数据库充分结合。改变了以往系统性能瓶颈。最大的利用了I/O和分布计算,分布存储。
本实施例提供的数据处理方法,云服务主节点将提取和转换指令下发给LDAP,并且将生成的分布式数据分发策略下发给LDAP,LDAP根据分布式数据分发策略以及各云服务器节点的资源占用情况指示网络中的一个或多个云服务器节点执行提取和转换操作;云服务器节点执行完提取和转换操作之后,云服务主节点可以向LDAP下发合并指令,并将分布式数据合并策略下发给LDAP,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示网络中的一个或多个云服务器节点对提取和转换操作结果进行合并。本发明实现采用云计算模式提高了数据处理系统的可扩展性和易用性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
图5为本发明提供的云服务主节点一个实施例的结构示意图,如图5所示,该云服务主节点包括:第一发送模块11和第一接收模块12。其中:
第一发送模块11,用于向目录服务器LDAP下发第一提取和转换指令,第一提取和转换指令中携带待处理数据的存储路径,用于表示对待处理数据进行提取和转换操作,以使LDAP向至少一个第一云服务节点下发第二提取和转换指令,第二提取和转换指令中携带待处理数据的存储路径以及待处理数据的特征信息,用于表示对特征信息对应的待处理数据的全部或部分进行提取和转换操作;
第一接收模块12,用于接收第一云服务节点上报的提取和转换响应,提取和转换响应表示完成对特征信息对应的待处理数据进行的提取和转换操作;
第一发送模块11,还用于向LDAP下发第一合并指令,第一合并指令表示对第一云服务节点的提取和转换操作结果进行合并,以使LDAP向至少一个第二云服务节点下发第二合并指令,第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对标识信息对应的第一云服务节点的待合并数据进行合并,其中,待合并数据为第一云服务节点的提取和转换操作结果;
第一接收模块12,还用于接收至少一个第二云服务节点上报的合并响应,合并响应表示完成对标识信息对应的第一云服务节点的待合并数据进行合并;
第一发送模块11,还用于向至少一个第二云服务节点下发入库指令,入库指令中携带数据库服务器的标识信息,入库指令表示将合并结果加载至数据库服务器。
图6为本发明提供的云服务主节点又一个实施例的结构示意图,如图6所示,在图5所示的实施例基础上,第一发送模块11还可以用于:向LDAP下发分布式数据分发策略,和/或,向LDAP下发分布式数据合并策略。
可选的,本实施例提供的云服务主节点,还可以包括:获取模块13和生成模块14;其中:
获取模块13,用于根据待处理数据的存储路径获取待处理数据;
生成模块14,用于对待处理数据进行扫描,根据扫描得到的待处理数据的特征生成分布式数据分发策略。
可选的,生成模块14还可以用于:根据分布式数据分发策略所基于的待处理数据的特征,生成分布式数据合并策略。
本实施例提供的云服务主节点,与本发明实施例提供的云计算模式下的数据处理方法相对应,该云服务主节点执行云计算模式下的数据处理方法的过程可参见图1和图4对应的数据处理方法实施例,在此不再赘述。
本实施例提供的云服务主节点,当该云服务主节点接收到数据ETL任务后,生成分布式数据分发策略下发给LDAP,LDAP根据分布式数据分发策略指示网络中的各云服务器节点执行数据清洗和转换操作;云服务主节点根据分布式数据分发策略生成分布式数据合并策略下发给LDAP,LDAP根据数据合并策略指示网络中的各云服务器节点对清洗和转换操作结果进行合并。本发明实现采用云计算模式提高了数据处理系统的可扩展性和易用性。
图7为本发明提供的目录服务器一个实施例的结构示意图,如图7所示,该目录服务器包括:第二接收模块21和第二发送模块22;其中:
第二接收模块21,用于接收云服务主节点下发的第一提取和转换指令,第一提取和转换指令中携带待处理数据的存储路径,用于表示对待处理数据进行提取和转换操作;
第二发送模块22,用于根据设定的分布式数据分发策略以及本地存储的网络中各云服务器节点的资源占用目录,向至少一个第一云服务器节点下发第二提取和转换指令,第二提取和转换指令中携带待处理数据的存储路径以及待处理数据的特征信息,用于表示对特征信息对应的待处理数据的全部或部分进行提取和转换操作;
第二接收模块21,还用于接收云服务主节点下发的第一合并指令,第一合并指令表示对第一云服务节点的提取和转换操作结果进行合并;
第二发送模块22,还用于根据设定的分布式数据合并策略以及资源占用目录,向至少一个第二云服务节点下发第二合并指令,第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对标识信息对应的第一云服务节点的待合并数据进行合并,待合并数据为第一云服务节点的提取和转换操作结果;。
图8为本发明提供的目录服务器又一个实施例的结构示意图,如图8所示,在图7所示实施例的基础上,第二接收模块21还可以用于:接收云服务主节点下发的分布式数据分发策略,和/或分布式数据合并策略。
可选的,本实施例提供的目录服务器,还可以包括:监控模块23和更新模块24;其中:监控模块23,用于对网络中各云服务器节点的资源占用情况进行实时监控;更新模块24,用于根据监控模块23的监控结果更新资源占用目录。
本实施例提供的目录服务器,与本发明实施例提供的云计算模式下的数据处理方法相对应,该目录服务器执行云计算模式下的数据处理方法的过程可参见图2和图4对应的数据处理方法实施例,在此不再赘述。
本实施例提供的目录服务器,在收到云服务主节点下发的分布式数据分发策略后,根据分布式数据分发策略指示网络中的各云服务器节点执行数据清洗和转换操作;接收到云服务主节点下发的分布式数据合并策略后,LDAP根据数据合并策略指示网络中的各云服务器节点对清洗和转换操作结果进行合并。本发明实现采用云计算模式提高了数据处理系统的可扩展性和易用性。
图9为本发明提供的云服务节点一个实施例的结构示意图,如图9所示,该云服务节点包括:第三接收模块31、执行模块32和第三发送模块33;
第三接收模块31,用于接收目录服务器LDAP下发的第二提取和转换指令,第二提取和转换指令中携带待处理数据的存储路径以及待处理数据的特征信息,用于表示对特征信息对应的待处理数据进行提取和转换操作;执行模块32用于根据待处理数据的存储路径获取待处理数据,并对特征信息对应的待处理数据进行提取和转换操作;第三发送模块33,用于向云服务主节点上报提取和转换响应,提取和转换响应表示完成对特征信息对应的待处理数据进行的提取和转换操作;
和/或,第三接收模块31,用于接收LDAP下发的第二合并指令,第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对标识信息对应的第一云服务节点的待合并数据进行合并,待合并数据为第一云服务节点的提取和转换操作结果;执行模块32,用于根据待合并数据的存储路径获取待合并数据,对标识信息对应的第一云服务节点的待合并数据进行合并;第三发送模块33,用于向云服务主节点上报合并响应,合并响应表示完成对标识信息对应的第一云服务节点的待合并数据进行合并。
可选的,第三接收模块31还可以用于:接收云服务主节点下发的入库指令,入库指令中携带数据库服务器的标识信息,入库指令表示将合并结果加载至数据库服务器;执行模块32还可以用于:根据入库指令,将合并结果加载至数据库服务器。
本实施例提供的云服务节点,与本发明实施例提供的云计算模式下的数据处理方法相对应,该云服务节点执行云计算模式下的数据处理方法的过程可参见图3和图4对应的数据处理方法实施例,在此不再赘述。
本实施例提供的云服务节点,在收到云服务主节点下发的分布式数据分发策略后,根据分布式数据分发策略指示网络中的各云服务器节点执行数据清洗和转换操作;接收到云服务主节点下发的分布式数据合并策略后,LDAP根据数据合并策略指示网络中的各云服务器节点对清洗和转换操作结果进行合并。本发明实现采用云计算模式提高了数据处理系统的可扩展性和易用性。
图10为本发明提供的云计算模式下的数据处理系统一个实施例的结构示意图,如图10所示,该系统包括:云服务主节点1、目录服务器2和至少一个云服务节点3和至少一个数据库服务器4
云服务主节点1,用于向目录服务器2下发第一提取和转换指令,第一提取和转换指令中携带待处理数据的存储路径,用于表示对待处理数据进行提取和转换操作;向目录服务器2下发第一合并指令,第一合并指令表示对第一云服务节点的提取和转换操作结果进行合并;接收至少一个第二云服务节点上报的合并响应,合并响应表示完成对标识信息对应的第一云服务节点的待合并数据进行合并;向至少一个第二云服务节点下发入库指令,入库指令中携带数据库服务器的标识信息,入库指令表示将合并结果加载至数据库服务器;
目录服务器2,用于接收云服务主节点1下发的第一提取和转换指令,第一提取和转换指令中携带待处理数据的存储路径,用于表示对待处理数据进行提取和转换操作;根据设定的分布式数据分发策略以及本地存储的系统中各云服务器节点的资源占用目录,向至少一个第一云服务器节点下发第二提取和转换指令,第二提取和转换指令中携带待处理数据的存储路径以及待处理数据的特征信息,用于表示对特征信息对应的待处理数据进行提取和转换操作;接收云服务主节点1下发的第一合并指令,第一合并指令表示对第一云服务节点的提取和转换操作结果进行合并;根据设定的分布式数据合并策略以及资源占用目录,向至少一个第二云服务节点下发第二合并指令,第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对标识信息对应的第一云服务节点的待合并数据进行合并,待合并数据为第一云服务节点的提取和转换操作结果;
云服务节点3,当作为第一云服务节点时,用于接收目录服务器2下发的第二提取和转换指令;根据第二提取和转换指令获取待处理数据,并对特征信息对应的待处理数据进行提取和转换操作;向云服务主节点2上报提取和转换响应;和/或,当作为第二云服务节点时,接收目录服务器2下发的第二合并指令;根据第二合并指令获取待合并数据,对标识信息对应的第一云服务节点的待合并数据进行合并;向云服务主节点1上报合并响应;
每个数据库服务器4可以用于:接收云服务节点3加载的数据,根据设定规则将加载的数据存储在本地内存中。
本实施例提供的云计算模式下的数据处理系统,与本发明提供的云计算模式下的数据处理方法相对应,系统中各设备执行云计算模式下的数据处理方法的过程可参见图1-图4对应的数据处理方法实施例,在此不再赘述。
本实施例提供的云计算模式下的数据处理系统,云服务主节点将提取和转换指令下发给LDAP,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示网络中的一个或多个云服务器节点执行提取和转换操作;云服务器节点执行完提取和转换操作之后,云服务主节点可以向LDAP下发合并指令,LDAP可以根据设定的分布式数据分发策略以及各云服务器节点的资源占用情况指示网络中的一个或多个云服务器节点对提取和转换操作结果进行合并。本发明实现采用云计算模式提高了数据处理系统的可扩展性和易用性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (19)

1.一种云计算模式下的数据处理方法,其特征在于,包括:
向目录服务器LDAP下发第一提取和转换指令,所述第一提取和转换指令中携带待处理数据的存储路径,用于表示对所述待处理数据进行提取和转换操作,以使所述LDAP向至少一个第一云服务节点下发第二提取和转换指令,所述第二提取和转换指令中携带所述待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据进行提取和转换操作;
接收所述第一云服务节点上报的提取和转换响应,所述提取和转换响应表示完成对所述特征信息对应的待处理数据进行的提取和转换操作;
向所述LDAP下发第一合并指令,所述第一合并指令表示对所述第一云服务节点的提取和转换操作结果进行合并,以使所述LDAP向至少一个第二云服务节点下发第二合并指令,所述第二合并指令中携带至少两个所述第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果;
接收至少一个所述第二云服务节点上报的合并响应,所述合并响应表示完成对所述标识信息对应的第一云服务节点的待合并数据进行合并;
向至少一个所述第二云服务节点下发入库指令,所述入库指令中携带数据库服务器的标识信息,所述入库指令表示将合并结果加载至所述数据库服务器。
2.根据权利要求1所述的方法,其特征在于,还包括:
向所述LDAP下发分布式数据分发策略,和/或,向所述LDAP下发分布式数据合并策略。
3.根据权利要求2所述的方法,其特征在于,所述向所述LDAP下发分布式数据分发策略之前,包括:
根据所述待处理数据的存储路径获取所述待处理数据;
对所述待处理数据进行扫描,根据扫描得到的所述待处理数据的特征生成所述分布式数据分发策略。
4.根据权利要求3所述的方法,其特征在于,所述向所述LDAP下发分布式数据合并策略之前,还包括:
根据所述分布式数据分发策略所基于的所述待处理数据的特征,生成所述分布式数据合并策略。
5.一种云计算模式下的数据处理方法,其特征在于,包括:
接收云服务主节点下发的第一提取和转换指令,所述第一提取和转换指令中携带待处理数据的存储路径,用于表示对所述待处理数据进行提取和转换操作;
根据设定的分布式数据分发策略以及本地存储的系统中各云服务器节点的资源占用目录,向至少一个第一云服务器节点下发第二提取和转换指令,所述第二提取和转换指令中携带所述待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据进行提取和转换操作;
接收所述云服务主节点下发的第一合并指令,所述第一合并指令表示对所述第一云服务节点的提取和转换操作结果进行合并;
根据设定的分布式数据合并策略以及所述资源占用目录,向至少一个第二云服务节点下发第二合并指令,所述第二合并指令中携带至少两个所述第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果。
6.根据权利要求5所述的方法、其特征在于,还包括:
接收所述云服务主节点下发的所述分布式数据分发策略,和/或所述分布式数据合并策略。
7.根据权利要求5或6所述的方法,其特征在于,还包括:
对系统中各云服务器节点的资源占用情况进行实时监控,并更新所述资源占用目录。
8.一种云计算模式下的数据处理方法,其特征在于,包括:
接收目录服务器LDAP下发的第二提取和转换指令,所述第二提取和转换指令中携带待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据进行提取和转换操作;根据所述待处理数据的存储路径获取所述待处理数据,并对所述特征信息对应的待处理数据进行提取和转换操作;向云服务主节点上报提取和转换响应,所述提取和转换响应表示完成对所述特征信息对应的待处理数据进行的提取和转换操作;
和/或,接收所述LDAP下发的第二合并指令,所述第二合并指令中携带至少两个所述第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果;根据所述待合并数据的存储路径获取所述待合并数据,对所述标识信息对应的第一云服务节点的待合并数据进行合并;向所述云服务主节点上报合并响应,所述合并响应表示完成对所述标识信息对应的第一云服务节点的待合并数据进行合并。
9.根据权利要求8所述的方法,其特征在于,所述向所述云服务主节点上报合并响应之后,还包括:
接收所述云服务主节点下发的入库指令,所述入库指令中携带数据库服务器的标识信息,所述入库指令表示将合并结果加载至所述数据库服务器;
根据所述入库指令,将所述合并结果加载至所述数据库服务器。
10.一种云服务主节点,其特征在于,包括:
第一发送模块,用于向目录服务器LDAP下发第一提取和转换指令,所述第一提取和转换指令中携带待处理数据的存储路径,用于表示对所述待处理数据进行提取和转换操作,以使所述LDAP向至少一个第一云服务节点下发第二提取和转换指令,所述第二提取和转换指令中携带所述待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据的全部或部分进行提取和转换操作;
第一接收模块,用于接收所述第一云服务节点上报的提取和转换响应,所述提取和转换响应表示完成对所述特征信息对应的待处理数据进行的提取和转换操作;
所述第一发送模块,还用于向所述LDAP下发第一合并指令,所述第一合并指令表示对所述第一云服务节点的提取和转换操作结果进行合并,以使所述LDAP向至少一个第二云服务节点下发第二合并指令,所述第二合并指令中携带至少两个所述第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果;
所述第一接收模块,还用于接收至少一个所述第二云服务节点上报的合并响应,所述合并响应表示完成对所述标识信息对应的第一云服务节点的待合并数据进行合并;
所述第一发送模块,还用于向至少一个所述第二云服务节点下发入库指令,所述入库指令中携带数据库服务器的标识信息,所述入库指令表示将合并结果加载至所述数据库服务器。
11.根据权利要求10所述的云服务主节点,其特征在于,所述第一发送模块还用于:向所述LDAP下发分布式数据分发策略,和/或,向所述LDAP下发分布式数据合并策略。
12.根据权利要求11所述的云服务主节点,其特征在于,还包括:
获取模块,用于根据所述待处理数据的存储路径获取所述待处理数据;
生成模块,用于对所述待处理数据进行扫描,根据扫描得到的所述待处理数据的特征生成所述分布式数据分发策略。
13.根据权利要求12所述的云服务主节点,其特征在于,所述生成模块还用于:根据所述分布式数据分发策略所基于的所述待处理数据的特征,生成所述分布式数据合并策略。
14.一种目录服务器,其特征在于,包括:
第二接收模块,用于接收云服务主节点下发的第一提取和转换指令,所述第一提取和转换指令中携带待处理数据的存储路径,用于表示对所述待处理数据进行提取和转换操作;
第二发送模块,用于根据设定的分布式数据分发策略以及本地存储的系统中各云服务器节点的资源占用目录,向至少一个第一云服务器节点下发第二提取和转换指令,所述第二提取和转换指令中携带所述待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据的全部或部分进行提取和转换操作;
所述第二接收模块,还用于接收所述云服务主节点下发的第一合并指令,所述第一合并指令表示对所述第一云服务节点的提取和转换操作结果进行合并;
所述第二发送模块,还用于根据设定的分布式数据合并策略以及所述资源占用目录,向至少一个第二云服务节点下发第二合并指令,所述第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果。
15.根据权利要求14所述的目录服务器,其特征在于,所述第二接收模块还用于:接收所述云服务主节点下发的所述分布式数据分发策略,和/或所述分布式数据合并策略。
16.根据权利要求14或15所述的目录服务器,其特征在于,还包括:
监控模块,用于对系统中各云服务器节点的资源占用情况进行实时监控;
更新模块,用于根据所述监控模块的监控结果更新所述资源占用目录。
17.一种云服务节点,其特征在于,包括:第三接收模块、执行模块和第三发送模块;
所述第三接收模块,用于接收目录服务器LDAP下发的第二提取和转换指令,所述第二提取和转换指令中携带待处理数据的存储路径以及所述待处理数据的特征信息,用于表示对所述特征信息对应的待处理数据进行提取和转换操作;所述执行模块用于根据所述待处理数据的存储路径获取所述待处理数据,并对所述特征信息对应的待处理数据进行提取和转换操作;所述第三发送模块,用于向云服务主节点上报提取和转换响应,所述提取和转换响应表示完成对所述特征信息对应的待处理数据进行的提取和转换操作;
和/或,所述第三接收模块,用于接收所述LDAP下发的第二合并指令,所述第二合并指令中携带至少两个第一云服务节点的标识信息和待合并数据的存储路径,用于表示对所述标识信息对应的第一云服务节点的待合并数据进行合并,所述待合并数据为所述第一云服务节点的提取和转换操作结果;;所述执行模块,用于根据所述待合并数据的存储路径获取所述待合并数据,对所述标识信息对应的第一云服务节点的待合并数据进行合并;所述第三发送模块,用于向所述云服务主节点上报合并响应,所述合并响应表示完成对所述标识信息对应的第一云服务节点的待合并数据进行合并。
18.根据权利要求17所述的云服务节点,其特征在于,所述第三接收模块还用于:接收所述云服务主节点下发的入库指令,所述入库指令中携带数据库服务器的标识信息,所述入库指令表示将合并结果加载至所述数据库服务器;
所述执行模块还用于:根据所述入库指令,将所述合并结果加载至所述数据库服务器。
19.一种云计算模式下的数据处理系统,其特征在于,包括:如权利要求10-13任一项所述的云服务主节点、如权利要求14-16任一项所述的目录服务器和如权利要求17或18所述的云服务节点和至少一个数据库服务器。
CN201210260828.1A 2012-07-25 2012-07-25 云计算模式下的数据处理方法、设备和系统 Active CN102780780B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210260828.1A CN102780780B (zh) 2012-07-25 2012-07-25 云计算模式下的数据处理方法、设备和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210260828.1A CN102780780B (zh) 2012-07-25 2012-07-25 云计算模式下的数据处理方法、设备和系统

Publications (2)

Publication Number Publication Date
CN102780780A true CN102780780A (zh) 2012-11-14
CN102780780B CN102780780B (zh) 2014-11-19

Family

ID=47125532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210260828.1A Active CN102780780B (zh) 2012-07-25 2012-07-25 云计算模式下的数据处理方法、设备和系统

Country Status (1)

Country Link
CN (1) CN102780780B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360905A (zh) * 2014-10-29 2015-02-18 中国建设银行股份有限公司 一种应用于it系统的自适应控制方法和装置
CN107517128A (zh) * 2017-08-24 2017-12-26 北京小米移动软件有限公司 数据传输方法、装置和设备
CN112597220A (zh) * 2020-12-16 2021-04-02 北京锐安科技有限公司 数据文件读取方法、装置、电子设备和介质
WO2021072776A1 (zh) * 2019-10-18 2021-04-22 北京欧珀通信有限公司 数据合并方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763261A (zh) * 2009-12-28 2010-06-30 山东中创软件商用中间件股份有限公司 数据抽取、转换和加载方法、系统及装置
CN102135995A (zh) * 2011-03-17 2011-07-27 新太科技股份有限公司 一种etl数据清洗设计方法
US20110231358A1 (en) * 2007-12-28 2011-09-22 Knowledge Computing Corporation Method and apparatus for loading data files into a data-warehouse system
CN102541959A (zh) * 2010-12-31 2012-07-04 中国移动通信集团安徽有限公司 Etl调度方法、装置及系统
CN102546256A (zh) * 2012-01-12 2012-07-04 易云捷讯科技(北京)有限公司 用于对云计算服务进行监控的系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231358A1 (en) * 2007-12-28 2011-09-22 Knowledge Computing Corporation Method and apparatus for loading data files into a data-warehouse system
CN101763261A (zh) * 2009-12-28 2010-06-30 山东中创软件商用中间件股份有限公司 数据抽取、转换和加载方法、系统及装置
CN102541959A (zh) * 2010-12-31 2012-07-04 中国移动通信集团安徽有限公司 Etl调度方法、装置及系统
CN102135995A (zh) * 2011-03-17 2011-07-27 新太科技股份有限公司 一种etl数据清洗设计方法
CN102546256A (zh) * 2012-01-12 2012-07-04 易云捷讯科技(北京)有限公司 用于对云计算服务进行监控的系统及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360905A (zh) * 2014-10-29 2015-02-18 中国建设银行股份有限公司 一种应用于it系统的自适应控制方法和装置
CN107517128A (zh) * 2017-08-24 2017-12-26 北京小米移动软件有限公司 数据传输方法、装置和设备
CN107517128B (zh) * 2017-08-24 2020-06-19 北京小米移动软件有限公司 数据传输方法、装置和设备
WO2021072776A1 (zh) * 2019-10-18 2021-04-22 北京欧珀通信有限公司 数据合并方法、装置、电子设备及存储介质
CN112597220A (zh) * 2020-12-16 2021-04-02 北京锐安科技有限公司 数据文件读取方法、装置、电子设备和介质
CN112597220B (zh) * 2020-12-16 2023-10-17 北京锐安科技有限公司 数据文件读取方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN102780780B (zh) 2014-11-19

Similar Documents

Publication Publication Date Title
US8612488B1 (en) Efficient method for relocating shared memory
CN104699423B (zh) Linux系统中绑定盘符的方法和装置
CN103678337B (zh) 数据清除方法、装置及系统
CN103324533B (zh) 分布式数据处理方法、装置及系统
CN107665233A (zh) 数据库数据处理方法、装置、计算机设备和存储介质
CN104881466A (zh) 数据分片的处理以及垃圾文件的删除方法和装置
CN101551801A (zh) 数据同步的方法和系统
CN110287696B (zh) 一种反弹shell进程的检测方法、装置和设备
CN102375837A (zh) 数据采集系统和方法
CN106506715A (zh) 域名解析方法及装置
CN102023843B (zh) 函数的调用方法、装置及智能卡
CN104079686A (zh) 终端设备mac地址的设置方法以及分配方法
CN102780780B (zh) 云计算模式下的数据处理方法、设备和系统
CN102073741A (zh) 一种实现文件读取和/或写入的方法以及数据服务器
CN107026871A (zh) 一种基于云计算的Web漏洞扫描方法
CN111258978A (zh) 一种数据存储的方法
CN105446794A (zh) 一种基于虚拟机的磁盘操作方法、装置及系统
CN105183768A (zh) 一种文件管理方法、装置和终端设备
CN104423982A (zh) 请求的处理方法和处理设备
CN111813774B (zh) 一种基于sysdig系统监控获取溯源信息的方法
CN104636368A (zh) 数据检索方法、装置及服务器
CN104956340A (zh) 可扩展数据重复删除
CN104517067A (zh) 访问数据的方法、装置及系统
CN105468981A (zh) 基于漏洞识别技术的插件安全扫描装置及扫描方法
CN103902230A (zh) 一种数据处理方法、设备和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant