CN105159610A

CN105159610A - 大规模数据处理系统及方法

Info

Publication number: CN105159610A
Application number: CN201510551644.4A
Authority: CN
Inventors: 高永虎; 张清
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2015-09-01
Filing date: 2015-09-01
Publication date: 2015-12-16
Anticipated expiration: 2035-09-01
Also published as: CN105159610B

Abstract

本发明公开了一种大规模数据处理系统和方法，应用于中央处理器与图形处理器混合异构集群，包括至少一个共享存储节点、一个控制节点和多个计算节点，通过高速网络将所述共享存储节点、控制节点和多个计算节点相连接，由控制节点对数据包中的基本数据块进行统筹规划分配给各计算节点，使得各计算节点的负载均衡，由各计算节点直接从共享存储节点中读取相应的基本数据块进行计算，并返回计算后的结果给控制节点，优化了数据传输过程，缩短了计算时间，从而最大限度的利用现有系统的性能，使得整个系统效率大幅提升，不需受限于网络带宽不足、内存容量小等情况，满足了高性能应用对于大规模数据进行处理的要求。

Description

大规模数据处理系统及方法

技术领域

本发明涉及大规模数据处理技术，尤指一种大规模数据处理系统及方法。

背景技术

目前，处于数据大爆炸的时代，信息数据越来越多，人们对信息数据的处理能力的要求也越来越高，不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算，金融、政府信息化、教育、企业、网络游戏、人工智能等更广泛的领域对高性能计算的需求迅猛增长，而计算速度对于高性能计算尤为重要。

现有技术中，高性能计算朝多核、众核发展，通常采用中央处理器(CentralProcessingUnit，简称：CPU)与图形处理器(GraphicsProcessingUnit，简称：GPU)异构协同计算模式，提升应用计算速度。

但是，现有的数据处理系统和方法受限于网络带宽、系统内存等性能的影响无法满足大规模数据的处理需求。

发明内容

为了解决上述技术问题，本发明提供了一种大规模数据处理系统及方法，能够对大规模数据包进行统筹规划并优化数据传输环节，最大限度的的利用现有系统的性能，使得各计算节点的负载均衡，缩短了计算时间，提升整个系统效率。

第一方面，本发明提供一种大规模数据处理系统，应用于中央处理器与图形处理器混合异构集群，包括：至少一个共享存储节点、一个控制节点和多个计算节点，所述共享存储节点、控制节点和多个计算节点通过高速网络相互连接；其中，

所述共享存储节点用于存储所有需要处理的数据包，所述数据包由多个基本数据块组成；

所述控制节点用于给各所述计算节点分配计算任务，接收各所述计算节点计算后的结果；

所述计算节点用于根据所分配的计算任务从所述共享存储节点读取相应的所述基本数据块进行计算，发送计算后的结果给所述控制节点。

第二方面，本发明提供一种大规模数据处理方法，应用于大规模数据处理系统，所述大规模数据处理系统包括：至少一个共享存储节点、一个控制节点和多个计算节点，所述共享存储节点、所述控制节点和多个所述计算节点通过高速网络相互连接，所述方法包括：

所述共享存储节点存储所有需要处理的数据包，所述数据包由多个基本数据块组成；

所述控制节点给各计算节点分配计算任务，接收各所述计算节点计算后的结果；

所述计算节点根据所分配的计算任务从所述共享存储节点读取相应的所述基本数据块进行计算，发送计算后的结果给所述控制节点。

与现有技术相比，本发明提供的一种大规模数据处理系统和方法，应用于中央处理器与图形处理器混合异构集群，包括至少一个共享存储节点、一个控制节点和多个计算节点，通过高速网络将所述共享存储节点、控制节点和多个计算节点相连接，由控制节点对数据包中的基本数据块进行统筹规划分配给各计算节点，使得各计算节点的负载均衡，由各计算节点直接从共享存储节点中读取相应的基本数据块进行计算，并返回计算后的结果给控制节点，优化了数据传输过程，缩短了计算时间，从而最大限度的利用现有系统的性能，使得整个系统效率大幅提升，不需受限于网络带宽不足、内存容量小等情况，满足了高性能应用对于大规模数据进行处理的要求。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的大规模数据处理系统实施例一的拓扑结构示意图；

图2为本发明实施例提供的大规模数据处理系统实施例一的网络通信示意图；

图3为本发明实施例提供的大规模数据处理方法实施例一的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例涉及的大规模数据处理系统，应用于中央处理器与图形处理器混合异构集群，具体可以是计算机集群或者服务器集群上，但并不以此为限。

本发明实施例涉及的系统和方法，旨在解决现有技术中数据处理系统和方法受限于网络带宽、系统内存等性能的影响无法满足大规模数据处理的需求的技术问题。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的大规模数据处理系统实施例一的结构示意图，图2为本发明实施例提供的大规模数据处理系统实施例一的网络通信示意图，如图1-图2所示，大规模数据处理系统包括：至少一个共享存储节点10、一个控制节点20和多个计算节点30，所述共享存储节点10、控制节点20和多个计算节点30通过高速网络40相互连接，可选的，该高速网络40可以是Myrinet、QsNet、SCI以及Infiniband等多种专用网络，但并不限于此。

所述共享存储节点10用于存储所有需要处理的大规模数据包，所述数据包由多个基本数据块组成。

具体的，根据需要处理的数据的容量，可以设置一个或者多个共享存储节点10，该共享存储节点10可分为主存储和备份存储(图中未示出)，设计备份存储作为冗余设计，用于存储与主存储一样的数据，存储所有需要处理的大规模数据包，大规模数据通常具有数据量大而且种类多的特点，由几千甚至上万个基本数据块组成，通过高速网络40与各计算节点30相连，布式共享给各计算节点，便于对数据进行高效管理，提高了各计算节点30对数据的访问效率。

所述控制节点20用于给各所述计算节点30分配计算任务，接收各所述计算节点30计算后的结果。

具体的，控制节点20根据所述共享存储节点中的大规模数据包以及各计算节点30已有的计算任务作为参考信息，在系统运行过程中，根据各计算节点30的负载状态，随时调整计算任务的分配，使得各计算节点30尽可能保持负载的平衡，所述控制节点20接收到各计算节点30计算后的结果，可以在第一时间了解各计算节点30的计算情况，以便更好地对计算任务进行调度调整，以提高系统的运行效率。

所述计算节点30用于根据所分配的计算任务从所述共享存储节点10读取相应的所述基本数据块进行计算，发送计算后的结果给所述控制节点20。

具体的，计算节点30的数量可以根据需要处理的大规模数据包的内存空间来进行设置，具有一定的扩展性，可以根据情况，增加或者删除相应的计算节点30，但并不限于此。每一个计算节点30会根据控制节点20划分的计算任务，从所述共享存储节点10中的读取相应的基本数据块进行计算，并把计算后的结果发送给控制节点20。

本发明实施例提供的大规模数据处理系统，应用于中央处理器与图形处理器混合异构集群，包括至少一个共享存储节点、一个控制节点和多个计算节点，通过高速网络将所述共享存储节点、控制节点和多个计算节点相连接，由控制节点对数据包中的基本数据块进行统筹规划分配给各计算节点，使得各计算节点的负载均衡，由各计算节点直接从共享存储节点中读取相应的基本数据块进行计算，并返回计算后的结果给控制节点，优化了数据传输过程，缩短了计算时间，从而最大限度的的利用现有系统的性能，使得整个系统效率大幅提升，不需受限于网络带宽不足、内存容量小等情况，满足了高性能应用对于大规模数据进行处理的要求。

进一步地，所述控制节点20用于给各所述计算节点30分配计算任务之前，还用于：确定各所述计算节点30的数据处理能力，所述数据处理能力包括：各所述计算节点30包含的GPU设备的数量、高速网络通信的能力和计算数据的能力。

具体的，控制节点20会收集各计算节点30的GPU设备的数量，根据各计算节点30包含的GPU设备的数量，根据实际情况可以从通信速率、计算速度等反映每个GPU设备的网络通信能力和计算数据的能力，从而更好地分配合适的计算任务给各计算节点30，一般计算节点30包含的GPU设备数量越多，相应的该计算节点30的数据处理能力越强。

进一步地，所述控制节点20包括：至少一个CPU设备210、多个GPU设备220和本地存储模块230，其中，一个CPU作为一个CPU设备210，一块GPU作为一个GPU设备220。

所述CPU设备210用于给各所述计算节点30分配计算任务，包括：用根据各所述计算节点30的数据处理能力确定相应的计算任务，分别发送命令参数给各所述计算节点30的CPU设备310，所述命令参数包含各所述计算节点30需要计算的所述基本数据块的数量和寻址信息。

具体的，为了更好地说明本实施例，举例说明：假设数据包里包括100个基本数据块，有3个计算节点30，如果第一个计算节点30可以处理4个基本数据块的计算任务，第二个计算节点30可以处理8个基本数据块的计算任务，第三个计算节点30可以处理器12个基本数据块的计算任务，则可以将共享存储节点10中的大规模数据包划分为24个基本数据块，则CPU设备210分别发送命令参数给这3个计算节点30的CPU设备310，其中给第一个计算节点30的命令参数包括处理4个基本数据块和对应的地址，给第二个计算节点20的命令参数包括处理8个基本数据块和对应的地址，给第三个计算节点30的命令参数包括处理12个基本数据块和对应的地址。

所述GPU设备220用于接收各所述计算节点30计算后的结果，包括：接收各所述计算节点30内所有GPU设备320的计算结果，将计算后的结果通知给所述控制节点20内的其他GPU设备220。

具体的，所述控制节点20中有多个GPU设备220，所述GPU设备220的一端与所述CPU设备210相连，所述GPU设备220的另一端与一个计算节点30的多个GPU设备320相连，用于接收计算节点30内所有GPU设备320计算后的结果，并将该计算后的结果通知给控制节点20内的其他GPU设备220，以便及时地了解各计算节点30的负载情况。

所述本地存储模块230用于存储命令参数和各所述计算节点计算后的结果。

具体的，本地存储模块230相对于共享存储节点10来说内存空间比较小，适合数据容量小的数据，可以存储控制节点20发送的命令参数和各所述计算节点30计算后的结果，每次计算后的结果会更新前一次计算的结果存储在本地存储模块230里，以保证数据的实时性和安全性。

进一步地，所述计算节点30包括：至少一个CPU设备310和多个GPU设备320，其中，一个CPU作为一个CPU设备310，一块GPU作为一个GPU设备320。

所述CPU设备310用于根据所分配的计算任务从所述共享存储节点读取相应的所述基本数据块，包括：接收所述控制节点20的CPU设备210发送的命令参数，根据所述命令参数从所述共享存储节点10读取相应的所述基本数据块分配给所述计算节点30内各GPU设备320；

具体的，各所述计算节点30的CPU设备310接收到控制节点20发送的命令参数，配置到各计算节点30需要计算的基本数据块的数量和位置等信息，从所述共享存储节点10读取相应的所述基本数据块分配给各GPU设备320，为了更好的说明本实施例，举例说明如下：假设有需要计算的数据包包括10000个基本数据块，有5个计算节点30，一个GPU设备可以处理100个基本数据块的话，如果每个计算节点30都有4个的GPU设备320，则这个5个计算节点30分配的计算任务一样，可以都是400个基本数据块；如果每个计算节点30中的GPU设备数量不一致，假如第一个计算节点30有3个GPU设备320，第二个计算节点30有4个GPU设备320，第二个计算节点30有5个GPU设备320，则第一个计算节点30分配的计算任务可以是300个数据块，第二个计算节点30分配的计算任务可以是400个数据块，第三个计算节点30分配的计算任务可以是500个数据块，具体可以根据实际情况来以便更好地进行统筹分配，但并不以此为限。

所述GPU设备320用于计算相应的所述基本数据块并发送计算后的结果给所述控制节点20，包括：读取所述CPU设备310分配的基本数据块进行计算，并将计算后的结果发送给所述控制节点20的GPU设备220。

具体的，各所述计算节点30的多个GPU设备320读取所述CPU设备310分配的基本数据块进行计算，可以设置一定数量的基本数据块跟GPU设备320的计算能力相匹配，可选的，所述多个型号相同的GPU设备320，这样可以提高计算的并行度，也可以是多个型号不相同的GPU设备320的，可以提高单个计算节点30的计算能力，具体根据需要计算的任务来，多个所述GPU设备320与所述控制节点20的一个GPU设备220相连，以便每个GPU设备320将计算后的结果可以直接发送给控制节点20的GPU设备220，没有中间环节，从而提高了数据处理的效率。

进一步地，所述计算节点30的GPU设备320读取所述CPU设备310分配的基本数据块进行计算是指：依次读取各相应的基本数据块，每读取一个基本数据块后，对所读取的基本数据块进行计算，并读取下一个基本数据块，以及发送上一个基本数据块的计算结果。

具体的，计算节点30的多个GPU设备320在读取所述CPU设备310分配的基本数据块进行计算时，依次读取各相应的基本数据块，假设需要计算N个基本数据块，GPU设备320对第m个基本数据块进行计算，并读取第m+1个基本数据块，以及发送第m-1个基本数据块的计算结果给控制节点20，如果遇到传输繁忙，可以先将计算结果暂存于CPU设备310中，等待网络空闲时再将计算结果发送给控制节点20，这样计算、传输异步不仅缩短了计算的时间，同时由于分块计算，提高了系统的整体的运行效率和设备的利用率，满足了高性能应用的要求。

图3为本发明实施例提供的大规模数据处理方法实施例一的流程示意图，如图3所示，该方法应用于大规模数据处理系统，所述大规模数据处理系统包括：至少一个共享存储节点、一个控制节点和多个计算节点，所述共享存储节点、所述控制节点和多个所述计算节点通过高速网络相互连接，所述方法包括：

S101、所述共享存储节点存储所有需要处理的数据包，所述数据包由多个基本数据块组成；

S102、所述控制节点给各计算节点分配计算任务，接收各所述计算节点计算后的结果；

S103、所述计算节点根据所分配的计算任务从所述共享存储节点读取相应的基本数据块进行计算，发送计算后的结果给所述控制节点。

本发明实施例提供的大规模数据处理方法，应用于大规模数据处理系统，该系统包括至少一个共享存储节点、一个控制节点和多个计算节点相连接，通过高速网络相互连接，该方法通过控制节点对数据包中的基本数据块进行统筹规划分配给各计算节点，使得各计算节点的负载均衡，各计算节点直接从共享存储节点中读取相应的基本数据块进行计算，并返回计算后的结果给控制节点，优化了数据传输过程，缩短了计算时间，从而最大限度的的利用现有系统的性能，使得整个系统效率大幅提升，不需受限于网络带宽不足、内存容量小等情况，满足了高性能应用对于大规模数据进行处理的要求。

进一步地，所述控制节点给各计算节点分配计算任务之前，还包括：

所述控制节点确定各所述计算节点的数据处理能力，所述数据处理能力包括：各所述计算节点包含的GPU设备的数量、网络通信的能力和计算数据的能力。

本发明实施例提供的大规模数据处理方法，可以执行上述系统实施例，其实现原理和技术效果类似，在此不再赘述。

进一步地，所述控制节点包括：至少一个CPU设备、多个GPU设备和本地存储模块；其中，

所述CPU设备给各所述计算节点分配计算任务，包括：根据各所述计算节点的数据处理能力确定相应的计算任务，分别发送命令参数给各所述计算节点的CPU设备，所述命令参数包含各所述计算节点需要计算的所述基本数据块的数量和寻址信息；

所述GPU设备接收各所述计算节点的计算结果，将计算后的结果通知给所说控制节点内的其他GPU设备；

所述本地存储模块存储所述命令参数和各所述计算节点计算后的结果。

进一步地，所述计算节点包括：至少一个CPU设备和多个GPU设备；其中，

所述CPU设备所述CPU设备根据所分配的计算任务从所述共享存储节点读取相应的所述基本数据块，包括：接收所述控制节点的CPU设备发送的命令参数，根据所述命令参数读取相应的所述基本数据块分配给所述计算节点内各所述GPU设备；

所述GPU设备计算相应的所述基本数据块并发送计算后的结果给所述控制节点，包括：读取所述CPU设备分配的基本数据块进行计算，并将计算后的结果发送给所述控制节点的GPU设备。

进一步地，所述计算节点的GPU设备读取所述CPU设备分配的基本数据块进行计算是指：依次读取各相应的基本数据块，每读取一个基本数据块后，对所读取的基本数据块进行计算，并读取下一个基本数据块，以及发送上一个基本数据块的计算结果所述计算节点的多个GPU设备在计算当前的基本数据块时，同时读取下一个基本数据块，同时发送上一个基本数据块的计算结果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种大规模数据处理系统，应用于中央处理器与图形处理器混合异构集群，其特征在于，包括：至少一个共享存储节点、一个控制节点和多个计算节点，所述共享存储节点、控制节点和多个计算节点通过高速网络相互连接；其中，

2.根据权利要求1所述的系统，其特征在于，所述控制节点用于给各所述计算节点分配计算任务之前，还用于：

确定各所述计算节点的数据处理能力，所述数据处理能力包括：各所述计算节点包含的GPU设备的数量、网络通信的能力和计算数据的能力。

3.根据权利要求2所述的系统，其特征在于，所述控制节点包括：至少一个CPU设备、多个GPU设备和本地存储模块；其中，

所述CPU设备用于给各所述计算节点分配计算任务，包括：根据各所述计算节点的数据处理能力确定相应的计算任务，分别发送命令参数给各所述计算节点的CPU设备，所述命令参数包含各所述计算节点需要计算的所述基本数据块的数量和寻址信息；

所述GPU设备用于接收各所述计算节点计算后的结果，包括：接收各所述计算节点内所有GPU设备计算后的结果，将计算后的结果通知给所述控制节点内的其他GPU设备；

所述本地存储模块用于存储所述命令参数和各所述计算节点计算后的结果。

4.根据权利要求3所述的系统，其特征在于，所述计算节点包括：至少一个CPU设备和多个GPU设备；其中，

所述CPU设备用于根据所分配的计算任务从所述共享存储节点读取相应的所述基本数据块，包括：接收所述控制节点的CPU设备发送的命令参数，根据所述命令参数从所述共享存储节点读取相应的所述基本数据块分配给所述计算节点内各GPU设备；

所述GPU设备用于计算相应的所述基本数据块并发送计算后的结果给所述控制节点，包括：读取所述CPU设备分配的基本数据块进行计算，并将计算后的结果发送给所述控制节点的GPU设备。

5.根据权利要求4的系统，其特征在于，所述计算节点的GPU设备读取所述CPU设备分配的基本数据块进行计算是指：依次读取各相应的基本数据块，每读取一个基本数据块后，对所读取的基本数据块进行计算，并读取下一个基本数据块，以及发送上一个基本数据块的计算结果。

6.一种大规模数据处理方法，应用于大规模数据处理系统，其特征在于，所述大规模数据处理系统包括：至少一个共享存储节点、一个控制节点和多个计算节点，所述共享存储节点、所述控制节点和多个所述计算节点通过高速网络相互连接，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述控制节点给各计算节点分配计算任务之前，还包括：

8.根据权利要求7所述的方法，其特征在于，所述控制节点包括：至少一个CPU设备、多个GPU设备和本地存储模块；其中，

所述GPU设备接收各所述计算节点计算后的结果，包括：接收各所述计算节点内所有GPU设备的计算后的结果，将计算后的结果通知给所述控制节点内的其他GPU设备；

9.根据权利要求8所述的方法，其特征在于，所述计算节点包括：至少一个CPU设备和多个GPU设备；其中，

所述CPU设备根据所分配的计算任务从所述共享存储节点读取相应的所述基本数据块，包括：接收所述控制节点的CPU设备发送的命令参数，根据所述命令参数读取相应的所述基本数据块分配给所述计算节点内各所述GPU设备；

10.根据权利要求9所述的方法，其特征在于，所述计算节点的GPU设备读取所述CPU设备分配的基本数据块进行计算是指：依次读取各相应的基本数据块，每读取一个基本数据块后，对所读取的基本数据块进行计算，并读取下一个基本数据块，以及发送上一个基本数据块的计算结果。