CN105227669A

CN105227669A - 一种面向深度学习的cpu与gpu混合的集群架构系统

Info

Publication number: CN105227669A
Application number: CN201510666799.2A
Authority: CN
Inventors: 张清; 王娅娟
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2015-10-15
Filing date: 2015-10-15
Publication date: 2016-01-06

Abstract

本发明公开了一种面向深度学习的CPU与GPU混合的集群架构系统，该系统包括：中央处理器CPU集群，用于运行逻辑密集的深度学习应用；图像处理器GPU集群，用于运行计算密集的深度学习应用；与CPU集群相连的第一交换机；与GPU集群相连的第二交换机；与第一交换机和第二交换机相连的第三交换机；与第三交换机相连的并行存储设备，用于为CPU集群和GPU集群提供共用的数据。该系统实现减少资源耗能，提高深度学习处理效率，且降低成本。

Description

一种面向深度学习的CPU与GPU混合的集群架构系统

技术领域

本发明涉及互联网高性能计算技术领域，特别是涉及一种面向深度学习的CPU与GPU混合的集群架构系统。

背景技术

在2006年，加拿大多伦多大学教授、机器学习领域泰斗——GeoffreyHinton和他的学生RuslanSalakhutdinov在顶尖学术刊物《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。自2006年以来，深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年，美国国防部DARPA计划首次资助深度学习项目，参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据，就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型，由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度，目前深度学习的理论研究还基本处于起步阶段，但在应用领域已显现出巨大能量。2011年以来，微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20％～30％，是语音识别领域十多年来最大的突破性进展。2012年，DNN技术在图像识别领域取得惊人的效果，在ImageNet评测上将错误率从26％降低到15％。在这一年，DNN还被应用于制药公司的DrugeActivity预测问题，并获得世界最好成绩，这一重要成果被《纽约时报》报道。

如今Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源，占领深度学习的技术制高点，正是大数据时代来临，更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息，并对未来或未知事件做更精准的预测。深度学习应用包括语音识别、图像识别、自然语言处理、搜索广告CTR预估等，这些应用的计算量十分巨大，其需要大规模计算。

目前大规模的深度学习系统由纯CPU集群架构组成，或者由纯GPU集群架构组成，但是采用纯CPU集群架构系统，它完全由CPU构成，需要消耗大量的CPU能耗，资源耗能太大，而且CPU集群只能处理一种应用特征的深度学习，不能处理其他种类的深度学习应用，处理深度学习应用的效率太低，而且CPU本身硬件成本就很高，整个CPU集群的成本太高。

发明内容

本发明的目的是提供一种面向深度学习的CPU与GPU混合的集群架构系统，以实现减少资源耗能，提高深度学习处理效率，且降低成本。

为解决上述技术问题，本发明提供一种面向深度学习的CPU与GPU混合的集群架构系统，该系统包括：

中央处理器CPU集群，用于运行逻辑密集的深度学习应用；所述CPU集群包括至少1024个CPU节点，每个CPU节点包括两个CPU，所述CPU集群中每个CPU节点均与其它所有的CPU节点相连；

图像处理器GPU集群，用于运行计算密集的深度学习应用；所述GPU集群包括至少100个GPU，所述GPU集群中每个GPU节点内GPU卡数为至少2个，所述GPU集群中每个GPU节点均与其它所有的GPU节点相连；

与所述CPU集群相连的第一交换机；

与所述GPU集群相连的第二交换机；

与所述第一交换机和第二交换机相连的第三交换机；

与所述第三交换机相连的并行存储设备，用于为所述CPU集群和所述GPU集群提供共用的数据。

优选的，所述深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。

优选的，所述CPU集群中任意两个CPU节点之间采用万兆以太网互联。

优选的，所述GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互联。

优选的，所述并行存储设备为高宽带并行Lusre存储设备，用于支持多进程或多线程的并行读写。

优选的，所述CPU节点采用双路高主频CPU。

优选的，所述GPU节点由中央处理器CPU构成，所述GPU节点采用双路低主频CPU。

优选的，所述系统还包括调度机制模块，用于判断数据大小，根据数据大小确定应用规模；当数据小于10GB的数据时，判断数据的应用规模为属于第一级的小规模应用，将数据调度到单个GPU节点运行；当数据大于10GB且小于1TB时，判断数据的应用规模为属于第二级的中等规模应用，将数据调度到4个GPU节点运行；当数据大于1TB时，判断数据的应用规模为属于第三级的大规模应用，将数据调度到整个GPU集群运行。

本发明所提供的一种面向深度学习的CPU与GPU混合的集群架构系统，包括：中央处理器CPU集群，用于对运行逻辑密集的深度学习应用；所述CPU集群包括至少1024个CPU节点，每个CPU节点包括两个CPU，所述CPU集群中每个CPU节点均与其它所有的CPU节点相连；图像处理器GPU集群，用于运行计算密集的深度学习应用；所述GPU集群包括至少100个GPU，所述GPU集群中每个GPU节点内GPU卡数为至少2个，所述GPU集群中每个GPU节点均与其它所有的GPU节点相连；与所述CPU集群相连的第一交换机；与所述GPU集群相连的第二交换机；与所述第一交换机和第二交换机相连的第三交换机；与所述第三交换机相连的并行存储设备，用于为所述CPU集群和所述GPU集群提供共用的数据。可见，该系统采用CPU与GPU混合的集群架构，GPU集群能够运行计算密集、高度并行的深度学习应用，CPU集群能够运行逻辑密集、并行性不高的深度学习应用，则整个系统能处理不同应用特征的深度学习应用，CPU与GPU协同计算，从而加速深度学习应用处理时间，提升计算效率，提高深度学习处理效率，并且一个GPU节点的数据处理能力相当于4或5个以上CPU节点的数据处理能力，这样不采用纯CPU集群架构系统，在达到同样的数据处理能力的情况下，采用GPU与CPU结合架构系统能够节省成本，也减少系统功耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种面向深度学习的CPU与GPU混合的集群架构系统的结构示意图。

具体实施方式

本发明的核心是提供一种面向深度学习的CPU与GPU混合的集群架构系统，以实现减少资源耗能，提高深度学习处理效率，且降低成本。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明提供的一种面向深度学习的CPU与GPU混合的集群架构系统的结构示意图，该系统包括：

处理器CPU集群11，用于运行逻辑密集的深度学习应用；所述CPU集群包括至少1024个CPU节点，每个CPU节点包括两个CPU，CPU集群中每个CPU节点均与其它所有的CPU节点相连；

图像GPU集群12，用于运行计算密集的深度学习应用；GPU集群包括至少100个GPU，GPU集群中每个GPU节点内GPU卡数为至少2个，GPU集群中每个GPU节点均与其它所有的GPU节点相连；

其中，深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。具体的，处理器CPU集群运行逻辑密集、并行性不高的深度学习应用，图像GPU集群运行计算密集、高度并行的深度学习应用。GPU集群中每个GPU节点内GPU卡数为至少2个，即每个GPU节点的GPU块数为至少2个。

其中，CPU集群中任意两个CPU节点之间采用万兆以太网互联，GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互联；图中的GPU节点有64个，图中虽未具体标出GPU节点之间的互联连接线，但是实际上所有的GPU节点中，任意两个GPU节点之间都是相互连接的，每个GPU节点均与其它所有的GPU节点相连；图中的CPU节点有2000个，图中虽未具体标出CPU节点之间的互联连接线，但是实际上所有的CPU节点中，任意两个GPU节点之间都是相互连接的，每个CPU节点均与其它所有的CPU节点相连。

其中，CPU节点采用双路高主频CPU；GPU是图像处理器，也是由处理器CPU构成，GPU节点由中央处理器CPU构成，所述GPU采用双路低主频CPU。

与处理器CPU集群11相连的第一交换机13；

与图像GPU集群12相连的第二交换机14；

其中，第一交换机与第三交换机之间采用万兆以太网连接，进行通信；第二交换机与第三交换机之间采用IB网络连接，进行通信。

与第一交换机13和第二交换机14相连的第三交换机15；

与第三交换机15相连的并行存储设备16，用于为CPU集群和所述GPU集群提供共用的数据。

其中，第三交换机与并行存储设备16之间采用IB网络相连。

其中，并行存储设备为高宽带并行Lusre存储设备，用于支持多进程或多线程的并行读写，使CPU集群与GPU集群共用一套存储，采用高带宽并行Lustre存储。

其中，所述系统还包括调度机制模块，用于判断数据大小，根据数据大小确定应用规模；当数据小于10GB的数据时，判断应用规模为属于第一级的小规模应用，将数据调度到单个GPU节点运行；当数据大于10GB且小于1TB时，判断数据的应用规模为属于第二级的中等规模应用，将数据调度到4个GPU节点运行；当数据大于1TB时，判断数据的应用规模为属于第三级的大规模应用，将数据调度到整个GPU集群运行。需要说明的是，GPU集群主要运行计算密集、高度并行的深度学习应用，CPU集群主要运行逻辑密集、并行性不高的深度学习应用。CPU集群虽然主要运行逻辑密集、并行性不高的深度学习应用，但是CPU集群也能够处理计算密集高的数据，处理的数据量是少量的，即CPU集群能够处理小部分的计算密集高的数据，大部分的计算密集高的数据仍是由GPU集群来处理。

具体的，该系统采用CPU和GPU混合集群架构，包括纯CPU集群和纯GPU集群，CPU集群中所有的CPU节点之间为互联关系，任意两个CPU节点之间互相相连，其中CPU集群节点数为1024个节点以上，GPU集群中所有的GPU节点之间为互联关系，任意两个GPU节点之间互相相连，GPU集群配置100块GPU以上，这样整个架构系统可以进行大规模计算，CPU集群和GPU集群均处理全面的线下训练任务，涵盖语音深度学习应用、图像深度学习应用、文字深度学习应用或者其它深度学习应用，CPU集群和CPU集群均部署了Caffe学习计算框架、Torch学习计算框架、Theano学习计算框架、cudaconvnet学习计算框架、KALDI学习计算框架或者其它深度学习计算框架，每种深度学习框架均进行语音训练、图像训练、文字训练、广告训练或者其它训练。系统中每个CPU和每个CPU均还包括学习计算框架模块，用于进行语音训练、图像训练、文字训练或者广告训练，所述计算框架模块包括了Caffe学习计算框架模块、Torch学习计算框架模块、Theano学习计算框架模块、cudaconvnet学习计算框架模块或者KALDI学习计算框架模块。

具体的，CPU集群节点采用双路高主频CPU，GPU集群采用双路低主频CPU，采用Intelhaswell架构的E5-2680v3型号CPU，每个节点配置2颗CPU，可以插4块GPU卡，满足最大8GPU的扩展。GPU集群主要运行计算密集、高度并行的深度学习应用，CPU集群主要运行逻辑密集、并行性不高的深度学习应用。GPU的个数为至少100个，若GPU个数为100个，每个GPU节点内插2块GPU卡，那需要50个GPU节点，若每个GPU节点内插4块GPU卡，那需要25个GPU节点，GPU节点的个数依据每个GPU节点内插的GPU卡数数来确定。GPU集群采用双路低主频CPU，采用Intelhaswell架构的E5-2620v3型号CPU，每个节点配置2颗CPU，插4块NvidaiK80GPU卡，一个GPU节点实现8块GPU卡的扩展。

具体的，系统采用高效调度机制，GPU集群资源采用三级调度模式，第一级为小规模应用，被调度到单GPU节点运行；第二级为中等规模应用，被调度到4个GPU节点运行；第三级为大规模应用被调度到整个GPU集群。CPU集群资源按照先来先服务进行统一调度，整个系统可以满足不同计算规模应用和资源的合理使用。具体的，调度机制模块首先判断数据大小，根据数据大小确定应用规模，当数据小于10GB的数据时，判断数据的应用规模为属于第一级的小规模应用，将数据调度到单个GPU节点运行；当数据大于10GB且小于1TB时，判断数据的应用规模为属于第二级的中等规模应用，将数据调度到4个GPU节点运行；当数据大于1TB时，判断数据的应用规模为属于第三级的大规模应用，将数据调度到整个GPU集群运行。这样完成CPU集群资源对数据进行统一调度，按照先来先服务进行统一调度。

具体的，软件设计流程为：安装readhat操作系统；在GPU集群安装GPU运行环境CUDA7.0；在CPU集群和GPU集群安装MPI库、PThread等并行线程库、编译器；在GPU集群和CPU集群部署Caffe、Torch、Theano、cudaconvnet、KALDI等流行的深度学习计算框架的多节点并行版本。

硬件设计为：系统架构设计方面，采用CPU+GPU混合集群架构，包括纯CPU集群和纯GPU集群，其中CPU集群节点数为1024个节点以上，GPU集群配置100块NvidiaK80GPU以上，整个平台可以进行大规模计算；网络设计方面，CPU集群采用万兆以太网互联，GPU集群采用Mellanox公司的56Gb/sIB高速网络互联；存储设计方面，CPU集群与GPU集群共用一套存储，采用高带宽并行Lustre存储；支持多进程或多线程并行读写，并行读写带宽高、延迟低；计算节点设计方面，CPU集群节点采用双路高主频CPU，采用Intelhaswell架构的E5-2680v3型号CPU，每个节点配置2颗CPU，GPU集群采用双路低主频CPU，Intelhaswell架构的E5-2620v3型号CPU，每个节点配置2颗CPU，插4块NvidaiK80GPU卡，每个K80含有2块GPU芯片，满足最大8个GPU的并行。调度机制设计方面，GPU集群资源采用三级调度模式，首先判断处理数据大小，根据数据大小确定应用规模，小于10GB的数据为小规模应用，10GB到1TB为中等规模应用，大于1TB以上为大规模应用，第一级小规模应用被调度到单GPU节点运行；第二级为中等规模应用被调度到4个GPU节点运行；第三级为大规模应用被调度到整个GPU集群，且CPU集群资源按照先来先服务进行统一调度。

该系统能够处理语音、图像、文字等线下训练任务，完成大规模计算任务，并且具有高效的调度机制，此系统采用CPU+GPU混合集群架构，CPU集群与GPU集群处理不同应用特征的深度学习应用，CPU与GPU协同计算，从而加速深度学习应用处理时间，提升计算效率。

综上，本发明所提供的一种面向深度学习的CPU与GPU混合的集群架构系统，该系统采用CPU与GPU混合的集群架构，GPU集群能够运行计算密集、高度并行的深度学习应用，CPU集群能够运行逻辑密集、并行性不高的深度学习应用，则整个系统能处理不同应用特征的深度学习应用，CPU与GPU协同计算，从而加速深度学习应用处理时间，提升计算效率，提高深度学习处理效率，并且一个GPU节点的数据处理能力相当于4或5个以上CPU节点的数据处理能力，这样不采用纯CPU集群架构系统，在达到同样的数据处理能力的情况下，采用GPU与CPU结合架构系统能够节省成本，也减少系统功耗。

并且，该系统采用高效调度机制，判断数据的大小，依据数据大小确定应用规模，对于小规模应用，将数据调度到单GPU节点运行，对于中等规模应用，将数据调度到4个GPU节点运行；对于大规模应用，将数据调度到整个GPU集群，这样CPU集群资源按照先来先服务进行统一调度，整个系统满足不同计算规模应用和资源的合理使用，更加提高数据的深度学习处理效率。

以上对本发明所提供的一种面向深度学习的CPU与GPU混合的集群架构系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种面向深度学习的CPU与GPU混合的集群架构系统，其特征在于，包括：

与所述CPU集群相连的第一交换机；

与所述GPU集群相连的第二交换机；

与所述第一交换机和第二交换机相连的第三交换机；

2.如权利要求1所述的系统，其特征在于，所述深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。

3.如权利要求1所述的系统，其特征在于，所述CPU集群中任意两个CPU节点之间采用万兆以太网互联。

4.如权利要求1所述的系统，其特征在于，所述GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互联。

5.如权利要求2所述的系统，其特征在于，所述并行存储设备为高宽带并行Lusre存储设备，用于支持多进程或多线程的并行读写。

6.如权利要求3所述的系统，其特征在于，所述CPU节点采用双路高主频CPU。

7.如权利要求4所述的系统，其特征在于，所述GPU节点由中央处理器CPU构成，所述GPU节点采用双路低主频CPU。

8.如权利要求1至7中任意一项所述的系统，其特征在于，所述系统还包括调度机制模块，用于判断数据大小，根据数据大小确定应用规模；当数据小于10GB的数据时，判断数据的应用规模为属于第一级的小规模应用，将数据调度到单个GPU节点运行；当数据大于10GB且小于1TB时，判断数据的应用规模为属于第二级的中等规模应用，将数据调度到4个GPU节点运行；当数据大于1TB时，判断数据的应用规模为属于第三级的大规模应用，将数据调度到整个GPU集群运行。