CN105227669A - 一种面向深度学习的cpu与gpu混合的集群架构系统 - Google Patents

一种面向深度学习的cpu与gpu混合的集群架构系统 Download PDF

Info

Publication number
CN105227669A
CN105227669A CN201510666799.2A CN201510666799A CN105227669A CN 105227669 A CN105227669 A CN 105227669A CN 201510666799 A CN201510666799 A CN 201510666799A CN 105227669 A CN105227669 A CN 105227669A
Authority
CN
China
Prior art keywords
gpu
cpu
cluster
data
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510666799.2A
Other languages
English (en)
Inventor
张清
王娅娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510666799.2A priority Critical patent/CN105227669A/zh
Publication of CN105227669A publication Critical patent/CN105227669A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向深度学习的CPU与GPU混合的集群架构系统,该系统包括:中央处理器CPU集群,用于运行逻辑密集的深度学习应用;图像处理器GPU集群,用于运行计算密集的深度学习应用;与CPU集群相连的第一交换机;与GPU集群相连的第二交换机;与第一交换机和第二交换机相连的第三交换机;与第三交换机相连的并行存储设备,用于为CPU集群和GPU集群提供共用的数据。该系统实现减少资源耗能,提高深度学习处理效率,且降低成本。

Description

一种面向深度学习的CPU与GPU混合的集群架构系统
技术领域
本发明涉及互联网高性能计算技术领域,特别是涉及一种面向深度学习的CPU与GPU混合的集群架构系统。
背景技术
在2006年,加拿大多伦多大学教授、机器学习领域泰斗——GeoffreyHinton和他的学生RuslanSalakhutdinov在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。自2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。2010年,美国国防部DARPA计划首次资助深度学习项目,参与方有斯坦福大学、纽约大学和NEC美国研究院。支持深度学习的一个重要依据,就是脑神经系统的确具有丰富的层次结构。一个最著名的例子就是Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。除了仿生学的角度,目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。2011年以来,微软研究院和Google的语音识别研究人员先后采用DNN技术降低语音识别错误率20%~30%,是语音识别领域十多年来最大的突破性进展。2012年,DNN技术在图像识别领域取得惊人的效果,在ImageNet评测上将错误率从26%降低到15%。在这一年,DNN还被应用于制药公司的DrugeActivity预测问题,并获得世界最好成绩,这一重要成果被《纽约时报》报道。
如今Google、微软、百度等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是大数据时代来临,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件做更精准的预测。深度学习应用包括语音识别、图像识别、自然语言处理、搜索广告CTR预估等,这些应用的计算量十分巨大,其需要大规模计算。
目前大规模的深度学习系统由纯CPU集群架构组成,或者由纯GPU集群架构组成,但是采用纯CPU集群架构系统,它完全由CPU构成,需要消耗大量的CPU能耗,资源耗能太大,而且CPU集群只能处理一种应用特征的深度学习,不能处理其他种类的深度学习应用,处理深度学习应用的效率太低,而且CPU本身硬件成本就很高,整个CPU集群的成本太高。
发明内容
本发明的目的是提供一种面向深度学习的CPU与GPU混合的集群架构系统,以实现减少资源耗能,提高深度学习处理效率,且降低成本。
为解决上述技术问题,本发明提供一种面向深度学习的CPU与GPU混合的集群架构系统,该系统包括:
中央处理器CPU集群,用于运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,所述CPU集群中每个CPU节点均与其它所有的CPU节点相连;
图像处理器GPU集群,用于运行计算密集的深度学习应用;所述GPU集群包括至少100个GPU,所述GPU集群中每个GPU节点内GPU卡数为至少2个,所述GPU集群中每个GPU节点均与其它所有的GPU节点相连;
与所述CPU集群相连的第一交换机;
与所述GPU集群相连的第二交换机;
与所述第一交换机和第二交换机相连的第三交换机;
与所述第三交换机相连的并行存储设备,用于为所述CPU集群和所述GPU集群提供共用的数据。
优选的,所述深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。
优选的,所述CPU集群中任意两个CPU节点之间采用万兆以太网互联。
优选的,所述GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互联。
优选的,所述并行存储设备为高宽带并行Lusre存储设备,用于支持多进程或多线程的并行读写。
优选的,所述CPU节点采用双路高主频CPU。
优选的,所述GPU节点由中央处理器CPU构成,所述GPU节点采用双路低主频CPU。
优选的,所述系统还包括调度机制模块,用于判断数据大小,根据数据大小确定应用规模;当数据小于10GB的数据时,判断数据的应用规模为属于第一级的小规模应用,将数据调度到单个GPU节点运行;当数据大于10GB且小于1TB时,判断数据的应用规模为属于第二级的中等规模应用,将数据调度到4个GPU节点运行;当数据大于1TB时,判断数据的应用规模为属于第三级的大规模应用,将数据调度到整个GPU集群运行。
本发明所提供的一种面向深度学习的CPU与GPU混合的集群架构系统,包括:中央处理器CPU集群,用于对运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,所述CPU集群中每个CPU节点均与其它所有的CPU节点相连;图像处理器GPU集群,用于运行计算密集的深度学习应用;所述GPU集群包括至少100个GPU,所述GPU集群中每个GPU节点内GPU卡数为至少2个,所述GPU集群中每个GPU节点均与其它所有的GPU节点相连;与所述CPU集群相连的第一交换机;与所述GPU集群相连的第二交换机;与所述第一交换机和第二交换机相连的第三交换机;与所述第三交换机相连的并行存储设备,用于为所述CPU集群和所述GPU集群提供共用的数据。可见,该系统采用CPU与GPU混合的集群架构,GPU集群能够运行计算密集、高度并行的深度学习应用,CPU集群能够运行逻辑密集、并行性不高的深度学习应用,则整个系统能处理不同应用特征的深度学习应用,CPU与GPU协同计算,从而加速深度学习应用处理时间,提升计算效率,提高深度学习处理效率,并且一个GPU节点的数据处理能力相当于4或5个以上CPU节点的数据处理能力,这样不采用纯CPU集群架构系统,在达到同样的数据处理能力的情况下,采用GPU与CPU结合架构系统能够节省成本,也减少系统功耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种面向深度学习的CPU与GPU混合的集群架构系统的结构示意图。
具体实施方式
本发明的核心是提供一种面向深度学习的CPU与GPU混合的集群架构系统,以实现减少资源耗能,提高深度学习处理效率,且降低成本。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明提供的一种面向深度学习的CPU与GPU混合的集群架构系统的结构示意图,该系统包括:
处理器CPU集群11,用于运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,CPU集群中每个CPU节点均与其它所有的CPU节点相连;
图像GPU集群12,用于运行计算密集的深度学习应用;GPU集群包括至少100个GPU,GPU集群中每个GPU节点内GPU卡数为至少2个,GPU集群中每个GPU节点均与其它所有的GPU节点相连;
其中,深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。具体的,处理器CPU集群运行逻辑密集、并行性不高的深度学习应用,图像GPU集群运行计算密集、高度并行的深度学习应用。GPU集群中每个GPU节点内GPU卡数为至少2个,即每个GPU节点的GPU块数为至少2个。
其中,CPU集群中任意两个CPU节点之间采用万兆以太网互联,GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互联;图中的GPU节点有64个,图中虽未具体标出GPU节点之间的互联连接线,但是实际上所有的GPU节点中,任意两个GPU节点之间都是相互连接的,每个GPU节点均与其它所有的GPU节点相连;图中的CPU节点有2000个,图中虽未具体标出CPU节点之间的互联连接线,但是实际上所有的CPU节点中,任意两个GPU节点之间都是相互连接的,每个CPU节点均与其它所有的CPU节点相连。
其中,CPU节点采用双路高主频CPU;GPU是图像处理器,也是由处理器CPU构成,GPU节点由中央处理器CPU构成,所述GPU采用双路低主频CPU。
与处理器CPU集群11相连的第一交换机13;
与图像GPU集群12相连的第二交换机14;
其中,第一交换机与第三交换机之间采用万兆以太网连接,进行通信;第二交换机与第三交换机之间采用IB网络连接,进行通信。
与第一交换机13和第二交换机14相连的第三交换机15;
与第三交换机15相连的并行存储设备16,用于为CPU集群和所述GPU集群提供共用的数据。
其中,第三交换机与并行存储设备16之间采用IB网络相连。
其中,并行存储设备为高宽带并行Lusre存储设备,用于支持多进程或多线程的并行读写,使CPU集群与GPU集群共用一套存储,采用高带宽并行Lustre存储。
其中,所述系统还包括调度机制模块,用于判断数据大小,根据数据大小确定应用规模;当数据小于10GB的数据时,判断应用规模为属于第一级的小规模应用,将数据调度到单个GPU节点运行;当数据大于10GB且小于1TB时,判断数据的应用规模为属于第二级的中等规模应用,将数据调度到4个GPU节点运行;当数据大于1TB时,判断数据的应用规模为属于第三级的大规模应用,将数据调度到整个GPU集群运行。需要说明的是,GPU集群主要运行计算密集、高度并行的深度学习应用,CPU集群主要运行逻辑密集、并行性不高的深度学习应用。CPU集群虽然主要运行逻辑密集、并行性不高的深度学习应用,但是CPU集群也能够处理计算密集高的数据,处理的数据量是少量的,即CPU集群能够处理小部分的计算密集高的数据,大部分的计算密集高的数据仍是由GPU集群来处理。
具体的,该系统采用CPU和GPU混合集群架构,包括纯CPU集群和纯GPU集群,CPU集群中所有的CPU节点之间为互联关系,任意两个CPU节点之间互相相连,其中CPU集群节点数为1024个节点以上,GPU集群中所有的GPU节点之间为互联关系,任意两个GPU节点之间互相相连,GPU集群配置100块GPU以上,这样整个架构系统可以进行大规模计算,CPU集群和GPU集群均处理全面的线下训练任务,涵盖语音深度学习应用、图像深度学习应用、文字深度学习应用或者其它深度学习应用,CPU集群和CPU集群均部署了Caffe学习计算框架、Torch学习计算框架、Theano学习计算框架、cudaconvnet学习计算框架、KALDI学习计算框架或者其它深度学习计算框架,每种深度学习框架均进行语音训练、图像训练、文字训练、广告训练或者其它训练。系统中每个CPU和每个CPU均还包括学习计算框架模块,用于进行语音训练、图像训练、文字训练或者广告训练,所述计算框架模块包括了Caffe学习计算框架模块、Torch学习计算框架模块、Theano学习计算框架模块、cudaconvnet学习计算框架模块或者KALDI学习计算框架模块。
具体的,CPU集群节点采用双路高主频CPU,GPU集群采用双路低主频CPU,采用Intelhaswell架构的E5-2680v3型号CPU,每个节点配置2颗CPU,可以插4块GPU卡,满足最大8GPU的扩展。GPU集群主要运行计算密集、高度并行的深度学习应用,CPU集群主要运行逻辑密集、并行性不高的深度学习应用。GPU的个数为至少100个,若GPU个数为100个,每个GPU节点内插2块GPU卡,那需要50个GPU节点,若每个GPU节点内插4块GPU卡,那需要25个GPU节点,GPU节点的个数依据每个GPU节点内插的GPU卡数数来确定。GPU集群采用双路低主频CPU,采用Intelhaswell架构的E5-2620v3型号CPU,每个节点配置2颗CPU,插4块NvidaiK80GPU卡,一个GPU节点实现8块GPU卡的扩展。
具体的,系统采用高效调度机制,GPU集群资源采用三级调度模式,第一级为小规模应用,被调度到单GPU节点运行;第二级为中等规模应用,被调度到4个GPU节点运行;第三级为大规模应用被调度到整个GPU集群。CPU集群资源按照先来先服务进行统一调度,整个系统可以满足不同计算规模应用和资源的合理使用。具体的,调度机制模块首先判断数据大小,根据数据大小确定应用规模,当数据小于10GB的数据时,判断数据的应用规模为属于第一级的小规模应用,将数据调度到单个GPU节点运行;当数据大于10GB且小于1TB时,判断数据的应用规模为属于第二级的中等规模应用,将数据调度到4个GPU节点运行;当数据大于1TB时,判断数据的应用规模为属于第三级的大规模应用,将数据调度到整个GPU集群运行。这样完成CPU集群资源对数据进行统一调度,按照先来先服务进行统一调度。
具体的,软件设计流程为:安装readhat操作系统;在GPU集群安装GPU运行环境CUDA7.0;在CPU集群和GPU集群安装MPI库、PThread等并行线程库、编译器;在GPU集群和CPU集群部署Caffe、Torch、Theano、cudaconvnet、KALDI等流行的深度学习计算框架的多节点并行版本。
硬件设计为:系统架构设计方面,采用CPU+GPU混合集群架构,包括纯CPU集群和纯GPU集群,其中CPU集群节点数为1024个节点以上,GPU集群配置100块NvidiaK80GPU以上,整个平台可以进行大规模计算;网络设计方面,CPU集群采用万兆以太网互联,GPU集群采用Mellanox公司的56Gb/sIB高速网络互联;存储设计方面,CPU集群与GPU集群共用一套存储,采用高带宽并行Lustre存储;支持多进程或多线程并行读写,并行读写带宽高、延迟低;计算节点设计方面,CPU集群节点采用双路高主频CPU,采用Intelhaswell架构的E5-2680v3型号CPU,每个节点配置2颗CPU,GPU集群采用双路低主频CPU,Intelhaswell架构的E5-2620v3型号CPU,每个节点配置2颗CPU,插4块NvidaiK80GPU卡,每个K80含有2块GPU芯片,满足最大8个GPU的并行。调度机制设计方面,GPU集群资源采用三级调度模式,首先判断处理数据大小,根据数据大小确定应用规模,小于10GB的数据为小规模应用,10GB到1TB为中等规模应用,大于1TB以上为大规模应用,第一级小规模应用被调度到单GPU节点运行;第二级为中等规模应用被调度到4个GPU节点运行;第三级为大规模应用被调度到整个GPU集群,且CPU集群资源按照先来先服务进行统一调度。
该系统能够处理语音、图像、文字等线下训练任务,完成大规模计算任务,并且具有高效的调度机制,此系统采用CPU+GPU混合集群架构,CPU集群与GPU集群处理不同应用特征的深度学习应用,CPU与GPU协同计算,从而加速深度学习应用处理时间,提升计算效率。
综上,本发明所提供的一种面向深度学习的CPU与GPU混合的集群架构系统,该系统采用CPU与GPU混合的集群架构,GPU集群能够运行计算密集、高度并行的深度学习应用,CPU集群能够运行逻辑密集、并行性不高的深度学习应用,则整个系统能处理不同应用特征的深度学习应用,CPU与GPU协同计算,从而加速深度学习应用处理时间,提升计算效率,提高深度学习处理效率,并且一个GPU节点的数据处理能力相当于4或5个以上CPU节点的数据处理能力,这样不采用纯CPU集群架构系统,在达到同样的数据处理能力的情况下,采用GPU与CPU结合架构系统能够节省成本,也减少系统功耗。
并且,该系统采用高效调度机制,判断数据的大小,依据数据大小确定应用规模,对于小规模应用,将数据调度到单GPU节点运行,对于中等规模应用,将数据调度到4个GPU节点运行;对于大规模应用,将数据调度到整个GPU集群,这样CPU集群资源按照先来先服务进行统一调度,整个系统满足不同计算规模应用和资源的合理使用,更加提高数据的深度学习处理效率。
以上对本发明所提供的一种面向深度学习的CPU与GPU混合的集群架构系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种面向深度学习的CPU与GPU混合的集群架构系统,其特征在于,包括:
中央处理器CPU集群,用于运行逻辑密集的深度学习应用;所述CPU集群包括至少1024个CPU节点,每个CPU节点包括两个CPU,所述CPU集群中每个CPU节点均与其它所有的CPU节点相连;
图像处理器GPU集群,用于运行计算密集的深度学习应用;所述GPU集群包括至少100个GPU,所述GPU集群中每个GPU节点内GPU卡数为至少2个,所述GPU集群中每个GPU节点均与其它所有的GPU节点相连;
与所述CPU集群相连的第一交换机;
与所述GPU集群相连的第二交换机;
与所述第一交换机和第二交换机相连的第三交换机;
与所述第三交换机相连的并行存储设备,用于为所述CPU集群和所述GPU集群提供共用的数据。
2.如权利要求1所述的系统,其特征在于,所述深度学习应用包括语音深度学习应用、图像深度学习应用或者文字深度学习应用。
3.如权利要求1所述的系统,其特征在于,所述CPU集群中任意两个CPU节点之间采用万兆以太网互联。
4.如权利要求1所述的系统,其特征在于,所述GPU集群中任任意两个GPU节点之间采用56Gb/s的高速网络IB互联。
5.如权利要求2所述的系统,其特征在于,所述并行存储设备为高宽带并行Lusre存储设备,用于支持多进程或多线程的并行读写。
6.如权利要求3所述的系统,其特征在于,所述CPU节点采用双路高主频CPU。
7.如权利要求4所述的系统,其特征在于,所述GPU节点由中央处理器CPU构成,所述GPU节点采用双路低主频CPU。
8.如权利要求1至7中任意一项所述的系统,其特征在于,所述系统还包括调度机制模块,用于判断数据大小,根据数据大小确定应用规模;当数据小于10GB的数据时,判断数据的应用规模为属于第一级的小规模应用,将数据调度到单个GPU节点运行;当数据大于10GB且小于1TB时,判断数据的应用规模为属于第二级的中等规模应用,将数据调度到4个GPU节点运行;当数据大于1TB时,判断数据的应用规模为属于第三级的大规模应用,将数据调度到整个GPU集群运行。
CN201510666799.2A 2015-10-15 2015-10-15 一种面向深度学习的cpu与gpu混合的集群架构系统 Pending CN105227669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510666799.2A CN105227669A (zh) 2015-10-15 2015-10-15 一种面向深度学习的cpu与gpu混合的集群架构系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510666799.2A CN105227669A (zh) 2015-10-15 2015-10-15 一种面向深度学习的cpu与gpu混合的集群架构系统

Publications (1)

Publication Number Publication Date
CN105227669A true CN105227669A (zh) 2016-01-06

Family

ID=54996339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510666799.2A Pending CN105227669A (zh) 2015-10-15 2015-10-15 一种面向深度学习的cpu与gpu混合的集群架构系统

Country Status (1)

Country Link
CN (1) CN105227669A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463448A (zh) * 2017-09-28 2017-12-12 郑州云海信息技术有限公司 一种深度学习权值更新方法和系统
CN107678752A (zh) * 2017-08-31 2018-02-09 北京百度网讯科技有限公司 一种面向异构集群的任务处理方法及装置
CN107766148A (zh) * 2017-08-31 2018-03-06 北京百度网讯科技有限公司 一种异构集群及任务处理方法和装置
CN108052922A (zh) * 2017-12-28 2018-05-18 郑州云海信息技术有限公司 一种智能安防训练方法、装置及系统
CN108289185A (zh) * 2017-01-09 2018-07-17 腾讯科技(深圳)有限公司 一种视频通信方法、装置及终端设备
US10169084B2 (en) 2017-03-03 2019-01-01 International Business Machines Corporation Deep learning via dynamic root solvers
CN109948428A (zh) * 2019-01-28 2019-06-28 上海理工大学 面向传感信息处理的gpu集群深度学习边缘计算系统
CN111400000A (zh) * 2020-03-09 2020-07-10 百度在线网络技术(北京)有限公司 网络请求处理方法、装置、设备和存储介质
CN111489279A (zh) * 2019-01-25 2020-08-04 深圳富桂精密工业有限公司 Gpu加速优化方法、装置及计算机存储介质
US10884795B2 (en) 2018-04-26 2021-01-05 International Business Machines Corporation Dynamic accelerator scheduling and grouping for deep learning jobs in a computing cluster
US11010681B2 (en) 2017-08-31 2021-05-18 Huawei Technologies Co., Ltd. Distributed computing system, and data transmission method and apparatus in distributed computing system
CN112965809A (zh) * 2019-12-12 2021-06-15 深圳市优必选科技股份有限公司 深度学习任务处理系统和方法
CN113627620A (zh) * 2021-07-29 2021-11-09 上海熠知电子科技有限公司 一种面向深度学习的处理器模组
CN113645282A (zh) * 2021-07-29 2021-11-12 上海熠知电子科技有限公司 一种基于服务器集群的深度学习方法
US11797459B2 (en) 2016-06-17 2023-10-24 Hewlett-Packard Development Company, L.P. Shared machine-learning data structure

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526934A (zh) * 2009-04-21 2009-09-09 浪潮电子信息产业股份有限公司 一种gpu与cpu复合处理器的组建方法
CN102708088A (zh) * 2012-05-08 2012-10-03 北京理工大学 面向海量数据高性能计算的cpu/gpu协同处理方法
CN102819460A (zh) * 2012-08-07 2012-12-12 清华大学 一种基于预算功率指导的高能效gpu集群系统调度算法
CN103279445A (zh) * 2012-09-26 2013-09-04 上海中科高等研究院 运算任务的计算方法及超算系统
CN103279446A (zh) * 2013-06-09 2013-09-04 浪潮电子信息产业股份有限公司 一种利用cpu+gpu+mic异构混合计算的多平台系统
CN103294639A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种实现大规模计算的cpu+mic混合异构集群系统
CN103959233A (zh) * 2011-09-15 2014-07-30 埃克森美孚上游研究公司 在执行eos计算的指令受限算法中最优化矩阵和向量运算

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526934A (zh) * 2009-04-21 2009-09-09 浪潮电子信息产业股份有限公司 一种gpu与cpu复合处理器的组建方法
CN103959233A (zh) * 2011-09-15 2014-07-30 埃克森美孚上游研究公司 在执行eos计算的指令受限算法中最优化矩阵和向量运算
CN102708088A (zh) * 2012-05-08 2012-10-03 北京理工大学 面向海量数据高性能计算的cpu/gpu协同处理方法
CN102819460A (zh) * 2012-08-07 2012-12-12 清华大学 一种基于预算功率指导的高能效gpu集群系统调度算法
CN103279445A (zh) * 2012-09-26 2013-09-04 上海中科高等研究院 运算任务的计算方法及超算系统
CN103279446A (zh) * 2013-06-09 2013-09-04 浪潮电子信息产业股份有限公司 一种利用cpu+gpu+mic异构混合计算的多平台系统
CN103294639A (zh) * 2013-06-09 2013-09-11 浪潮电子信息产业股份有限公司 一种实现大规模计算的cpu+mic混合异构集群系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方旭东: "面向大规模科学计算的CPU-GPU异构并行技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11797459B2 (en) 2016-06-17 2023-10-24 Hewlett-Packard Development Company, L.P. Shared machine-learning data structure
CN108289185A (zh) * 2017-01-09 2018-07-17 腾讯科技(深圳)有限公司 一种视频通信方法、装置及终端设备
CN108289185B (zh) * 2017-01-09 2021-08-13 腾讯科技(深圳)有限公司 一种视频通信方法、装置及终端设备
US10169084B2 (en) 2017-03-03 2019-01-01 International Business Machines Corporation Deep learning via dynamic root solvers
US10210594B2 (en) 2017-03-03 2019-02-19 International Business Machines Corporation Deep learning via dynamic root solvers
US10977076B2 (en) 2017-08-31 2021-04-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing a heterogeneous cluster-oriented task
CN107678752A (zh) * 2017-08-31 2018-02-09 北京百度网讯科技有限公司 一种面向异构集群的任务处理方法及装置
CN107766148A (zh) * 2017-08-31 2018-03-06 北京百度网讯科技有限公司 一种异构集群及任务处理方法和装置
US11010681B2 (en) 2017-08-31 2021-05-18 Huawei Technologies Co., Ltd. Distributed computing system, and data transmission method and apparatus in distributed computing system
CN107766148B (zh) * 2017-08-31 2021-02-19 北京百度网讯科技有限公司 一种异构集群及任务处理方法和装置
CN107463448A (zh) * 2017-09-28 2017-12-12 郑州云海信息技术有限公司 一种深度学习权值更新方法和系统
CN108052922A (zh) * 2017-12-28 2018-05-18 郑州云海信息技术有限公司 一种智能安防训练方法、装置及系统
US10884795B2 (en) 2018-04-26 2021-01-05 International Business Machines Corporation Dynamic accelerator scheduling and grouping for deep learning jobs in a computing cluster
CN111489279A (zh) * 2019-01-25 2020-08-04 深圳富桂精密工业有限公司 Gpu加速优化方法、装置及计算机存储介质
CN111489279B (zh) * 2019-01-25 2023-10-31 深圳富联富桂精密工业有限公司 Gpu加速优化方法、装置及计算机存储介质
CN109948428B (zh) * 2019-01-28 2022-12-09 上海理工大学 面向传感信息处理的gpu集群深度学习边缘计算系统
CN109948428A (zh) * 2019-01-28 2019-06-28 上海理工大学 面向传感信息处理的gpu集群深度学习边缘计算系统
CN112965809A (zh) * 2019-12-12 2021-06-15 深圳市优必选科技股份有限公司 深度学习任务处理系统和方法
CN111400000A (zh) * 2020-03-09 2020-07-10 百度在线网络技术(北京)有限公司 网络请求处理方法、装置、设备和存储介质
CN113645282A (zh) * 2021-07-29 2021-11-12 上海熠知电子科技有限公司 一种基于服务器集群的深度学习方法
CN113627620A (zh) * 2021-07-29 2021-11-09 上海熠知电子科技有限公司 一种面向深度学习的处理器模组

Similar Documents

Publication Publication Date Title
CN105227669A (zh) 一种面向深度学习的cpu与gpu混合的集群架构系统
Luo et al. An effective GPU implementation of breadth-first search
Brandfass et al. Rank reordering for MPI communication optimization
CN104115093A (zh) 包括多个处理元件之间的功率和性能平衡的用于能效和节能的方法、装置和系统
Belgacem et al. A hybrid HPC/cloud distributed infrastructure: Coupling EC2 cloud resources with HPC clusters to run large tightly coupled multiscale applications
CN104123171B (zh) 基于numa架构的虚拟机迁移方法及系统
Pan et al. GPU-based parallel collision detection for real-time motion planning
CN105302526A (zh) 一种数据处理系统及方法
Biswas et al. A novel energy efficient scheduling for high performance computing systems
Liu et al. BSPCloud: A hybrid distributed-memory and shared-memory programming model
Mehta et al. Exploiting CUDA Dynamic Parallelism for low power ARM based prototypes
Teodoro et al. A comparative study of energy-aware scheduling algorithms for computational grids
Pei et al. Reevaluating the overhead of data preparation for asymmetric multicore system on graphics processing
Grant et al. Networks and MPI for cluster computing
CN106933663B (zh) 一种面向众核系统的多线程调度方法及系统
He et al. Click-based asynchronous mesh network with bounded bundled data
Li et al. Minimizing energy of heterogeneous computing systems by task scheduling approach
Wei et al. StreamTMC: Stream compilation for tiled multi-core architectures
Kim et al. An augmented reality processor with a congestion-aware network-on-chip scheduler
Liu et al. Research on Fog Computing Task Scheduling Strategy with Deadline Constraints
Sun Construction of Artistic Design Patterns Based on Improved Distributed Data Parallel Computing of Heterogeneous Tasks
Guo et al. RP‐Ring: A Heterogeneous Multi‐FPGA Accelerator
You et al. Designing and implementing a heuristic cross-architecture combination for graph traversal
Zhou et al. Contention-Aware Mapping and Scheduling Optimization for NoC-Based MPSoCs (Student Abstract)
Gutmann et al. Using a master and slave approach for GPGPU computing to achieve optimal scaling in a 3D real-time simulation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160106

RJ01 Rejection of invention patent application after publication