CN203276273U - 一种多gpu运算卡 - Google Patents

一种多gpu运算卡 Download PDF

Info

Publication number
CN203276273U
CN203276273U CN 201220580233 CN201220580233U CN203276273U CN 203276273 U CN203276273 U CN 203276273U CN 201220580233 CN201220580233 CN 201220580233 CN 201220580233 U CN201220580233 U CN 201220580233U CN 203276273 U CN203276273 U CN 203276273U
Authority
CN
China
Prior art keywords
gpu
memory
global sharing
sharing memory
many
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201220580233
Other languages
English (en)
Inventor
郭森
梁永生
张锦雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN 201220580233 priority Critical patent/CN203276273U/zh
Application granted granted Critical
Publication of CN203276273U publication Critical patent/CN203276273U/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Bus Control (AREA)

Abstract

本实用新型适用于计算机技术领域,提供了一种多GPU运算卡,包括至少两个GPU,每个所述GPU分别与各自的GPU显存连接,还包括:分别连接每个所述GPU的全局共享内存。本实用新型通过在多GPU之间增加全局共享内存,使得GPU之间的数据传递过程不再受限于PCIE总线来完成,有效利用了显存的带宽,显著提高了多GPU运算卡的数据处理性能。

Description

一种多GPU运算卡
技术领域
本实用新型属于计算机技术领域,尤其涉及一种多图形处理器(Graphic Processing Unit,GPU)运算卡。 
背景技术
随着科学技术的飞速发展,个人计算机的性能越来越强大,硬件厂商们为了占领更多的市场份额,纷纷在各自的领域积极推进先进技术。其中,显卡厂商们为了追求极致性能和领先地位,推出了集成两个甚至更多个GPU的多GPU图形运算卡。当在具有多GPU图形运算卡的个人超级计算机上应用统一计算设备架构(Compute Unified Device Architecture,CUDA)或开放的图形程序接口(Open Graphics Library,OpenGL)进行程序开发时,人们常常需要在多个GPU之间进行频繁的数据传递。 
当前,多个GPU间的数据传递技术通常是基于PCIE总线来完成的,这样的实现极大地影响了GPU的处理性能。以具有两个GPU的运算卡为例:当需要将数据从一个GPU的显存传递到另一个GPU的显存时,首先需要将一个GPU显存中的数据通过PCIE总线传递到主机内存中暂存,再通过PCIE总线将数据从主机内存传递到另一个GPU的显存中。由于PCIE总线的带宽仅有2~3GB每秒,而GPU读出显存的带宽可以达到100GB每秒之多,PCIE总线成为了影响多GPU运算卡性能的瓶颈,降低了GPU运算卡的数据处理效率。 
实用新型内容
本实用新型实施例的目的在于提供一种多GPU运算卡,旨在解决现有的GPU运算卡数据处理效率低的问题。 
本实用新型实施例是这样实现的,一种多GPU运算卡,包括至少两个GPU,每个所述GPU分别与各自的GPU显存连接,还包括: 
分别连接每个所述GPU的全局共享内存。 
进一步地,还包括: 
分别连接每个所述GPU以及所述全局共享内存的仲裁电路。 
进一步地,所述全局共享内存位于一个所述GPU显存中。 
进一步地,所述全局共享内存分布于一个以上的所述GPU显存中。 
进一步地,所述全局共享内存包括与每个所述GPU连接的读写接口。 
进一步地,所述仲裁电路包括: 
与所述全局共享内存连接的锁定电路;以及 
与所述全局共享内存连接的解锁电路。 
进一步地,所述仲裁电路包括现场可编程门阵列FPGA仲裁电路。 
本实用新型实施例通过在多GPU之间增加全局共享内存,使得GPU之间的数据传递过程不再受限于PCIE总线来完成,有效利用了显存的带宽,显著提高了多GPU运算卡的数据处理性能。 
附图说明
图1是本实用新型实施例提供的多GPU运算卡的结构框图; 
图2是本实用另一新型实施例提供的多GPU运算卡的结构框图。 
具体实施方式
为了使本实用新型的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本实用新型进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本实用新型,并不用于限定本实用新型。 
本实用新型实施例通过在多GPU之间增加全局共享内存,使得GPU之间的数据传递过程不再受限于PCIE总线来完成,有效利用了显存的带宽,显著 提高了多GPU运算卡的数据处理性能。 
图1示出了本实用新型实施例提供的多GPU运算卡的结构框图,为了便于说明,仅示出了与本实施例相关的部分。 
参照图1,本实用新型实施例提供的多GPU运算卡包括至少两个GPU11,如图1所示,至少包括第一GPU111和第二GPU112,且每个GPU11分别与各自的GPU显存12连接,如图1所示,第一GPU111和第一GPU显存121连接,第二GPU112和第二GPU显存122连接。 
在本实施例的上述结构中,GPU11是多GPU运算卡中的核心部件,用于实现三维图像和特效的渲染处理。具体地,第一GPU111读取第一GPU显存121中的数据并对数据进行运算处理,完成运算后将结果写入第二GPU显存122中,以使第二GPU112读取第二GPU显存122中的数据并对数据进行运算处理,并在处理完成后将结果写回第二GPU显存122中,由此完成一次GPU之间的数据处理与传输。 
在本实用新型实施例中,多GPU运算卡还包括: 
分别连接每个GPU11的全局共享内存13,以及 
分别连接每个GPU11以及全局共享内存13的仲裁电路14。 
在本实用新型实施例中,通过在多GPU运算卡中设置分别连接每个GPU11的全局共享内存13,第一GPU111与第二GPU112均可以直接访问全局共享内存13中的数据,由此,在第一GPU111向第二GPU112传输数据的过程中,第一GPU111可以直接向全局共享内存13中写入需要传输的数据,并由第二GPU112直接从全局共享内存13中读取第一GPU111写入的数据,从而完成一次GPU之间的数据传输。 
在本实施例中,全局共享内存为多通道存储器,其具备多个读写接口,可以分别与每个GPU相连接。 
作为本实用新型的一个实施例,全局共享内存可以为在多GPU运算卡板卡上独立存在的存储单元。 
作为本实用新型的另一实施例,全局共享内存还可以位于多GPU运算卡上的其中一个GPU显存中。在该情况下,GPU显存中设置了全局共享内存的GPU由于显存空间中一部分被用于全局共享内存,因此其在多GPU运算卡中的运算能力相比于其他GPU要相对弱一些,但其对GPU之间的数据读写速度相对快一些。 
作为本实用新型的另一实施例,全局共享内存还可以分布于多GPU运算卡中的一个以上的GPU显存中。为了公平分配每个GPU的运算能力,也可以将全局共享内存分布在多个GPU显存中,在该情况下,每个GPU的运算能力相当,不会因为GPU显存中设置了过大的全局共享内存而影响了数据处理能力。 
作为本实用新型的一个实施例,由于GPU的运算能力不如中央处理器(Central Processing Unit,CPU)的运算能力强大,因此,如图2所示,通过在多GPU运算卡中设置分别连接每个GPU11以及全局共享内存13的仲裁电路14,用于保证同时只有一个GPU对全局共享内存进行访问,以避免多GPU的访问冲突。 
具体地,每个GPU在开始读写全局共享内存以及结束对全局共享内存的读写时,均需要向仲裁电路发起请求,仲裁电路通过锁定或者解锁全局共享内存,以保证每次只有一个GPU访问全局共享内存,其中,当全局共享内存处于锁定状态下时,只允许仲裁电路指定的一个GPU进行访问。 
具体地,仲裁电路包括: 
与全局共享内存连接的锁定电路;以及 
与全局共享内存连接的解锁电路。 
其中,锁定电路用于在有GPU需要从全局共享内存中读写数据时,将全局共享内存锁定在只允许该GPU访问的状态,解锁电路用于当GPU对全局共享内存的访问结束,且没有其他GPU需要访问全局共享内存时,释放全局共享内存的锁定状态。 
优选地,仲裁电路可以包括现场可编程门阵列(Field-Programmable Gate Array,FPGA)仲裁电路。 
本实用新型实施例通过在多GPU之间增加全局共享内存,并通过仲裁电路来避免多GPU之间的读写冲突,使得GPU之间的数据传递过程不再受限于PCIE总线来完成,有效利用了显存的带宽,显著提高了多GPU运算卡的数据处理性能。 
以上所述仅为本实用新型的较佳实施例而已,并不用以限制本实用新型,凡在本实用新型的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本实用新型的保护范围之内。 

Claims (7)

1.一种多GPU运算卡,包括至少两个GPU,每个所述GPU分别与各自的GPU显存连接,其特征在于,还包括: 
分别连接每个所述GPU的全局共享内存。 
2.如权利要求1所述的多GPU运算卡,其特征在于,还包括: 
分别连接每个所述GPU以及所述全局共享内存的仲裁电路。 
3.如权利要求1或2所述的多GPU运算卡,其特征在于,所述全局共享内存位于一个所述GPU显存中。 
4.如权利要求1或2所述的多GPU运算卡,其特征在于,所述全局共享内存分布于一个以上的所述GPU显存中。 
5.如权利要求1所述的多GPU运算卡,其特征在于,所述全局共享内存包括与每个所述GPU连接的读写接口。 
6.如权利要求2所述的多GPU运算卡,其特征在于,所述仲裁电路包括: 
与所述全局共享内存连接的锁定电路;以及 
与所述全局共享内存连接的解锁电路。 
7.如权利要求2或6所述的多GPU运算卡,其特征在于,所述仲裁电路包括现场可编程门阵列FPGA仲裁电路。 
CN 201220580233 2012-11-06 2012-11-06 一种多gpu运算卡 Expired - Fee Related CN203276273U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201220580233 CN203276273U (zh) 2012-11-06 2012-11-06 一种多gpu运算卡

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201220580233 CN203276273U (zh) 2012-11-06 2012-11-06 一种多gpu运算卡

Publications (1)

Publication Number Publication Date
CN203276273U true CN203276273U (zh) 2013-11-06

Family

ID=49506639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201220580233 Expired - Fee Related CN203276273U (zh) 2012-11-06 2012-11-06 一种多gpu运算卡

Country Status (1)

Country Link
CN (1) CN203276273U (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104580837A (zh) * 2015-01-20 2015-04-29 南京纳加软件有限公司 一种基于gpu+cpu+io构架的视频导播引擎及其使用方法
CN108121683A (zh) * 2017-11-08 2018-06-05 国电南瑞科技股份有限公司 基于多核架构高速差分总线的无缝切换快速自恢复方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104580837A (zh) * 2015-01-20 2015-04-29 南京纳加软件有限公司 一种基于gpu+cpu+io构架的视频导播引擎及其使用方法
CN108121683A (zh) * 2017-11-08 2018-06-05 国电南瑞科技股份有限公司 基于多核架构高速差分总线的无缝切换快速自恢复方法
CN108121683B (zh) * 2017-11-08 2021-08-13 国电南瑞科技股份有限公司 基于多核架构高速差分总线的无缝切换快速自恢复方法

Similar Documents

Publication Publication Date Title
US10545860B2 (en) Intelligent high bandwidth memory appliance
US20240028207A1 (en) Near-memory compute module
Zhang et al. Boosting the performance of FPGA-based graph processor using hybrid memory cube: A case for breadth first search
CN103455468A (zh) 一种多gpu运算卡及多gpu之间的数据传输方法
CN103680594B (zh) 降低写失败的存储器件、包括该存储器件的系统及其方法
CN102262774B (zh) 用于图形硬件的非易失性存储
US20140129753A1 (en) Integrated storage/processing devices, systems and methods for performing big data analytics
US20180004659A1 (en) Cribbing cache implementing highly compressible data indication
US8656117B1 (en) Read completion data management
CN104049711B (zh) 与图形相关的工作负荷上的功率节省的技术
CN103019810A (zh) 具有不同执行优先级的计算任务的调度和管理
CN106683158A (zh) 一种GPU纹理映射非阻塞存储Cache的建模结构
US20140040541A1 (en) Method of managing dynamic memory reallocation and device performing the method
TW201423663A (zh) 資料傳輸之系統與方法
CN109690504A (zh) 混合式存储器驱动器、计算机系统及用于操作多重模式混合式驱动器的相关方法
US20170091127A1 (en) Techniques to Couple with a Storage Device via Multiple Communication Ports
US20160299690A1 (en) Data storage device and data processing system including the same
CN102597951A (zh) 一般目的使用的内部处理单元的存储器
CN106372008B (zh) 一种数据缓存方法及装置
US20150347016A1 (en) Input/output virtualization (iov) host controller (hc) (iov-hc) of a flash-memory-based storage device
CN107408019A (zh) 用于提高对非易失性存储器中的缺陷的抗干扰性的方法和装置
US9087561B2 (en) Hybrid cache
CN105718392B (zh) 细胞阵列文件存储系统及其文件存储设备与文件存储方法
CN103345429A (zh) 基于片上ram的高并发访存加速方法、加速器及cpu
CN104409099B (zh) 基于FPGA的高速eMMC阵列控制器

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131106

Termination date: 20151106

EXPY Termination of patent right or utility model