CN203276273U - 一种多gpu运算卡 - Google Patents
一种多gpu运算卡 Download PDFInfo
- Publication number
- CN203276273U CN203276273U CN 201220580233 CN201220580233U CN203276273U CN 203276273 U CN203276273 U CN 203276273U CN 201220580233 CN201220580233 CN 201220580233 CN 201220580233 U CN201220580233 U CN 201220580233U CN 203276273 U CN203276273 U CN 203276273U
- Authority
- CN
- China
- Prior art keywords
- gpu
- memory
- global sharing
- sharing memory
- many
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Bus Control (AREA)
Abstract
本实用新型适用于计算机技术领域,提供了一种多GPU运算卡,包括至少两个GPU,每个所述GPU分别与各自的GPU显存连接,还包括:分别连接每个所述GPU的全局共享内存。本实用新型通过在多GPU之间增加全局共享内存,使得GPU之间的数据传递过程不再受限于PCIE总线来完成,有效利用了显存的带宽,显著提高了多GPU运算卡的数据处理性能。
Description
技术领域
本实用新型属于计算机技术领域,尤其涉及一种多图形处理器(Graphic Processing Unit,GPU)运算卡。
背景技术
随着科学技术的飞速发展,个人计算机的性能越来越强大,硬件厂商们为了占领更多的市场份额,纷纷在各自的领域积极推进先进技术。其中,显卡厂商们为了追求极致性能和领先地位,推出了集成两个甚至更多个GPU的多GPU图形运算卡。当在具有多GPU图形运算卡的个人超级计算机上应用统一计算设备架构(Compute Unified Device Architecture,CUDA)或开放的图形程序接口(Open Graphics Library,OpenGL)进行程序开发时,人们常常需要在多个GPU之间进行频繁的数据传递。
当前,多个GPU间的数据传递技术通常是基于PCIE总线来完成的,这样的实现极大地影响了GPU的处理性能。以具有两个GPU的运算卡为例:当需要将数据从一个GPU的显存传递到另一个GPU的显存时,首先需要将一个GPU显存中的数据通过PCIE总线传递到主机内存中暂存,再通过PCIE总线将数据从主机内存传递到另一个GPU的显存中。由于PCIE总线的带宽仅有2~3GB每秒,而GPU读出显存的带宽可以达到100GB每秒之多,PCIE总线成为了影响多GPU运算卡性能的瓶颈,降低了GPU运算卡的数据处理效率。
实用新型内容
本实用新型实施例的目的在于提供一种多GPU运算卡,旨在解决现有的GPU运算卡数据处理效率低的问题。
本实用新型实施例是这样实现的,一种多GPU运算卡,包括至少两个GPU,每个所述GPU分别与各自的GPU显存连接,还包括:
分别连接每个所述GPU的全局共享内存。
进一步地,还包括:
分别连接每个所述GPU以及所述全局共享内存的仲裁电路。
进一步地,所述全局共享内存位于一个所述GPU显存中。
进一步地,所述全局共享内存分布于一个以上的所述GPU显存中。
进一步地,所述全局共享内存包括与每个所述GPU连接的读写接口。
进一步地,所述仲裁电路包括:
与所述全局共享内存连接的锁定电路;以及
与所述全局共享内存连接的解锁电路。
进一步地,所述仲裁电路包括现场可编程门阵列FPGA仲裁电路。
本实用新型实施例通过在多GPU之间增加全局共享内存,使得GPU之间的数据传递过程不再受限于PCIE总线来完成,有效利用了显存的带宽,显著提高了多GPU运算卡的数据处理性能。
附图说明
图1是本实用新型实施例提供的多GPU运算卡的结构框图;
图2是本实用另一新型实施例提供的多GPU运算卡的结构框图。
具体实施方式
为了使本实用新型的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本实用新型进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本实用新型,并不用于限定本实用新型。
本实用新型实施例通过在多GPU之间增加全局共享内存,使得GPU之间的数据传递过程不再受限于PCIE总线来完成,有效利用了显存的带宽,显著 提高了多GPU运算卡的数据处理性能。
图1示出了本实用新型实施例提供的多GPU运算卡的结构框图,为了便于说明,仅示出了与本实施例相关的部分。
参照图1,本实用新型实施例提供的多GPU运算卡包括至少两个GPU11,如图1所示,至少包括第一GPU111和第二GPU112,且每个GPU11分别与各自的GPU显存12连接,如图1所示,第一GPU111和第一GPU显存121连接,第二GPU112和第二GPU显存122连接。
在本实施例的上述结构中,GPU11是多GPU运算卡中的核心部件,用于实现三维图像和特效的渲染处理。具体地,第一GPU111读取第一GPU显存121中的数据并对数据进行运算处理,完成运算后将结果写入第二GPU显存122中,以使第二GPU112读取第二GPU显存122中的数据并对数据进行运算处理,并在处理完成后将结果写回第二GPU显存122中,由此完成一次GPU之间的数据处理与传输。
在本实用新型实施例中,多GPU运算卡还包括:
分别连接每个GPU11的全局共享内存13,以及
分别连接每个GPU11以及全局共享内存13的仲裁电路14。
在本实用新型实施例中,通过在多GPU运算卡中设置分别连接每个GPU11的全局共享内存13,第一GPU111与第二GPU112均可以直接访问全局共享内存13中的数据,由此,在第一GPU111向第二GPU112传输数据的过程中,第一GPU111可以直接向全局共享内存13中写入需要传输的数据,并由第二GPU112直接从全局共享内存13中读取第一GPU111写入的数据,从而完成一次GPU之间的数据传输。
在本实施例中,全局共享内存为多通道存储器,其具备多个读写接口,可以分别与每个GPU相连接。
作为本实用新型的一个实施例,全局共享内存可以为在多GPU运算卡板卡上独立存在的存储单元。
作为本实用新型的另一实施例,全局共享内存还可以位于多GPU运算卡上的其中一个GPU显存中。在该情况下,GPU显存中设置了全局共享内存的GPU由于显存空间中一部分被用于全局共享内存,因此其在多GPU运算卡中的运算能力相比于其他GPU要相对弱一些,但其对GPU之间的数据读写速度相对快一些。
作为本实用新型的另一实施例,全局共享内存还可以分布于多GPU运算卡中的一个以上的GPU显存中。为了公平分配每个GPU的运算能力,也可以将全局共享内存分布在多个GPU显存中,在该情况下,每个GPU的运算能力相当,不会因为GPU显存中设置了过大的全局共享内存而影响了数据处理能力。
作为本实用新型的一个实施例,由于GPU的运算能力不如中央处理器(Central Processing Unit,CPU)的运算能力强大,因此,如图2所示,通过在多GPU运算卡中设置分别连接每个GPU11以及全局共享内存13的仲裁电路14,用于保证同时只有一个GPU对全局共享内存进行访问,以避免多GPU的访问冲突。
具体地,每个GPU在开始读写全局共享内存以及结束对全局共享内存的读写时,均需要向仲裁电路发起请求,仲裁电路通过锁定或者解锁全局共享内存,以保证每次只有一个GPU访问全局共享内存,其中,当全局共享内存处于锁定状态下时,只允许仲裁电路指定的一个GPU进行访问。
具体地,仲裁电路包括:
与全局共享内存连接的锁定电路;以及
与全局共享内存连接的解锁电路。
其中,锁定电路用于在有GPU需要从全局共享内存中读写数据时,将全局共享内存锁定在只允许该GPU访问的状态,解锁电路用于当GPU对全局共享内存的访问结束,且没有其他GPU需要访问全局共享内存时,释放全局共享内存的锁定状态。
优选地,仲裁电路可以包括现场可编程门阵列(Field-Programmable Gate Array,FPGA)仲裁电路。
本实用新型实施例通过在多GPU之间增加全局共享内存,并通过仲裁电路来避免多GPU之间的读写冲突,使得GPU之间的数据传递过程不再受限于PCIE总线来完成,有效利用了显存的带宽,显著提高了多GPU运算卡的数据处理性能。
以上所述仅为本实用新型的较佳实施例而已,并不用以限制本实用新型,凡在本实用新型的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本实用新型的保护范围之内。
Claims (7)
1.一种多GPU运算卡,包括至少两个GPU,每个所述GPU分别与各自的GPU显存连接,其特征在于,还包括:
分别连接每个所述GPU的全局共享内存。
2.如权利要求1所述的多GPU运算卡,其特征在于,还包括:
分别连接每个所述GPU以及所述全局共享内存的仲裁电路。
3.如权利要求1或2所述的多GPU运算卡,其特征在于,所述全局共享内存位于一个所述GPU显存中。
4.如权利要求1或2所述的多GPU运算卡,其特征在于,所述全局共享内存分布于一个以上的所述GPU显存中。
5.如权利要求1所述的多GPU运算卡,其特征在于,所述全局共享内存包括与每个所述GPU连接的读写接口。
6.如权利要求2所述的多GPU运算卡,其特征在于,所述仲裁电路包括:
与所述全局共享内存连接的锁定电路;以及
与所述全局共享内存连接的解锁电路。
7.如权利要求2或6所述的多GPU运算卡,其特征在于,所述仲裁电路包括现场可编程门阵列FPGA仲裁电路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201220580233 CN203276273U (zh) | 2012-11-06 | 2012-11-06 | 一种多gpu运算卡 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201220580233 CN203276273U (zh) | 2012-11-06 | 2012-11-06 | 一种多gpu运算卡 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN203276273U true CN203276273U (zh) | 2013-11-06 |
Family
ID=49506639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201220580233 Expired - Fee Related CN203276273U (zh) | 2012-11-06 | 2012-11-06 | 一种多gpu运算卡 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN203276273U (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104580837A (zh) * | 2015-01-20 | 2015-04-29 | 南京纳加软件有限公司 | 一种基于gpu+cpu+io构架的视频导播引擎及其使用方法 |
CN108121683A (zh) * | 2017-11-08 | 2018-06-05 | 国电南瑞科技股份有限公司 | 基于多核架构高速差分总线的无缝切换快速自恢复方法 |
-
2012
- 2012-11-06 CN CN 201220580233 patent/CN203276273U/zh not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104580837A (zh) * | 2015-01-20 | 2015-04-29 | 南京纳加软件有限公司 | 一种基于gpu+cpu+io构架的视频导播引擎及其使用方法 |
CN108121683A (zh) * | 2017-11-08 | 2018-06-05 | 国电南瑞科技股份有限公司 | 基于多核架构高速差分总线的无缝切换快速自恢复方法 |
CN108121683B (zh) * | 2017-11-08 | 2021-08-13 | 国电南瑞科技股份有限公司 | 基于多核架构高速差分总线的无缝切换快速自恢复方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10545860B2 (en) | Intelligent high bandwidth memory appliance | |
US20240028207A1 (en) | Near-memory compute module | |
Zhang et al. | Boosting the performance of FPGA-based graph processor using hybrid memory cube: A case for breadth first search | |
CN103455468A (zh) | 一种多gpu运算卡及多gpu之间的数据传输方法 | |
CN103680594B (zh) | 降低写失败的存储器件、包括该存储器件的系统及其方法 | |
CN102262774B (zh) | 用于图形硬件的非易失性存储 | |
US20140129753A1 (en) | Integrated storage/processing devices, systems and methods for performing big data analytics | |
US20180004659A1 (en) | Cribbing cache implementing highly compressible data indication | |
US8656117B1 (en) | Read completion data management | |
CN104049711B (zh) | 与图形相关的工作负荷上的功率节省的技术 | |
CN103019810A (zh) | 具有不同执行优先级的计算任务的调度和管理 | |
CN106683158A (zh) | 一种GPU纹理映射非阻塞存储Cache的建模结构 | |
US20140040541A1 (en) | Method of managing dynamic memory reallocation and device performing the method | |
TW201423663A (zh) | 資料傳輸之系統與方法 | |
CN109690504A (zh) | 混合式存储器驱动器、计算机系统及用于操作多重模式混合式驱动器的相关方法 | |
US20170091127A1 (en) | Techniques to Couple with a Storage Device via Multiple Communication Ports | |
US20160299690A1 (en) | Data storage device and data processing system including the same | |
CN102597951A (zh) | 一般目的使用的内部处理单元的存储器 | |
CN106372008B (zh) | 一种数据缓存方法及装置 | |
US20150347016A1 (en) | Input/output virtualization (iov) host controller (hc) (iov-hc) of a flash-memory-based storage device | |
CN107408019A (zh) | 用于提高对非易失性存储器中的缺陷的抗干扰性的方法和装置 | |
US9087561B2 (en) | Hybrid cache | |
CN105718392B (zh) | 细胞阵列文件存储系统及其文件存储设备与文件存储方法 | |
CN103345429A (zh) | 基于片上ram的高并发访存加速方法、加速器及cpu | |
CN104409099B (zh) | 基于FPGA的高速eMMC阵列控制器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131106 Termination date: 20151106 |
|
EXPY | Termination of patent right or utility model |