CN203276273U

CN203276273U - 一种多gpu运算卡

Info

Publication number: CN203276273U
Application number: CN 201220580233
Authority: CN
Inventors: 郭森; 梁永生; 张锦雄
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2012-11-06
Filing date: 2012-11-06
Publication date: 2013-11-06
Anticipated expiration: 2022-11-06

Abstract

本实用新型适用于计算机技术领域，提供了一种多GPU运算卡，包括至少两个GPU，每个所述GPU分别与各自的GPU显存连接，还包括：分别连接每个所述GPU的全局共享内存。本实用新型通过在多GPU之间增加全局共享内存，使得GPU之间的数据传递过程不再受限于PCIE总线来完成，有效利用了显存的带宽，显著提高了多GPU运算卡的数据处理性能。

Description

一种多GPU运算卡

技术领域

本实用新型属于计算机技术领域，尤其涉及一种多图形处理器（Graphic Processing Unit，GPU）运算卡。

背景技术

随着科学技术的飞速发展，个人计算机的性能越来越强大，硬件厂商们为了占领更多的市场份额，纷纷在各自的领域积极推进先进技术。其中，显卡厂商们为了追求极致性能和领先地位，推出了集成两个甚至更多个GPU的多GPU图形运算卡。当在具有多GPU图形运算卡的个人超级计算机上应用统一计算设备架构（Compute Unified Device Architecture，CUDA）或开放的图形程序接口（Open Graphics Library，OpenGL）进行程序开发时，人们常常需要在多个GPU之间进行频繁的数据传递。

当前，多个GPU间的数据传递技术通常是基于PCIE总线来完成的，这样的实现极大地影响了GPU的处理性能。以具有两个GPU的运算卡为例：当需要将数据从一个GPU的显存传递到另一个GPU的显存时，首先需要将一个GPU显存中的数据通过PCIE总线传递到主机内存中暂存，再通过PCIE总线将数据从主机内存传递到另一个GPU的显存中。由于PCIE总线的带宽仅有2～3GB每秒，而GPU读出显存的带宽可以达到100GB每秒之多，PCIE总线成为了影响多GPU运算卡性能的瓶颈，降低了GPU运算卡的数据处理效率。

实用新型内容

本实用新型实施例的目的在于提供一种多GPU运算卡，旨在解决现有的GPU运算卡数据处理效率低的问题。

本实用新型实施例是这样实现的，一种多GPU运算卡，包括至少两个GPU，每个所述GPU分别与各自的GPU显存连接，还包括：

分别连接每个所述GPU的全局共享内存。

进一步地，还包括：

分别连接每个所述GPU以及所述全局共享内存的仲裁电路。

进一步地，所述全局共享内存位于一个所述GPU显存中。

进一步地，所述全局共享内存分布于一个以上的所述GPU显存中。

进一步地，所述全局共享内存包括与每个所述GPU连接的读写接口。

进一步地，所述仲裁电路包括:

与所述全局共享内存连接的锁定电路；以及

与所述全局共享内存连接的解锁电路。

进一步地，所述仲裁电路包括现场可编程门阵列FPGA仲裁电路。

本实用新型实施例通过在多GPU之间增加全局共享内存，使得GPU之间的数据传递过程不再受限于PCIE总线来完成，有效利用了显存的带宽，显著提高了多GPU运算卡的数据处理性能。

附图说明

图1是本实用新型实施例提供的多GPU运算卡的结构框图；

图2是本实用另一新型实施例提供的多GPU运算卡的结构框图。

具体实施方式

为了使本实用新型的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本实用新型进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本实用新型，并不用于限定本实用新型。

图1示出了本实用新型实施例提供的多GPU运算卡的结构框图，为了便于说明，仅示出了与本实施例相关的部分。

参照图1，本实用新型实施例提供的多GPU运算卡包括至少两个GPU11，如图1所示，至少包括第一GPU111和第二GPU112，且每个GPU11分别与各自的GPU显存12连接，如图1所示，第一GPU111和第一GPU显存121连接，第二GPU112和第二GPU显存122连接。

在本实施例的上述结构中，GPU11是多GPU运算卡中的核心部件，用于实现三维图像和特效的渲染处理。具体地，第一GPU111读取第一GPU显存121中的数据并对数据进行运算处理，完成运算后将结果写入第二GPU显存122中，以使第二GPU112读取第二GPU显存122中的数据并对数据进行运算处理，并在处理完成后将结果写回第二GPU显存122中，由此完成一次GPU之间的数据处理与传输。

在本实用新型实施例中，多GPU运算卡还包括：

分别连接每个GPU11的全局共享内存13，以及

分别连接每个GPU11以及全局共享内存13的仲裁电路14。

在本实用新型实施例中，通过在多GPU运算卡中设置分别连接每个GPU11的全局共享内存13，第一GPU111与第二GPU112均可以直接访问全局共享内存13中的数据，由此，在第一GPU111向第二GPU112传输数据的过程中，第一GPU111可以直接向全局共享内存13中写入需要传输的数据，并由第二GPU112直接从全局共享内存13中读取第一GPU111写入的数据，从而完成一次GPU之间的数据传输。

在本实施例中，全局共享内存为多通道存储器，其具备多个读写接口，可以分别与每个GPU相连接。

作为本实用新型的一个实施例，全局共享内存可以为在多GPU运算卡板卡上独立存在的存储单元。

作为本实用新型的另一实施例，全局共享内存还可以位于多GPU运算卡上的其中一个GPU显存中。在该情况下，GPU显存中设置了全局共享内存的GPU由于显存空间中一部分被用于全局共享内存，因此其在多GPU运算卡中的运算能力相比于其他GPU要相对弱一些，但其对GPU之间的数据读写速度相对快一些。

作为本实用新型的另一实施例，全局共享内存还可以分布于多GPU运算卡中的一个以上的GPU显存中。为了公平分配每个GPU的运算能力，也可以将全局共享内存分布在多个GPU显存中，在该情况下，每个GPU的运算能力相当，不会因为GPU显存中设置了过大的全局共享内存而影响了数据处理能力。

作为本实用新型的一个实施例，由于GPU的运算能力不如中央处理器（Central Processing Unit，CPU）的运算能力强大，因此，如图2所示，通过在多GPU运算卡中设置分别连接每个GPU11以及全局共享内存13的仲裁电路14，用于保证同时只有一个GPU对全局共享内存进行访问，以避免多GPU的访问冲突。

具体地，每个GPU在开始读写全局共享内存以及结束对全局共享内存的读写时，均需要向仲裁电路发起请求，仲裁电路通过锁定或者解锁全局共享内存，以保证每次只有一个GPU访问全局共享内存，其中，当全局共享内存处于锁定状态下时，只允许仲裁电路指定的一个GPU进行访问。

具体地，仲裁电路包括:

与全局共享内存连接的锁定电路；以及

与全局共享内存连接的解锁电路。

其中，锁定电路用于在有GPU需要从全局共享内存中读写数据时，将全局共享内存锁定在只允许该GPU访问的状态，解锁电路用于当GPU对全局共享内存的访问结束，且没有其他GPU需要访问全局共享内存时，释放全局共享内存的锁定状态。

优选地，仲裁电路可以包括现场可编程门阵列（Field－Programmable Gate Array，FPGA）仲裁电路。

本实用新型实施例通过在多GPU之间增加全局共享内存，并通过仲裁电路来避免多GPU之间的读写冲突，使得GPU之间的数据传递过程不再受限于PCIE总线来完成，有效利用了显存的带宽，显著提高了多GPU运算卡的数据处理性能。

以上所述仅为本实用新型的较佳实施例而已，并不用以限制本实用新型，凡在本实用新型的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本实用新型的保护范围之内。

Claims

1.一种多GPU运算卡，包括至少两个GPU，每个所述GPU分别与各自的GPU显存连接，其特征在于，还包括：

分别连接每个所述GPU的全局共享内存。

2.如权利要求1所述的多GPU运算卡，其特征在于，还包括：

分别连接每个所述GPU以及所述全局共享内存的仲裁电路。

3.如权利要求1或2所述的多GPU运算卡，其特征在于，所述全局共享内存位于一个所述GPU显存中。

4.如权利要求1或2所述的多GPU运算卡，其特征在于，所述全局共享内存分布于一个以上的所述GPU显存中。

5.如权利要求1所述的多GPU运算卡，其特征在于，所述全局共享内存包括与每个所述GPU连接的读写接口。

6.如权利要求2所述的多GPU运算卡，其特征在于，所述仲裁电路包括:

与所述全局共享内存连接的锁定电路；以及

与所述全局共享内存连接的解锁电路。

7.如权利要求2或6所述的多GPU运算卡，其特征在于，所述仲裁电路包括现场可编程门阵列FPGA仲裁电路。