CN109902059A

CN109902059A - 一种cpu与gpu之间的数据传输方法

Info

Publication number: CN109902059A
Application number: CN201910150473.2A
Authority: CN
Inventors: 吕孟桓
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-06-18
Anticipated expiration: 2039-02-28
Also published as: CN109902059B

Abstract

本申请公开了一种CPU与GPU之间的数据传输方法，应用于GPU，能预先将多个线程与全局存储器中存储单元的对应关系发送到CPU，以便于CPU依据对应关系传输数据，在接收到CPU发送的数据后将数据存储到CPU指定的存储单元，最后调用多个线程并行读取全局存储器的数据。可见，该方法通过预先将存储单元与线程的对应关系发送给CPU，在后续数据传输过程中只需将数据存储到CPU指定的存储单元，即可避免为线程分配存储空间的计算过程，节省了GPU的运算资源，提高了数据传输效率。此外，本申请还提供了一种CPU与GPU之间的数据传输装置及图形处理系统，其作用与上述方法相对应。

Description

一种CPU与GPU之间的数据传输方法

技术领域

本申请涉及计算机领域，特别涉及一种CPU与GPU之间的数据传输方法、装置及图形处理系统。

背景技术

目前服务器系统接开始导向GPU人工运算配置，故CPU搭配GPU的运算模型越来越多，这类型服务器运用统称HPC(High performance computing)，搭配NVIDIA的CUDA(compute unified Device Architecture)的GPU结构与CPU内存做沟通，图1为服务器系统CPU与GPU基本内存通讯架构。GPU具体的内部结构如图2所示，GPU内包括全局存储器(Global Memory)、线程(Thread)、寄存器(Register)、共享存储器(Shared Memory)等。

目前，服务器CPU与GPU间内存的沟通模式如图3所示，CPU向GPU的全局存储器并行传输数据，然后GPU计算多个线程与数据存储单元之间的分配关系，然后调用线程依据这种分配关系从相应的存储单元读取数据。当CPU再次向GPU传输数据后，GPU需要再次计算线程与存储单元之间的分配关系。

可见，每次接收到CPU发送的数据后GPU都需要计算线程和存储单元之间的对应关系，这种重复的计算造成GPU的运算能力的浪费，且导致CPU与GPU之间的数据传输效率较低。

发明内容

本申请的目的是提供一种CPU与GPU之间的数据传输方法、装置及图形处理系统，用以解决传统的方案中GPU每次接收到CPU发送的数据都需要计算线程和存储单元之间的对应关系，这种重复的计算造成GPU的运算能力的浪费，且导致CPU与GPU之间的数据传输效率较低。

为解决上述技术问题，本申请提供了一种CPU与GPU之间的数据传输方法，应用于GPU，包括：

预先将多个线程与全局存储器中存储单元的对应关系发送到CPU，以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输，其中，所述对应关系为依据GPU对存储单元的分配而确定的；

接收CPU依据所述对应关系发送的数据，将数据存储到CPU指定的存储单元；

调用所述多个线程并行读取所述全局存储器中的数据。

可选的，在所述预先将多个线程与全局存储器中存储单元的对应关系发送到CPU，以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输之前，还包括：

依据运算需求为多个线程分配全局存储器中的存储单元，得到线程与存储单元之间的对应关系。

可选的，所述调用所述多个线程并行读取所述全局存储器中的数据，具体包括：

调用所述多个线程并行读取所述全局存储器中的数据并与寄存器和/或共享存储器进行数据交互。

可选的，所述存储单元为位。

相应的，本申请还提供了一种CPU与GPU之间的数据传输装置，应用于GPU，包括：

对应关系发送模块：用于预先将多个线程与全局存储器中存储单元的对应关系发送到CPU，以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输，其中，所述对应关系为依据GPU对存储单元的分配而确定的；

数据接收模块：用于接收CPU依据所述对应关系发送的数据，将数据存储到CPU指定的存储单元；

并行读取模块：用于调用所述多个线程并行读取所述全局存储器中的数据。

可选的，所述装置还包括：

对应关系确定模块：用于依据运算需求为多个线程分配全局存储器中的存储单元，得到线程与存储单元之间的对应关系。

可选的，所述数据接收模块具体用于：

此外，本申请还提供了一种CPU与GPU之间的数据传输方法，应用于CPU，包括：

获取GPU中多个线程与全局存储器中存储单元的对应关系；

依据所述对应关系，将数据发送到所述全局存储器中指定的存储单元，以便于GPU调用所述多个线程并行读取所述全局存储器中的数据。

相应的，本申请还提供了一种CPU与GPU之间的数据传输装置，应用于CPU，包括：

对应关系获取模块：用于获取GPU中多个线程与全局存储器中存储单元的对应关系；

数据发送模块：用于依据所述对应关系，将数据传输到所述全局存储器中指定的存储单元，以便于GPU调用所述多个线程并行读取所述全局存储器中的数据。

最后，本申请还提供了一种图形处理系统，包括：

GPU和CPU，其中，所述GPU用于实现如上任意一项所述的一种应用于GPU的CPU与GPU之间的数据传输方法的步骤，所述CPU用于实现如上所述的一种应用于CPU的CPU与GPU之间的数据传输方法的步骤。

本申请所提供的一种CPU与GPU之间的数据传输方法，应用于GPU，能够预先将多个线程与全局存储器中存储单元的对应关系发送到CPU，以便于CPU在后续的数据传输过程中依据对应关系进行数据传输，在接收到CPU发送的数据后将数据存储到CPU指定的存储单元，最后调用多个线程并行读取全局存储器中的数据。可见，该方法通过预先将存储单元与线程的对应关系发送给CPU，在后续的数据传输过程中只需要将数据存储到CPU指定的存储单元，即可避免为线程分配存储空间的计算过程，后续直接调用多个线程并行读取全局存储器中的数据即可，节省了GPU的运算资源，提高了数据传输效率。

此外，本申请还提供了一种CPU与GPU之间的数据传输装置及图形处理系统，其作用与上述方法相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为目前服务器系统CPU与GPU的基本内存通讯架构示意图图一；

图2为目前服务器系统CPU与GPU的基本内存通讯架构示意图图二；

图3为目前CPU与GPU的全局存储器之间并行传输系统结构示意图；

图4为本申请所提供的一种应用于GPU的CPU与GPU之间的数据传输方法实施例一的实现流程图；

图5为本申请所提供的一种应用于GPU的CPU与GPU之间的数据传输方法实施例一的全局存储器与线程之间并行传输的通讯架构示意图；

图6为本申请所提供的一种应用于GPU的CPU与GPU之间的数据传输方法实施例二的实现流程图；

图7为本申请所提供的一种应用于GPU的CPU与GPU之间的数据传输装置的功能框图；

图8为本申请所提供的一种应用于CPU的CPU与GPU之间的数据传输方法实施例的实现流程图；

图9为本申请所提供的一种应用于CPU的CPU与GPU之间的数据传输装置的功能框图；

图10为本申请所提供的一种图形处理系统的结构示意图。

具体实施方式

本申请的核心是提供一种CPU与GPU之间的数据传输方法、装置及图形处理系统，避免了每次传输数据都需要GPU为线程分配存储空间的计算过程，节省了GPU的运算资源，提高了数据传输效率。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对技术背景进行介绍，本申请的目的在于加快CPU与GPU间的内存读取匹配，由于GPU内的共享存储器的容量远小于全局存储器容量，因此有效率的内存匹配输入可以有效的增加GPU效能。如图2所示，一般服务器CPU与GPU间内存的沟通模式为：CPU的内存传送至GPU全局存储器，再由GPU全局存储器传送至GPU线程操作数。由图3可以得知，CPU内存至GPU全局存储器是并行传输的，而GPU全局存储器至GPU线程为依据运算需求分配的，且每次数据传输都需要通过计算确定这种分配关系，因此造成了GPU计算资源的浪费，降低了数据传输速率。

针对以上问题，本申请提供了以下方案。下面对本申请提供的一种CPU与GPU之间的数据传输方法实施例一进行介绍，实施例一应用于GPU，参见图4，实施例一包括：

步骤S101：预先将多个线程与全局存储器中存储单元的对应关系发送到CPU，以便于CPU在后续的数据传输过程中依据对应关系进行数据传输。

其中，上述对应关系为依据GPU对存储单元的分配而确定的，具体可以为GPU根据运算需求为各个线程分配的，上述存储单位具体可以为位。也就是说，在步骤S101之前，需要依据运算需求为多个线程分配全局存储器中的存储单元，确定线程与存储单元之间的对应关系。作为一种可选的实施方式，上述对应关系的确定可以为在CPU第一次向GPU传输数据之后，且在CPU第二次向GPU传输数据之前完成的。

步骤S102：接收CPU依据对应关系发送的数据，将数据存储到CPU指定的存储单元。

如图3所示，目前CPU内存与GPU全局存储器之间为并行传输模式，全局存储器与线程之间为按需分配的模型。本实施例中，在CPU将线程与存储单元之间的对应关系发送到CPU后，CPU内存与GPU的全局存储器不再遵循并行传输的模式，而是CPU依据上述对应关系指定数据传输到的存储单元，以保证GPU将数据存入CPU指定的存储单元后，多个线程可以直接并行读取全局存储器上的数据，如图5所示。

步骤S103：调用多个线程并行读取所述全局存储器中的数据。

所谓并行传输，指的是数据以成组的方式在多条并行信道上同时进行传输，在传输中有多个数据位同时在设备之间进行的传输，常用的方式是将构成一个字符的几位二进制码同时分别在几个并行的信道上传输。具体的，本实施例调用所述多个线程并行读取所述全局存储器中的数据并与寄存器和/或共享存储器进行数据交互。

本实施例所提供一种CPU与GPU之间的数据传输方法，应用于GPU，能够预先将多个线程与全局存储器中存储单元的对应关系发送到CPU，以便于CPU在后续的数据传输过程中依据对应关系进行数据传输，在接收到CPU发送的数据后将数据存储到CPU指定的存储单元，最后调用多个线程并行读取全局存储器中的数据。可见，该方法通过预先将存储单元与线程的对应关系发送给CPU，在后续的数据传输过程中只需要将数据存储到CPU指定的存储单元，即可避免为线程分配存储空间的计算过程，后续直接调用多个线程并行读取全局存储器中的数据即可，节省了GPU的运算资源，提高了数据传输效率。

下面开始详细介绍本申请提供的一种CPU与GPU之间的数据传输方法实施例二，实施例二基于上述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。参见图6，实施例二具体包括：

步骤S201：在第一次数据传输时，接收CPU向全局存储器并行传输的数据，并将数据存储在全局存储器中。

步骤S202：为多个线程分配全局存储器中的存储单元，确定各个线程与存储单元之间的对应关系。

步骤S203：依据对应关系调用线程读取存储单元中的数据，并将对应关系发送到CPU，以便于CPU在后续数据传输过程中根据对应关系传输数据。

步骤S204：在后续的数据传输过程中，接收CPU依据对应关系发送的数据，将数据存储到CPU指定的存储单元，以便于调用多个线程并行读取全局存储器中的数据。

可见，本实施例提供的一种CPU与GPU之间的数据传输方法，应用于GPU，在第一数据传输后，将存储单元与线程之间的对应关系发送给了CPU，使得CPU在后续数据传输过程中能够依据这种对应关系将数据发送至指定的存储单元，保证多个线程通过并行读取即可获取预期的数据。节省了GPU的运算资源，提高了数据传输效率。

下面对本申请实施例提供的一种CPU与GPU之间的数据传输装置进行介绍，下文描述的一种CPU与GPU之间的数据传输装置与上文描述的一种CPU与GPU之间的数据传输方法可相互对应参照。

如图7所示，该装置包括：

对应关系发送模块701：用于预先将多个线程与全局存储器中存储单元的对应关系发送到CPU，以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输，其中，所述对应关系为依据GPU对存储单元的分配而确定的；

数据接收模块702：用于接收CPU依据所述对应关系发送的数据，将数据存储到CPU指定的存储单元；

并行读取模块703：用于调用所述多个线程并行读取所述全局存储器中的数据。

作为一种可选的实施方式，所述装置还包括：

对应关系确定模块704：用于依据运算需求为多个线程分配全局存储器中的存储单元，得到线程与存储单元之间的对应关系。

作为一种可选的实施方式，所述数据接收模块702具体用于：

本实施例的一种CPU与GPU之间的数据传输装置用于实现前述的一种CPU与GPU之间的数据传输方法，因此该装置中的具体实施方式可见前文中的一种CPU与GPU之间的数据传输方法的实施例部分，例如，对应关系发送模块701、数据接收模块702、并行读取模块703，分别用于实现上述一种CPU与GPU之间的数据传输方法中步骤S101，S102，S103。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的一种CPU与GPU之间的数据传输装置用于实现前述的一种CPU与GPU之间的数据传输方法，因此其作用与上述方法的作用相对应，这里不再赘述。

上述方法实施例以及装置实施例均为应用于GPU的实施例，相应的，本申请还提供了应用于CPU的方法实施例和装置实施例，下面对二者进行介绍。下文描述的一种应用于CPU的CPU与GPU之间的数据传输方法与上文描述的一种应用于GPU的CPU与GPU之间的数据传输方法可相互对应，同理，下文描述的一种应用于CPU的CPU与GPU之间的数据传输装置与上文描述的一种应用于GPU的CPU与GPU之间的数据传输装置可相互对应。鉴于上文已经对应用于GPU的方法实施例和装置实施例进行了详尽介绍，下文对于应用于CPU的方法实施例和装置实施例不再过多介绍，具体实施细节参照上文即可。

首先，对本申请提供的一种CPU与GPU之间的数据传输方法实施例进行介绍，该实施例应用于CPU，参见图8，该实施例包括：

步骤S801：获取GPU中多个线程与全局存储器中存储单元的对应关系。

步骤S802：依据对应关系，将数据发送到全局存储器中指定的存储单元，以便于GPU调用多个线程并行读取全局存储器中的数据。

本实施例所提供一种CPU与GPU之间的数据传输方法，应用于CPU，能够获取GPU中多个线程与全局存储器中存储单元的对应关系，并在后续的数据传输过程中依据对应关系数据传输到指定的存储单元，以便于GPU直接调用多个线程并行读取全局存储器中的数据即可。可见，该方法避免了每次传输数据都需要GPU为线程分配存储单元的计算过程，节省了GPU的运算资源，提高了数据传输效率。

然后，对本申请提供的一种CPU与GPU之间的数据传输装置实施例进行介绍，该实施例应用于CPU，下文描述的一种应用于CPU的CPU与GPU之间的数据传输装置与上文描述的一种应用于CPU的CPU与GPU之间的数据传输方法可相互对应参照。

参见图9，该实施例包括：

对应关系获取模块901：用于获取GPU中多个线程与全局存储器中存储单元的对应关系；

数据发送模块902：用于依据所述对应关系，将数据传输到所述全局存储器中指定的存储单元，以便于GPU调用所述多个线程并行读取所述全局存储器中的数据。

本实施例的一种应用于CPU的CPU与GPU之间的数据传输装置用于实现前述的一种CPU与GPU之间的数据传输方法，因此其作用与上述方法的作用相对应，这里不再赘述。

最后，本申请还提供了一种图形处理系统，如图10所示，该系统包括：

GPU100和CPU200，其中，所述GPU100用于实现如上任意一项所述的一种应用于GPU的CPU与GPU之间的数据传输方法的步骤，所述CPU200用于实现如上所述的一种应用于CPU的CPU与GPU之间的数据传输方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种CPU与GPU之间的数据传输方法、装置及图形处理系统进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种CPU与GPU之间的数据传输方法，应用于GPU，其特征在于，包括：

调用所述多个线程并行读取所述全局存储器中的数据。

2.如权利要求1所述的方法，其特征在于，在所述预先将多个线程与全局存储器中存储单元的对应关系发送到CPU，以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输之前，还包括：

3.如权利要求2所述的方法，其特征在于，所述调用所述多个线程并行读取所述全局存储器中的数据，具体包括：

4.如权利要求3所述的方法，其特征在于，所述存储单元为位。

5.一种CPU与GPU之间的数据传输装置，应用于GPU，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，所述装置还包括：

7.如权利要求6所述的装置，其特征在于，所述数据接收模块具体用于：

8.一种CPU与GPU之间的数据传输方法，应用于CPU，其特征在于，包括：

获取GPU中多个线程与全局存储器中存储单元的对应关系；

9.一种CPU与GPU之间的数据传输装置，应用于CPU，其特征在于，包括：

10.一种图形处理系统，其特征在于，包括：

GPU和CPU，其中，所述GPU用于实现如权利要求1-4任意一项所述的一种CPU与GPU之间的数据传输方法的步骤，所述CPU用于实现如权利要求8所述的一种CPU与GPU之间的数据传输方法的步骤。