CN109902059A - 一种cpu与gpu之间的数据传输方法 - Google Patents
一种cpu与gpu之间的数据传输方法 Download PDFInfo
- Publication number
- CN109902059A CN109902059A CN201910150473.2A CN201910150473A CN109902059A CN 109902059 A CN109902059 A CN 109902059A CN 201910150473 A CN201910150473 A CN 201910150473A CN 109902059 A CN109902059 A CN 109902059A
- Authority
- CN
- China
- Prior art keywords
- cpu
- gpu
- data
- corresponding relationship
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Multi Processors (AREA)
Abstract
本申请公开了一种CPU与GPU之间的数据传输方法,应用于GPU,能预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU依据对应关系传输数据,在接收到CPU发送的数据后将数据存储到CPU指定的存储单元,最后调用多个线程并行读取全局存储器的数据。可见,该方法通过预先将存储单元与线程的对应关系发送给CPU,在后续数据传输过程中只需将数据存储到CPU指定的存储单元,即可避免为线程分配存储空间的计算过程,节省了GPU的运算资源,提高了数据传输效率。此外,本申请还提供了一种CPU与GPU之间的数据传输装置及图形处理系统,其作用与上述方法相对应。
Description
技术领域
本申请涉及计算机领域,特别涉及一种CPU与GPU之间的数据传输方法、装置及图形处理系统。
背景技术
目前服务器系统接开始导向GPU人工运算配置,故CPU搭配GPU的运算模型越来越多,这类型服务器运用统称HPC(High performance computing),搭配NVIDIA的CUDA(compute unified Device Architecture)的GPU结构与CPU内存做沟通,图1为服务器系统CPU与GPU基本内存通讯架构。GPU具体的内部结构如图2所示,GPU内包括全局存储器(Global Memory)、线程(Thread)、寄存器(Register)、共享存储器(Shared Memory)等。
目前,服务器CPU与GPU间内存的沟通模式如图3所示,CPU向GPU的全局存储器并行传输数据,然后GPU计算多个线程与数据存储单元之间的分配关系,然后调用线程依据这种分配关系从相应的存储单元读取数据。当CPU再次向GPU传输数据后,GPU需要再次计算线程与存储单元之间的分配关系。
可见,每次接收到CPU发送的数据后GPU都需要计算线程和存储单元之间的对应关系,这种重复的计算造成GPU的运算能力的浪费,且导致CPU与GPU之间的数据传输效率较低。
发明内容
本申请的目的是提供一种CPU与GPU之间的数据传输方法、装置及图形处理系统,用以解决传统的方案中GPU每次接收到CPU发送的数据都需要计算线程和存储单元之间的对应关系,这种重复的计算造成GPU的运算能力的浪费,且导致CPU与GPU之间的数据传输效率较低。
为解决上述技术问题,本申请提供了一种CPU与GPU之间的数据传输方法,应用于GPU,包括:
预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输,其中,所述对应关系为依据GPU对存储单元的分配而确定的;
接收CPU依据所述对应关系发送的数据,将数据存储到CPU指定的存储单元;
调用所述多个线程并行读取所述全局存储器中的数据。
可选的,在所述预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输之前,还包括:
依据运算需求为多个线程分配全局存储器中的存储单元,得到线程与存储单元之间的对应关系。
可选的,所述调用所述多个线程并行读取所述全局存储器中的数据,具体包括:
调用所述多个线程并行读取所述全局存储器中的数据并与寄存器和/或共享存储器进行数据交互。
可选的,所述存储单元为位。
相应的,本申请还提供了一种CPU与GPU之间的数据传输装置,应用于GPU,包括:
对应关系发送模块:用于预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输,其中,所述对应关系为依据GPU对存储单元的分配而确定的;
数据接收模块:用于接收CPU依据所述对应关系发送的数据,将数据存储到CPU指定的存储单元;
并行读取模块:用于调用所述多个线程并行读取所述全局存储器中的数据。
可选的,所述装置还包括:
对应关系确定模块:用于依据运算需求为多个线程分配全局存储器中的存储单元,得到线程与存储单元之间的对应关系。
可选的,所述数据接收模块具体用于:
调用所述多个线程并行读取所述全局存储器中的数据并与寄存器和/或共享存储器进行数据交互。
此外,本申请还提供了一种CPU与GPU之间的数据传输方法,应用于CPU,包括:
获取GPU中多个线程与全局存储器中存储单元的对应关系;
依据所述对应关系,将数据发送到所述全局存储器中指定的存储单元,以便于GPU调用所述多个线程并行读取所述全局存储器中的数据。
相应的,本申请还提供了一种CPU与GPU之间的数据传输装置,应用于CPU,包括:
对应关系获取模块:用于获取GPU中多个线程与全局存储器中存储单元的对应关系;
数据发送模块:用于依据所述对应关系,将数据传输到所述全局存储器中指定的存储单元,以便于GPU调用所述多个线程并行读取所述全局存储器中的数据。
最后,本申请还提供了一种图形处理系统,包括:
GPU和CPU,其中,所述GPU用于实现如上任意一项所述的一种应用于GPU的CPU与GPU之间的数据传输方法的步骤,所述CPU用于实现如上所述的一种应用于CPU的CPU与GPU之间的数据传输方法的步骤。
本申请所提供的一种CPU与GPU之间的数据传输方法,应用于GPU,能够预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据对应关系进行数据传输,在接收到CPU发送的数据后将数据存储到CPU指定的存储单元,最后调用多个线程并行读取全局存储器中的数据。可见,该方法通过预先将存储单元与线程的对应关系发送给CPU,在后续的数据传输过程中只需要将数据存储到CPU指定的存储单元,即可避免为线程分配存储空间的计算过程,后续直接调用多个线程并行读取全局存储器中的数据即可,节省了GPU的运算资源,提高了数据传输效率。
此外,本申请还提供了一种CPU与GPU之间的数据传输装置及图形处理系统,其作用与上述方法相对应,这里不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为目前服务器系统CPU与GPU的基本内存通讯架构示意图图一;
图2为目前服务器系统CPU与GPU的基本内存通讯架构示意图图二;
图3为目前CPU与GPU的全局存储器之间并行传输系统结构示意图;
图4为本申请所提供的一种应用于GPU的CPU与GPU之间的数据传输方法实施例一的实现流程图;
图5为本申请所提供的一种应用于GPU的CPU与GPU之间的数据传输方法实施例一的全局存储器与线程之间并行传输的通讯架构示意图;
图6为本申请所提供的一种应用于GPU的CPU与GPU之间的数据传输方法实施例二的实现流程图;
图7为本申请所提供的一种应用于GPU的CPU与GPU之间的数据传输装置的功能框图;
图8为本申请所提供的一种应用于CPU的CPU与GPU之间的数据传输方法实施例的实现流程图;
图9为本申请所提供的一种应用于CPU的CPU与GPU之间的数据传输装置的功能框图;
图10为本申请所提供的一种图形处理系统的结构示意图。
具体实施方式
本申请的核心是提供一种CPU与GPU之间的数据传输方法、装置及图形处理系统,避免了每次传输数据都需要GPU为线程分配存储空间的计算过程,节省了GPU的运算资源,提高了数据传输效率。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对技术背景进行介绍,本申请的目的在于加快CPU与GPU间的内存读取匹配,由于GPU内的共享存储器的容量远小于全局存储器容量,因此有效率的内存匹配输入可以有效的增加GPU效能。如图2所示,一般服务器CPU与GPU间内存的沟通模式为:CPU的内存传送至GPU全局存储器,再由GPU全局存储器传送至GPU线程操作数。由图3可以得知,CPU内存至GPU全局存储器是并行传输的,而GPU全局存储器至GPU线程为依据运算需求分配的,且每次数据传输都需要通过计算确定这种分配关系,因此造成了GPU计算资源的浪费,降低了数据传输速率。
针对以上问题,本申请提供了以下方案。下面对本申请提供的一种CPU与GPU之间的数据传输方法实施例一进行介绍,实施例一应用于GPU,参见图4,实施例一包括:
步骤S101:预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据对应关系进行数据传输。
其中,上述对应关系为依据GPU对存储单元的分配而确定的,具体可以为GPU根据运算需求为各个线程分配的,上述存储单位具体可以为位。也就是说,在步骤S101之前,需要依据运算需求为多个线程分配全局存储器中的存储单元,确定线程与存储单元之间的对应关系。作为一种可选的实施方式,上述对应关系的确定可以为在CPU第一次向GPU传输数据之后,且在CPU第二次向GPU传输数据之前完成的。
步骤S102:接收CPU依据对应关系发送的数据,将数据存储到CPU指定的存储单元。
如图3所示,目前CPU内存与GPU全局存储器之间为并行传输模式,全局存储器与线程之间为按需分配的模型。本实施例中,在CPU将线程与存储单元之间的对应关系发送到CPU后,CPU内存与GPU的全局存储器不再遵循并行传输的模式,而是CPU依据上述对应关系指定数据传输到的存储单元,以保证GPU将数据存入CPU指定的存储单元后,多个线程可以直接并行读取全局存储器上的数据,如图5所示。
步骤S103:调用多个线程并行读取所述全局存储器中的数据。
所谓并行传输,指的是数据以成组的方式在多条并行信道上同时进行传输,在传输中有多个数据位同时在设备之间进行的传输,常用的方式是将构成一个字符的几位二进制码同时分别在几个并行的信道上传输。具体的,本实施例调用所述多个线程并行读取所述全局存储器中的数据并与寄存器和/或共享存储器进行数据交互。
本实施例所提供一种CPU与GPU之间的数据传输方法,应用于GPU,能够预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据对应关系进行数据传输,在接收到CPU发送的数据后将数据存储到CPU指定的存储单元,最后调用多个线程并行读取全局存储器中的数据。可见,该方法通过预先将存储单元与线程的对应关系发送给CPU,在后续的数据传输过程中只需要将数据存储到CPU指定的存储单元,即可避免为线程分配存储空间的计算过程,后续直接调用多个线程并行读取全局存储器中的数据即可,节省了GPU的运算资源,提高了数据传输效率。
下面开始详细介绍本申请提供的一种CPU与GPU之间的数据传输方法实施例二,实施例二基于上述实施例一实现,并在实施例一的基础上进行了一定程度上的拓展。参见图6,实施例二具体包括:
步骤S201:在第一次数据传输时,接收CPU向全局存储器并行传输的数据,并将数据存储在全局存储器中。
步骤S202:为多个线程分配全局存储器中的存储单元,确定各个线程与存储单元之间的对应关系。
步骤S203:依据对应关系调用线程读取存储单元中的数据,并将对应关系发送到CPU,以便于CPU在后续数据传输过程中根据对应关系传输数据。
步骤S204:在后续的数据传输过程中,接收CPU依据对应关系发送的数据,将数据存储到CPU指定的存储单元,以便于调用多个线程并行读取全局存储器中的数据。
可见,本实施例提供的一种CPU与GPU之间的数据传输方法,应用于GPU,在第一数据传输后,将存储单元与线程之间的对应关系发送给了CPU,使得CPU在后续数据传输过程中能够依据这种对应关系将数据发送至指定的存储单元,保证多个线程通过并行读取即可获取预期的数据。节省了GPU的运算资源,提高了数据传输效率。
下面对本申请实施例提供的一种CPU与GPU之间的数据传输装置进行介绍,下文描述的一种CPU与GPU之间的数据传输装置与上文描述的一种CPU与GPU之间的数据传输方法可相互对应参照。
如图7所示,该装置包括:
对应关系发送模块701:用于预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输,其中,所述对应关系为依据GPU对存储单元的分配而确定的;
数据接收模块702:用于接收CPU依据所述对应关系发送的数据,将数据存储到CPU指定的存储单元;
并行读取模块703:用于调用所述多个线程并行读取所述全局存储器中的数据。
作为一种可选的实施方式,所述装置还包括:
对应关系确定模块704:用于依据运算需求为多个线程分配全局存储器中的存储单元,得到线程与存储单元之间的对应关系。
作为一种可选的实施方式,所述数据接收模块702具体用于:
调用所述多个线程并行读取所述全局存储器中的数据并与寄存器和/或共享存储器进行数据交互。
本实施例的一种CPU与GPU之间的数据传输装置用于实现前述的一种CPU与GPU之间的数据传输方法,因此该装置中的具体实施方式可见前文中的一种CPU与GPU之间的数据传输方法的实施例部分,例如,对应关系发送模块701、数据接收模块702、并行读取模块703,分别用于实现上述一种CPU与GPU之间的数据传输方法中步骤S101,S102,S103。所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的一种CPU与GPU之间的数据传输装置用于实现前述的一种CPU与GPU之间的数据传输方法,因此其作用与上述方法的作用相对应,这里不再赘述。
上述方法实施例以及装置实施例均为应用于GPU的实施例,相应的,本申请还提供了应用于CPU的方法实施例和装置实施例,下面对二者进行介绍。下文描述的一种应用于CPU的CPU与GPU之间的数据传输方法与上文描述的一种应用于GPU的CPU与GPU之间的数据传输方法可相互对应,同理,下文描述的一种应用于CPU的CPU与GPU之间的数据传输装置与上文描述的一种应用于GPU的CPU与GPU之间的数据传输装置可相互对应。鉴于上文已经对应用于GPU的方法实施例和装置实施例进行了详尽介绍,下文对于应用于CPU的方法实施例和装置实施例不再过多介绍,具体实施细节参照上文即可。
首先,对本申请提供的一种CPU与GPU之间的数据传输方法实施例进行介绍,该实施例应用于CPU,参见图8,该实施例包括:
步骤S801:获取GPU中多个线程与全局存储器中存储单元的对应关系。
步骤S802:依据对应关系,将数据发送到全局存储器中指定的存储单元,以便于GPU调用多个线程并行读取全局存储器中的数据。
本实施例所提供一种CPU与GPU之间的数据传输方法,应用于CPU,能够获取GPU中多个线程与全局存储器中存储单元的对应关系,并在后续的数据传输过程中依据对应关系数据传输到指定的存储单元,以便于GPU直接调用多个线程并行读取全局存储器中的数据即可。可见,该方法避免了每次传输数据都需要GPU为线程分配存储单元的计算过程,节省了GPU的运算资源,提高了数据传输效率。
然后,对本申请提供的一种CPU与GPU之间的数据传输装置实施例进行介绍,该实施例应用于CPU,下文描述的一种应用于CPU的CPU与GPU之间的数据传输装置与上文描述的一种应用于CPU的CPU与GPU之间的数据传输方法可相互对应参照。
参见图9,该实施例包括:
对应关系获取模块901:用于获取GPU中多个线程与全局存储器中存储单元的对应关系;
数据发送模块902:用于依据所述对应关系,将数据传输到所述全局存储器中指定的存储单元,以便于GPU调用所述多个线程并行读取所述全局存储器中的数据。
本实施例的一种应用于CPU的CPU与GPU之间的数据传输装置用于实现前述的一种CPU与GPU之间的数据传输方法,因此其作用与上述方法的作用相对应,这里不再赘述。
最后,本申请还提供了一种图形处理系统,如图10所示,该系统包括:
GPU100和CPU200,其中,所述GPU100用于实现如上任意一项所述的一种应用于GPU的CPU与GPU之间的数据传输方法的步骤,所述CPU200用于实现如上所述的一种应用于CPU的CPU与GPU之间的数据传输方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种CPU与GPU之间的数据传输方法、装置及图形处理系统进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种CPU与GPU之间的数据传输方法,应用于GPU,其特征在于,包括:
预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输,其中,所述对应关系为依据GPU对存储单元的分配而确定的;
接收CPU依据所述对应关系发送的数据,将数据存储到CPU指定的存储单元;
调用所述多个线程并行读取所述全局存储器中的数据。
2.如权利要求1所述的方法,其特征在于,在所述预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输之前,还包括:
依据运算需求为多个线程分配全局存储器中的存储单元,得到线程与存储单元之间的对应关系。
3.如权利要求2所述的方法,其特征在于,所述调用所述多个线程并行读取所述全局存储器中的数据,具体包括:
调用所述多个线程并行读取所述全局存储器中的数据并与寄存器和/或共享存储器进行数据交互。
4.如权利要求3所述的方法,其特征在于,所述存储单元为位。
5.一种CPU与GPU之间的数据传输装置,应用于GPU,其特征在于,包括:
对应关系发送模块:用于预先将多个线程与全局存储器中存储单元的对应关系发送到CPU,以便于CPU在后续的数据传输过程中依据所述对应关系进行数据传输,其中,所述对应关系为依据GPU对存储单元的分配而确定的;
数据接收模块:用于接收CPU依据所述对应关系发送的数据,将数据存储到CPU指定的存储单元;
并行读取模块:用于调用所述多个线程并行读取所述全局存储器中的数据。
6.如权利要求5所述的装置,其特征在于,所述装置还包括:
对应关系确定模块:用于依据运算需求为多个线程分配全局存储器中的存储单元,得到线程与存储单元之间的对应关系。
7.如权利要求6所述的装置,其特征在于,所述数据接收模块具体用于:
调用所述多个线程并行读取所述全局存储器中的数据并与寄存器和/或共享存储器进行数据交互。
8.一种CPU与GPU之间的数据传输方法,应用于CPU,其特征在于,包括:
获取GPU中多个线程与全局存储器中存储单元的对应关系;
依据所述对应关系,将数据发送到所述全局存储器中指定的存储单元,以便于GPU调用所述多个线程并行读取所述全局存储器中的数据。
9.一种CPU与GPU之间的数据传输装置,应用于CPU,其特征在于,包括:
对应关系获取模块:用于获取GPU中多个线程与全局存储器中存储单元的对应关系;
数据发送模块:用于依据所述对应关系,将数据传输到所述全局存储器中指定的存储单元,以便于GPU调用所述多个线程并行读取所述全局存储器中的数据。
10.一种图形处理系统,其特征在于,包括:
GPU和CPU,其中,所述GPU用于实现如权利要求1-4任意一项所述的一种CPU与GPU之间的数据传输方法的步骤,所述CPU用于实现如权利要求8所述的一种CPU与GPU之间的数据传输方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910150473.2A CN109902059B (zh) | 2019-02-28 | 2019-02-28 | 一种cpu与gpu之间的数据传输方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910150473.2A CN109902059B (zh) | 2019-02-28 | 2019-02-28 | 一种cpu与gpu之间的数据传输方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902059A true CN109902059A (zh) | 2019-06-18 |
CN109902059B CN109902059B (zh) | 2021-06-29 |
Family
ID=66945882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910150473.2A Active CN109902059B (zh) | 2019-02-28 | 2019-02-28 | 一种cpu与gpu之间的数据传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902059B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533742A (zh) * | 2019-09-03 | 2019-12-03 | 广州视源电子科技股份有限公司 | 一种图像填色方法、装置、设备及存储介质 |
CN110764722A (zh) * | 2019-10-21 | 2020-02-07 | 北京博源恒芯科技股份有限公司 | 基于gpu的喷墨打印数据处理方法、装置及控制器 |
CN113448706A (zh) * | 2021-06-29 | 2021-09-28 | 中国工商银行股份有限公司 | 批量任务处理方法、装置及系统 |
CN115237605A (zh) * | 2022-09-19 | 2022-10-25 | 四川大学 | Cpu与gpu间的数据传输方法及计算机设备 |
CN117742664A (zh) * | 2024-02-19 | 2024-03-22 | 粤港澳大湾区数字经济研究院(福田) | 基于gpu的求模方法、装置、设备及介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102064977A (zh) * | 2010-11-10 | 2011-05-18 | 中国人民解放军国防科学技术大学 | 基于gpu的高速网络报文内容检测方法 |
CN102163319A (zh) * | 2011-03-02 | 2011-08-24 | 浪潮(北京)电子信息产业有限公司 | 一种实现迭代重构图像的方法及系统 |
CN102446159A (zh) * | 2010-10-12 | 2012-05-09 | 无锡江南计算技术研究所 | 多核处理器的数据管理方法及装置 |
CN102523054A (zh) * | 2011-12-07 | 2012-06-27 | 清华大学 | Mimo检测方法 |
CN102696023A (zh) * | 2009-09-25 | 2012-09-26 | 辉达公司 | 用于访问并行存储器空间的统一寻址和指令 |
CN103049241A (zh) * | 2013-01-24 | 2013-04-17 | 重庆邮电大学 | 一种提高cpu+gpu异构装置计算性能的方法 |
CN103559017A (zh) * | 2013-10-23 | 2014-02-05 | 东软集团股份有限公司 | 基于gpu异构计算平台的字符串匹配方法及系统 |
CN103559018A (zh) * | 2013-10-23 | 2014-02-05 | 东软集团股份有限公司 | 基于gpu计算的字符串匹配方法和系统 |
US20140043347A1 (en) * | 2012-08-10 | 2014-02-13 | Electronics And Telecommunications Research Institute | Methods for jpeg2000 encoding and decoding based on gpu |
CN103714009A (zh) * | 2013-12-20 | 2014-04-09 | 华中科技大学 | 一种GPU上基于内存统一管理的MapReduce实现方法 |
CN103761215A (zh) * | 2014-01-15 | 2014-04-30 | 北京新松佳和电子系统股份有限公司 | 基于图形处理器的矩阵转置优化方法 |
CN104484234A (zh) * | 2014-11-21 | 2015-04-01 | 中国电力科学研究院 | 一种基于gpu的多波前潮流计算方法和系统 |
CN106648901A (zh) * | 2016-12-29 | 2017-05-10 | 广东工业大学 | 一种多通道信号相关性分析方法及系统 |
US20180253290A1 (en) * | 2017-03-02 | 2018-09-06 | International Business Machines Corporation | Compiling a parallel loop with a complex access pattern for writing an array for gpu and cpu |
CN108549763A (zh) * | 2018-04-09 | 2018-09-18 | 电子科技大学 | 一种用于离子推进器数值模拟的电荷交换碰撞mcc方法 |
-
2019
- 2019-02-28 CN CN201910150473.2A patent/CN109902059B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102696023A (zh) * | 2009-09-25 | 2012-09-26 | 辉达公司 | 用于访问并行存储器空间的统一寻址和指令 |
CN102446159A (zh) * | 2010-10-12 | 2012-05-09 | 无锡江南计算技术研究所 | 多核处理器的数据管理方法及装置 |
CN102064977A (zh) * | 2010-11-10 | 2011-05-18 | 中国人民解放军国防科学技术大学 | 基于gpu的高速网络报文内容检测方法 |
CN102163319A (zh) * | 2011-03-02 | 2011-08-24 | 浪潮(北京)电子信息产业有限公司 | 一种实现迭代重构图像的方法及系统 |
CN102523054A (zh) * | 2011-12-07 | 2012-06-27 | 清华大学 | Mimo检测方法 |
US20140043347A1 (en) * | 2012-08-10 | 2014-02-13 | Electronics And Telecommunications Research Institute | Methods for jpeg2000 encoding and decoding based on gpu |
CN103049241A (zh) * | 2013-01-24 | 2013-04-17 | 重庆邮电大学 | 一种提高cpu+gpu异构装置计算性能的方法 |
CN103559017A (zh) * | 2013-10-23 | 2014-02-05 | 东软集团股份有限公司 | 基于gpu异构计算平台的字符串匹配方法及系统 |
CN103559018A (zh) * | 2013-10-23 | 2014-02-05 | 东软集团股份有限公司 | 基于gpu计算的字符串匹配方法和系统 |
CN103714009A (zh) * | 2013-12-20 | 2014-04-09 | 华中科技大学 | 一种GPU上基于内存统一管理的MapReduce实现方法 |
CN103761215A (zh) * | 2014-01-15 | 2014-04-30 | 北京新松佳和电子系统股份有限公司 | 基于图形处理器的矩阵转置优化方法 |
CN104484234A (zh) * | 2014-11-21 | 2015-04-01 | 中国电力科学研究院 | 一种基于gpu的多波前潮流计算方法和系统 |
CN106648901A (zh) * | 2016-12-29 | 2017-05-10 | 广东工业大学 | 一种多通道信号相关性分析方法及系统 |
US20180253290A1 (en) * | 2017-03-02 | 2018-09-06 | International Business Machines Corporation | Compiling a parallel loop with a complex access pattern for writing an array for gpu and cpu |
CN108549763A (zh) * | 2018-04-09 | 2018-09-18 | 电子科技大学 | 一种用于离子推进器数值模拟的电荷交换碰撞mcc方法 |
Non-Patent Citations (3)
Title |
---|
CONG FU 等: "A CPU-GPU Data Transfer Optimization Approach Based on Code Migration and Merging", 《2017 16TH INTERNATIONAL SYMPOSIUM ON DISTRIBUTED COMPUTING AND APPLICATIONS TO BUSINESS, ENGINEERING AND SCIENCE (DCABES)》 * |
郑超: "GPU上并行数据操作技术优化", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈文洁: "一种PSK信号的并行化离线解调优化方法", 《电讯技术》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533742A (zh) * | 2019-09-03 | 2019-12-03 | 广州视源电子科技股份有限公司 | 一种图像填色方法、装置、设备及存储介质 |
CN110533742B (zh) * | 2019-09-03 | 2021-05-11 | 广州视源电子科技股份有限公司 | 一种图像填色方法、装置、设备及存储介质 |
CN110764722A (zh) * | 2019-10-21 | 2020-02-07 | 北京博源恒芯科技股份有限公司 | 基于gpu的喷墨打印数据处理方法、装置及控制器 |
CN113448706A (zh) * | 2021-06-29 | 2021-09-28 | 中国工商银行股份有限公司 | 批量任务处理方法、装置及系统 |
CN115237605A (zh) * | 2022-09-19 | 2022-10-25 | 四川大学 | Cpu与gpu间的数据传输方法及计算机设备 |
CN117742664A (zh) * | 2024-02-19 | 2024-03-22 | 粤港澳大湾区数字经济研究院(福田) | 基于gpu的求模方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109902059B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902059A (zh) | 一种cpu与gpu之间的数据传输方法 | |
US11146502B2 (en) | Method and apparatus for allocating resource | |
CN107241281B (zh) | 一种数据处理方法及其装置 | |
CN102906726B (zh) | 协处理加速方法、装置及系统 | |
US20170192819A1 (en) | Method and electronic device for resource allocation | |
CN108052615B (zh) | 访问请求的处理方法、装置、介质及电子设备 | |
CN106095589B (zh) | 一种分配分区的方法、装置及系统 | |
CN105159610B (zh) | 大规模数据处理系统及方法 | |
CN106233269A (zh) | 在存储器控制器中的精细粒度带宽供应 | |
CN107124469A (zh) | 一种集群节点通信方法及系统 | |
CN109408243A (zh) | 一种基于rdma的数据处理方法、装置和介质 | |
CN113515320A (zh) | 一种硬件加速处理方法、装置以及服务器 | |
CN115858184B (zh) | 一种rdma内存管理方法、装置、设备及介质 | |
CN115860080A (zh) | 计算核、加速器、计算方法、装置、设备、介质及系统 | |
CN108234551A (zh) | 一种数据处理方法及装置 | |
US11023825B2 (en) | Platform as a service cloud server and machine learning data processing method thereof | |
CN103369038A (zh) | 平台即服务PaaS管理平台及方法 | |
CN103577469B (zh) | 数据库连接复用方法和装置 | |
CN102904919A (zh) | 流处理方法和实现流处理的分布式系统 | |
CN104184765A (zh) | 一种请求控制方法及客户端装置和服务器端装置 | |
CN114500546A (zh) | 基于负载均衡集群的通信消息发送方法、装置及设备 | |
CN108255590B (zh) | 一种数据流控制方法和装置 | |
CN113626221A (zh) | 一种消息入队方法及装置 | |
CN109213745A (zh) | 一种分布式文件存储方法、装置、处理器及存储介质 | |
CN110096352A (zh) | 进程管理方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |