CN115775199B - 数据处理方法和装置、电子设备和计算机可读存储介质 - Google Patents
数据处理方法和装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN115775199B CN115775199B CN202211471539.6A CN202211471539A CN115775199B CN 115775199 B CN115775199 B CN 115775199B CN 202211471539 A CN202211471539 A CN 202211471539A CN 115775199 B CN115775199 B CN 115775199B
- Authority
- CN
- China
- Prior art keywords
- computing module
- data
- computing
- data processing
- modules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 70
- 238000003860 storage Methods 0.000 title claims abstract description 32
- 230000015654 memory Effects 0.000 claims abstract description 203
- 238000012545 processing Methods 0.000 claims abstract description 69
- 230000005540 biological transmission Effects 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000009826 distribution Methods 0.000 claims description 122
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000012546 transfer Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/544—Buffers; Shared memory; Pipes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/60—Memory management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multi Processors (AREA)
Abstract
一种数据处理方法、数据处理装置、电子设备和计算机可读存储介质。该数据处理方法用于数据处理装置,该数据处理装置包括多个计算模块,该多个计算模块中的每个包括多个线程执行单元和该多个线程执行单元共用的共享内存,该多个计算模块包括第一计算模块和第二计算模块,该数据处理方法包括:通过该第一计算模块的共享内存和该第二计算模块的共享内存之间建立的数据传输通道,直接传输该第一计算模块运行的第一工作组和该第二计算模块运行的第二工作组之间的待交互的数据。该方法可以缩短数据读取路径,加快数据读取速度,降低全局内存读取路径上的带宽需求。
Description
技术领域
本公开的实施例涉及一种数据处理方法、数据处理装置、电子设备和计算机可读存储介质。
背景技术
随着计算机技术的发展,电子设备日新月异,同时对显示技术的要求不断增高,例如,对GPU(graphics processing unit,图形处理器)的处理能力的要求不断提高。由于GPU具备大规模并行处理能力,现在越来越多应用将其用于大规模的并行计算。GPU可以包括多个并行的计算模块,每个计算模块可以处理多个线程任务。
发明内容
本公开至少一个实施例提供一种数据处理方法,该数据处理方法用于数据处理装置,其中,所述数据处理装置包括多个计算模块,所述多个计算模块中的每个包括多个线程执行单元和所述多个线程执行单元共用的共享内存,所述多个计算模块包括第一计算模块和第二计算模块,所述数据处理方法包括:通过所述第一计算模块的共享内存和所述第二计算模块的共享内存之间建立的数据传输通道,直接传输所述第一计算模块运行的第一工作组和所述第二计算模块运行的第二工作组之间的待交互的数据。
例如,在本公开一实施例提供的数据处理方法中,所述待交互的数据为所述第一工作组和所述第二工作组的共享数据。
例如,在本公开一实施例提供的数据处理方法中,所述待交互的数据为所述第一工作组和所述第二工作组之间需要同步的数据。
例如,在本公开一实施例提供的数据处理方法中,所述数据传输通道通过直接存储器访问的方式进行数据交互。
例如,在本公开一实施例提供的数据处理方法中,所述第一工作组包含的线程的数量和所述第二工作组包含的线程的数量相同。
例如,本公开一实施例提供的数据处理方法还包括:接收包括所述第一工作组和所述第二工作组的待分发工作组;确定目标分发模式;基于所述目标分发模式,分发所述待分发工作组。
例如,在本公开一实施例提供的数据处理方法中,确定目标分发模式,包括:获取所述待分发工作组的配置信息;从至少两个分发模式中选取与所述配置信息相匹配的分发模式,作为所述目标分发模式,其中,所述至少两个分发模式包括第一分发模式和第二分发模式,在所述第一分发模式下,将所述待分发工作组分发至所述多个计算模块中的一个计算模块,在所述第二分发模式下,将所述待分发工作组分发至所述多个计算模块中的N个计算模块,所述N个计算模块中的至少部分计算模块的共享内存之间具有数据传输通道,以使所述N个计算模块中的任意两个计算模块能够通过所述数据传输通道进行交互,其中,N为大于1的整数。
例如,在本公开一实施例提供的数据处理方法中,所述配置信息包括所述待分发工作组的线程数量和/或所述待分发工作组的每个线程的处理数据量。
例如,在本公开一实施例提供的数据处理方法中,确定目标分发模式,包括:从存储单元获取模式选定信息,其中,所述模式选定信息表征用户选定的分发模式的类型;从至少两个分发模式中选取与所述分发模式选定信息相匹配的分发模式,作为所述目标分发模式。
例如,在本公开一实施例提供的数据处理方法中,基于所述目标分发模式,分发所述待分发工作组,包括:响应于所述目标分发模式为所述第二分发模式,将所述待分发工作组切分为N个工作组;将所述N个工作组分别分发至所述N个计算模块。
例如,在本公开一实施例提供的数据处理方法中,所述N个工作组包括所述第一工作组和所述第二工作组,所述N个计算模块包括所述第一计算模块和所述第二计算模块;将所述N个工作组分别分发至所述N个计算模块,包括:将所述第一工作组分发至所述第一计算模块;将所述第二工作组分发至所述第二计算模块。
例如,在本公开一实施例提供的数据处理方法中,将所述N个工作组分别分发至所述N个计算模块,包括:将所述多个计算模块分成包括N个计算模块的模块组;将所述待分发工作组分发至一个所述模块组包含的N个计算模块。
例如,在本公开一实施例提供的数据处理方法中,基于所述目标分发模式,分发所述待分发工作组,还包括:在将所述N个工作组分别分发至所述N个计算模块之前,确定所述N个计算模块是否满足所述N个工作组的资源需求;在所述N个计算模块满足所述N个工作组的资源需求的情况下,将所述N个工作组分别分发至所述N个计算模块。
例如,在本公开一实施例提供的数据处理方法中,所述多个计算模块中的每个还包括多个寄存器,针对每个所述计算模块,所述多个寄存器与所述共享内存和所述多个线程执行单元进行交互;确定所述N个计算模块是否满足所述N个工作组的资源需求,包括:确定所述N个计算模块包含的寄存器数量是否满足所述N个工作组的数量需求;和/或确定所述N个计算模块包含的共享内存的容量是否满足所述N个工作组的容量需求。
例如,在本公开一实施例提供的数据处理方法中,确定所述N个计算模块包含的寄存器数量是否满足所述N个工作组的数量需求,包括以下中的至少一个:确定所述N个计算模块包含的寄存器的总数量是否大于或等于所述待分发工作组所需的寄存器数量;确定所述N个计算模块中的每个计算模块包含的寄存器数量是否大于或等于所述N个工作组中分发到所述计算模块上的工作组所需的寄存器数量。
例如,在本公开一实施例提供的数据处理方法中,确定所述N个计算模块包含的共享内存的容量是否满足所述N个工作组的容量需求,包括:确定所述N个计算模块包含的N个共享内存的总容量是否大于或等于所述待分发工作组所需的内存容量。
例如,在本公开一实施例提供的数据处理方法中,所述第一计算模块还包括第一指令调度单元,所述第二计算模块还包括第二指令调度单元;通过所述第一计算模块的共享内存和所述第二计算模块的共享内存之间建立的数据传输通道,直接传输所述第一计算模块运行的第一工作组和所述第二计算模块运行的第二工作组之间的待交互的数据,包括:所述第一指令调度单元向所述第二指令调度单元发送访问指令;所述第二指令调度单元基于所述访问指令向所述第二计算模块的共享内存发送数据传输命令;所述第二计算模块的共享内存基于所述数据传输命令,将与所述访问指令相对应的数据通过所述数据传输通道发送至所述第一计算模块的共享内存,其中,所述待交互的数据包括与所述访问指令相对应的数据。
例如,在本公开一实施例提供的数据处理方法中,所述第一指令调度单元向所述第二指令调度单元发送访问指令,包括:所述第一指令调度单元通过所述第一指令调度单元和所述第二指令调度单元之间建立的命令传输通道,向所述第二指令调度单元发送所述访问指令。
例如,在本公开一实施例提供的数据处理方法中,通过所述第一计算模块的共享内存和所述第二计算模块的共享内存之间建立的数据传输通道,直接传输所述第一计算模块运行的第一工作组和所述第二计算模块运行的第二工作组之间的待交互的数据,还包括:响应于所述第一计算模块的共享内存存储与所述访问指令相对应的数据,所述第一计算模块的共享内存传输数据传递完毕信息至所述第一指令调度单元。
本公开至少一个实施例提供一种数据处理装置,包括多个计算模块,其中,所述多个计算模块中的每个包括多个线程执行单元和所述多个线程执行单元共用的共享内存;其中,所述多个计算模块包括第一计算模块和第二计算模块,所述第一计算模块的共享内存和所述第二计算模块的共享内存之间具有数据传输通道,所述数据传输通道配置为直接传输所述第一计算模块运行的第一工作组和所述第二计算模块运行的第二工作组之间的待交互的数据。
例如,本公开一实施例提供的数据处理装置还包括模式控制单元,其中,所述模式控制单元配置为:接收包括所述第一工作组和所述第二工作组的待分发工作组;确定目标分发模式;基于所述目标分发模式,分发所述待分发工作组。
例如,本公开一实施例提供的数据处理装置还包括存储单元,其中,所述存储单元配置为存储模式选定信息,其中,所述模式选定信息表征用户选定的模式的类型;所述模式控制单元进一步配置为:从至少两个分发模式中选取与所述模式选定信息相匹配的分发模式,作为所述目标分发模式。
本公开至少一个实施例提供一种电子设备,包括处理器;存储器,存储有一个或多个计算机程序模块;其中,所述一个或多个计算机程序模块被配置为由所述处理器执行,用于实现本公开任一实施例提供的数据处理方法。
本公开至少一个实施例提供一种计算机可读存储介质,存储有非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时可以实现本公开任一实施例提供的数据处理方法。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1示出了本公开至少一实施例提供的一种GPU运算的编程模型的示意图;
图2示出了本公开至少一实施例提供的一种GPU的硬件架构的示意图;
图3示出了本公开至少一实施例提供的一种数据处理装置的示意图;
图4示出了本公开至少一实施例提供的一种数据处理方法的流程图;
图5示出了本公开至少一个实施例提供的另一种数据处理方法的流程图;
图6示出了本公开至少一个实施例提供的分发模式的示意图;
图7为本公开一些实施例提供的一种电子设备的示意框图;
图8为本公开一些实施例提供的另一种电子设备的示意框图;以及
图9示出了本公开至少一个实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
图1示出了本公开至少一实施例提供的一种GPU运算的编程模型的示意图。
如图1所示,可以将线程网格定义为多个工作组的集合,例如工作组(0,0)和工作组(0,1)等。工作组可以理解为是GPU内执行同样程序代码的多个线程组成的一个线程组。一个工作组内可以包含若干个并行执行的线程,例如,每个工作组包括的多个线程可以包括线程(0,0)、线程(0,1)、…等等。每个线程都可以对应使用一个私有的寄存器。一个工作组内还可以定义有共享内存(share memory),共享内存对同一个工作组的所有线程是可见的,共享内存可以理解为工作组内的不同线程都可以访问的存储器,通过共享内存,工作组内的不同线程之间可以完成数据的传递和交换,这样就提高了数据的重用性。
图2示出了本公开至少一实施例提供的一种GPU的硬件架构的示意图。
如图2所示,与图1所示的GPU编程模型相对应,GPU的硬件架构可以有相对应的硬件模块。硬件架构可以包括多个计算模块,例如包括计算模块0和计算模块1等。计算模块例如是算术逻辑单元ALU(Arithmetic Logic Unit),是GPU内最小单位的计算部件。每个计算模块可以包括共享内存和多个并行的线程执行单元,该多个并行的线程执行单元均与共享内存连接以进行通信。线程执行单元用于执行线程任务,每个线程执行单元可以同时执行一个或多个线程任务,例如,同一个线程执行单元可以被分时复用以执行多个线程任务。共享内存和线程执行单元之间可以具有进行数据暂存的寄存器(即线程的私有寄存器)。每个计算模块还可以包括指令调度单元和指令缓存单元,指令调度单元可以从指令缓存单元里读取指令,还可以负责指令的发射,指令依赖关系的判断,指令跳转以及一部分指令执行的操作。
如图2所示,除了多个计算模块之外,GPU还可以包括与该多个计算模块的线程执行单元通信的多个一级缓存和与该多个一级缓存通信的二级缓存,二级缓存与GPU外部的全局内存进行通信。全局内存可以是设备内存和系统内存。在另一些实施例中,GPU还可以包括三级缓存等其他缓存单元。此外,GPU还可以包括与多个计算模块通信的命令解析/工作组分发模块。
如图1和图2所示,主控制器与全局内存和GPU的命令解析/工作组分发模块通信,主控制器可以把程序的运算数据准备好放到全局内存里,还可以将程序的命令数据通过驱动程序下发给GPU的命令解析/工作组分发模块。命令解析/工作组分发模块解析完命令后,可以将接收到的线程网格分割成工作组下发到计算模块。GPU内有多个计算模块,根据编程协议,一个工作组只能运行在一个计算模块上。在一些示例中,可以使一个计算模块运行多个工作组。GPU通过数据读取指令,将各种类型的数据从全局内存首先装载到GPU的缓存(例如一级缓存、二级缓存),然后再从缓存(例如一级缓存、二级缓存)装载到计算模块的寄存器或者是共享内存里。
存储在共享内存里的数据用于计算时,当计算上的延迟大于或等于下一批数据从全局内存装载到共享内存的延迟时,GPU的计算部件就能保持繁忙状态,此时GPU硬件的利用率最高。同一计算模块的工作组内的线程可以通过共享内存进行数据交换以提高数据的重用性,但不同计算模块之间相互是隔离的,因此,不同计算模块运行的工作组不能相互访问对方的共享内存。由于每个工作组即使执行的指令一样,由于访存响应速度的不固定,所以工作组的完成时间不一定是一样的,这就造成不同的工作组在GPU内存活的时间是随机的,虽然理论上这些工作组可以通过一级或者二级缓存进行数据交换,但由于这种随机性的存在,想要控制指定的一些工作组在一级或者二级缓存进行数据交换比较困难,特别是想利用一级缓存就进行数据交换以达到节省二级缓存带宽的目的就更困难了,因此通常需要经过全局内存进行数据交换。并且,二级缓存的容量是有限的,一旦数据无法从二级缓存上找到,那么这些数据也需要到全局内存去读取,因此,计算模块需要频繁地访问全局内存。
GPU工作时为了保持计算延迟和全局数据读取延迟能够相互掩盖,一般会按照一定比例将两种指令捆绑起来分多批次的执行来完成某一个计算任务。为了提高GPU的性能,可以通过增加计算模块中的线程执行单元的数量,来缩短运算指令的时间。当运算的延迟小于全局数据的读取延迟时,为了保证GPU的线程执行单元还能够一直处于繁忙状态,可以增加计算模块与一级或二级缓存的带宽甚至是缓存和全局内存之间的带宽,以提高数据装载速度。但是增加带宽对于硬件的开销非常大,特别是GPU访问全局内存这条路径非常长,芯片的制造成本较大。因此,需要一种能够降低对全局内存读取路径上的带宽需求,并且能够提高数据读取速度,进而提高线程执行单元的运行效率的方案。
本公开至少一个实施例提供一种数据处理方法、数据处理装置、电子设备和计算机可读存储介质。该数据处理方法用于数据处理装置,该数据处理装置包括多个计算模块,该多个计算模块中的每个包括多个线程执行单元和该多个线程执行单元共用的共享内存,该多个计算模块包括第一计算模块和第二计算模块,该数据处理方法包括:通过该第一计算模块的共享内存和该第二计算模块的共享内存之间建立的数据传输通道,直接传输该第一计算模块运行的第一工作组和该第二计算模块运行的第二工作组之间的待交互的数据。
该数据处理装置在不同的计算模块的共享内存之间增加了直接读取通路(即数据传输通道),该数据处理方法利用该直接读取通路(即数据传输通道),实现了不同计算模块的工作组之间的直接数据传递,无需再从一级缓存、二级缓存甚至是全局内存绕行,减少了对全局内存的读取次数,也减少了对一级缓存、二级缓存的读取次数,缩短了数据读取路径,加快了数据读取速度,降低了全局内存读取路径上的带宽需求,在不需要增加数据传输带宽的情况下提高了数据读取速度,进而提高了线程执行单元的运行效率。此外,还增加了数据的重用性,减小了访存带宽的需求,可使用软件进行控制,易于控制。
图3示出了本公开至少一实施例提供的一种数据处理装置的示意图。
如图3所示,数据处理装置可以包括GPU,在其他实施例中,数据处理装置还可以包括CPU(central processing unit,中央处理器)、TPU(Tensor Processing Unit,张量处理器)等其他数据处理器。在以下实施例中,以GPU为例进行说明。该数据处理装置包括多个计算模块,例如包括计算模块A1、计算模块A2和其他并行的计算模块。每个计算模块可以包括多个线程执行单元和该多个线程执行单元共用的共享内存,该多个线程执行单元可以并行执行。该共享内存的作用可以参见上述共享内存,计算模块的多个线程执行单元可以与共享内存通信,以使计算模块运行的工作组中的多个线程可以通过共享内存交换数据。例如,计算模块A1包括多个线程执行单元111和该多个线程执行单元111共用的共享内存112,计算模块A2包括多个线程执行单元121和该多个线程执行单元121共用的共享内存122。
例如,为了便于说明,本公开的一些实施例中以两个计算模块为例进行说明,例如,该多个计算模块包括第一计算模块和第二计算模块,该第一计算模块和第二计算模块可以是多个计算模块中的任意两个计算模块,以下以第一计算模块例如为图3所示的计算模块A1,第二计算模块例如为图3所示的计算模块A2为例进行说明。例如,第一计算模块和第二计算模块上可以各自运行一个或多个工作组,第一计算模块上例如运行有第一工作组,第二计算模块上例如运行有第二工作组。
例如,该多个计算模块的至少两个计算模块的共享内存之间建立有数据传输通道。例如,至少在第一计算模块的共享内存和第二计算模块的共享内存之间具有数据传输通道。如图3所示,计算模块A1的共享内存112与计算模块A2的共享内存122之间建立有数据传输通道C1。例如,该数据传输通道可以是通过直接存储器访问(Direct memory access,DMA)的方式进行数据交互。
图4示出了本公开至少一实施例提供的一种数据处理方法的流程图。
如图4所示,该方法可以包括步骤S210~S220。
步骤S210:获取第一计算模块运行的第一工作组和第二计算模块运行的第二工作组之间待交互的数据。
步骤S220:通过该第一计算模块的共享内存和该第二计算模块的共享内存之间建立的数据传输通道,直接传输该待交互的数据。例如,该待交互的数据可以通过该数据传输通道直接从第一计算模块的共享内存传输至该第二计算模块的共享内存,也可以通过该数据传输通道直接从第二计算模块的共享内存传输至该第一计算模块的共享内存。
例如,不同工作组之间需要进行数据交互。一种示例中,不同工作组可以共享一份数据,例如,第一工作组和第二工作组共享一份数据,这种情况下,第二工作组所在的计算模块可以先从其他内存(例如全局内存)读取该数据,然后可以将该数据共享至第一工作组,这样,第一工作组无需再次从全局内存读取数据。因此,步骤S210中的待交互的数据可以为第一工作组和第二工作组的共享数据。另一种示例中,一些工作组之间需要进行数据同步,例如,第二工作组的计算结果需要同步至第一工作组,以使第一工作组基于第二工作组的计算结果进行下一步运算,因此,步骤S210中的待交互的数据可以为第一工作组和第二工作组之间需要同步的数据。
例如,对于运行在同一个计算模块中的不同工作组可以通过共享内存进行数据交互,而对于运行在不同计算模块上的工作组,在步骤S210中计算模块(例如第一计算模块和/或第二计算模块)可以获取待交互的数据,并将待交互的数据存储于计算模块的共享内存中(例如第一计算模块的共享内存112和/或第二计算模块的共享内存122),以为步骤S220做准备。例如,若计算模块A2上的第二工作组的数据需要同步至计算模块A1上的第一工作组,则计算模块A2可以获取第二工作组的数据并将其存储于计算模块A2的共享内存122中,以为数据传输做准备。若待交互的数据为共享数据,则计算模块A2可以先从其他内存(例如全局内存)读取共享数据并将共享数据存储于共享内存122中。若待交互的数据为同步数据,则计算模块A2可以通过线程执行单元计算得到第二工作组的计算结果并将计算结果存储于共享内存122中。
例如,如图3所示,第一计算模块还包括第一指令调度单元114,该第二计算模块还包括第二指令调度单元124。在需要将数据从第二计算模块传输至第一计算模块的情况下,步骤S220可以包括:该第一指令调度单元114向该第二指令调度单元124发送访问指令;该第二指令调度单元124基于该访问指令向该第二计算模块的共享内存122发送数据传输命令;该第二计算模块的共享内存122基于该数据传输命令,将与该访问指令相对应的数据通过该数据传输通道发送至该第一计算模块的共享内存112,其中,该待交互的数据包括与该访问指令相对应的数据。
例如,如图3所示,第一指令调度单元114和第二指令调度单元124之间可以建立有命令传输通道C2,在第一计算模块的共享内存112需要访问第二计算模块的共享内存122的情况下,该第一指令调度单元114可以通过命令传输通道C2,向该第二指令调度单元122发送该访问指令。访问指令可以包括访问命令、访问地址以及偏移地址等信息,访问地址只是首地址的情况下,还需要一个偏移地址,两部分组合起来形成实际要访问的地址。
例如,第二指令调度单元124接收第一指令调度单元114发送的访问指令后,可以生成数据传输命令并将数据传输命令发送至第二计算模块的共享内存122,数据传输命令可以包含访问地址等信息。第二计算模块的共享内存122响应于该数据传输命令,可以从相应地址将数据读取出来,然后通过共享内存之间的数据传输通道将读取的数据发给第一计算模块的共享内存112,第一计算模块将接收到的数据写入到共享内存112。
例如,响应于第一计算模块的共享内存112存储与该访问指令相对应的数据之后,该第一计算模块的共享内存112传输数据传递完毕信息至该第一指令调度单元114。例如,在一些实施例中,数据传递完毕信息还可以被传输至第二计算模块。
例如,当把数据写入计算模块A1的共享内存112之后,计算模块A1的共享内存112可以回传一个数据传递完毕的信息给到计算模块A1的第一指令调度单元114,表示当前这条访问指令执行完毕。
例如,访问指令是由指令调度单元发出的,在发射指令之后,指令调度单元还需要获取指令执行完毕的消息,所以在共享内存接收并写入数据之后可以回传一个数据传递完毕的信息通知到指令调度单元,以使指令调度单元获知指令执行完毕的消息。发射指令的指令调度单元配置为接收数据传递完毕的消息,例如,若计算模块A1的指令调度单元发射访问指令,那么访问的数据传输完毕后,将指令执行完毕的信息回传给计算模块A1的指令调度单元。若是由计算模块A2的指令调度单元发射访问指令,那么访问的数据传输完毕后,将指令执行完毕的信息回传给计算模块A2的指令调度单元。
本公开实施例的数据处理方法,利用在不同的计算模块的共享内存之间增加的直接读取通路(即数据传输通道),实现了不同计算模块的工作组之间的直接数据传递,无需再从一级缓存、二级缓存甚至是全局内存绕行,减少了对全局内存的读取次数,也减少了对一级缓存、二级缓存的读取次数,缩短了数据读取路径,加快了数据读取速度,降低了全局内存读取路径上的带宽需求,并且提高了数据读取速度,进而提高了线程执行单元的运行效率。
图5示出了本公开至少一个实施例提供的另一种数据处理方法的流程图。
如图5所示,例如,在一些实施例中,数据处理方法还可以包括步骤S310~S330。
步骤S310:接收包括该第一工作组和该第二工作组的待分发工作组。
步骤S320:确定目标分发模式。
步骤S330:基于该目标分发模式,分发该待分发工作组。
例如,该步骤S310~S330可以在上述步骤S210~S220之前执行。例如可以先对包括第一工作组和第二工作组的待分发工作组进行分发,以将第一工作组和第二工作组分别分发至第一计算模块和第二计算模块,然后再对第一计算模块和第二计算模块执行上述的步骤S210~S220。步骤S310~S330例如可以由分发模块执行,该分发模块例如可以是图3所示的命令解析/工作组分发模块130。
例如,在一种编程协议中,共享内存可能仅允许在同一工作组内进行数据交互,上述的第一计算模块的共享内存和第二计算模块的共享内存之间进行的数据交互被认为是共享内存进行的数据交互,因此,也需要在同一个工作组内进行。一种解决方式是更改编程协议,将编程协议更改为共享内存允许不同工作组之间进行数据交互,这种方式增加了人力成本和时间成本。本公开实施例提供了一种解决方式:在不更改编程协议的情况下,若想实现上述步骤S210~步骤S220的方案,可以将需要分发至不同计算模块的第一工作组和第二工作组看作一个大的工作组(即待分发工作组),即将第一工作组和第二工作组视为一个大工作组包含的两个子工作组。并且,将第一计算模块和第二计算模块看作一个大的计算模块,即将第一计算模块和第二计算模块视为一个大计算模块包含的两个子计算模块。将第一计算模块的共享内存和第二计算模块的共享内存看作一个大的共享内存,即将第一计算模块的共享内存和第二计算模块的共享内存视为一个大共享内存包含的两个子共享内存。这样,在分别运行在第一计算模块和第二计算模块上的第一工作组和第二工作组之间需要进行数据交互时,由于第一工作组和第二工作组归属于一个统一的大工作组,所以可以在共享内存之间实现数据传输,能够满足上述编程协议,无需更改编程协议,可以节省时间和人力。
例如,在步骤S310中,可以由GPU中的命令解析/工作组分发模块30接收上述待分发工作组,命令解析/工作组分发模块30可以将该待分发工作组拆分为第一工作组(可视为第一子工作组)和第二工作组(可视为第二子工作组),并分别下发至第一计算模块和第二计算模块,然后根据步骤S210~S220实现第一工作组和第二工作组之间的数据交互。
例如,在一些实施例中,除了上述情况之外,可能还存在其他场景或者其他待分发工作组,不同场景或者不同类型的待分发工作组可能对分发模式的需求不同。因此,除了这种将待分发工作组分发至两个计算模块的分发模式之外,还可以设置其他一种或多种分发模式,以满足不同场景或者不同待分发工作组的分发需求。
例如,可以设置至少两个分发模式,该至少两个分发模式包括第一分发模式和第二分发模式,在该第一分发模式下,将该待分发工作组分发至多个计算模块中的一个计算模块,在该第二分发模式下,将待分发工作组分发至多个计算模块中的N个计算模块,该N个计算模块中的至少部分计算模块的共享内存之间具有数据传输通道,以使该N个计算模块中的任意两个计算模块能够通过该数据传输通道进行交互,其中,N为大于1的整数。
例如,在第一分发模式下,一个待分发工作组仅允许下发至一个计算模块。在第二分发模式下,一个待分发工作组允许下发至两个或以上的计算模块。在一些实施例中,第二分发模式可以再具体分为多种分发模式,每种分发模式可以规定分发的计算模块的具体数量,例如,一种分发模式下,允许将一个待分发工作组下发至两个计算模块,另一种分发模式下,允许将一个待分发工作组下发至四个计算模块,等等。本公开实施例为了描述方便,利用第二分发模式来概括该多种分发模式。
例如,在步骤S320中,从该至少两个分发模式中确定一种分发模式作为目标分发模式。在步骤S330中,根据该目标分发模式,分发待分发工作组,例如,若目标分发模式为第一分发模式,则将待分发工作组下发至一个计算模块,若目标分发模式为第二分发模式,则将待分发工作组下发至N个计算模块。
例如,在一些实施例中,可以在该N个计算模块中的每两个计算模块之间建立数据传输通道,以使每两个计算模块的共享内存均可以直接进行数据交互。例如,N个计算模块包括相邻的计算模块A1~A4,计算模块A1和A2之间、A1和A3之间、A1和A4之间、A2和A3之间、A2和A4之间以及A3和A4之间均建立有数据传输通道。
例如,在另一些实施例中,可以在该N个计算模块中的部分计算模块之间建立有数据传输通道,只要保证每两个计算模块之间能够直接或间接地进行数据交互即可,间接是指通过中间的计算模块进行交互。例如,N个计算模块包括相邻的计算模块A1~A4,则可以在A1和A2之间、A2和A3之间和A3和A4之间建立数据传输通道即可,这样每两个计算模块均可以实现数据交互,例如,当需要在计算模块A1和计算模块A3之间进行数据交互时,则首先将数据从计算模块A1(或计算模块A3)通过A1和A2(或A3和A2)之间建立数据传输通道传输至计算模块A2,然后,将数据从计算模块A2通过A2和A3(或A1和A2)之间建立数据传输通道传输至计算模块A3(或计算模块A1)。
例如,数据处理装置还可以包括模式控制单元,模式控制单元可以实现为控制电路,模式控制单元可以集成在命令解析/工作组分发模块30中。该模式控制单元配置执行上述步骤S310~S330。
例如,在一些实施例中,可以根据待分发工作组自身的属性来选择分发模式。步骤S320可以包括:获取该待分发工作组的配置信息;从该至少两个分发模式中选取与该配置信息相匹配的分发模式,作为该目标分发模式。
例如,该配置信息可以包括该待分发工作组的线程数量和/或该待分发工作组的每个线程的处理数据量。
例如,在待分发工作组的线程数量不大于数量阈值和/或每个线程的处理数据量不大于数据量阈值的情况下,选择第一分发模式作为目标分发模式。在待分发工作组的线程数量大于数量阈值和/或每个线程的处理数据量大于数据量阈值的情况下,选择第二分发模式作为目标分发模式。
例如,在第二分发模式下,还可以根据待分发工作组的线程数量和/或该待分发工作组的每个线程的处理数据量,来确定分发的计算模块的数量。例如,根据包含的线程数量与数量阈值的比值和/或每个线程的处理数据量与数据量阈值的比值,来确定分发的计算模块的数量。
例如,数量阈值例如为1024,数据量阈值例如为矩阵的1个数据单元对应的数据量。矩阵的元素可以分为多个数据块,每个数据块可以理解为一个数据单元,例如,对于16*16的矩阵,可以将矩阵划分为16个4*4的数据块,则每个4*4的数据块可以理解为一个数据单元。例如,若某个待分发工作组的线程数量为2048,每个线程对矩阵的1个数据单元进行运算,由于待分发工作组的线程数量为数量阈值的2倍,因此选择第二分发模式,并且将待分发工作组下发至两个计算模块。若某个待分发工作组的线程数量为1024,每个线程对2个数据单元进行运算,由于待分发工作组中每个线程的处理数据量是数据量阈值的2倍,因此可以选择第二分发模式,并且将待分发工作组下发至两个计算模块。
例如,在另一些实施例中,步骤S320可以包括:从存储单元获取模式选定信息,其中,该模式选定信息表征用户选定的分发模式的类型;从至少两个分发模式中选取与该分发模式选定信息相匹配的分发模式,作为该目标分发模式。
例如,模式选定信息可以是人为设定的。数据处理装置还可以包括存储单元,存储单元例如可以实现为寄存器,以下称为模式寄存器,该存储单元可以集成在命令解析/工作组分发模块30中。该存储单元配置为存储上述模式选定信息。模式控制单元可以进一步配置为:从至少两个分发模式中选取与该模式选定信息相匹配的分发模式,作为目标分发模式。
例如,分发模式例如包括:
模式0:一个工作组只能分发到1个计算模块;
模式1:一个工作组分发到相邻的2个计算模块;
模式2:一个工作组分发到相邻的4个计算模块,依此类推。
例如,用户可以选定一种分发模式,若用户设定模式2,则可以将模式2的标识信息存储于模式寄存器中,在分发待分发工作组之前,可先从模式寄存器读取模式2的标识信息,确定目标分发模式为模式2,然后可以根据模式2来分发待分发工作组。
需要说明的是,模式0为第一分发模式,模式1和模式2均为第二分发模式。
例如,在另一些实施例中,用户可以为某个或某些待分发工作组配置分发模式,将设置的分发模式的信息包含在待分发工作组的配置信息中,也就是说,可以人为配置某个或某些工作组的分发模式。在分发该工作组之前,可以先读取工作组的配置信息,以确定对应的分发模式。
图6示出了本公开至少一个实施例提供的分发模式的示意图。
如图6所示,WG_DISPATCH_MODE表示增加的模式寄存器,若WG_DISPATCH_MODE存储的信息表示个一个工作组分发至四个计算模块,则可以将待分发工作组分为子工作组0~3,并分别分发至计算模块A0~A3。
例如,步骤S330可以包括:响应于该目标分发模式为该第二分发模式,将该待分发工作组切分为N个工作组;将该N个工作组分别分发至该N个计算模块。
例如,N个工作组包括第一工作组和第二工作组,N个计算模块包括第一计算模块和第二计算模块;将N个工作组分别分发至N个计算模块,包括:将第一工作组分发至所述第一计算模块;将第二工作组分发至第二计算模块。
例如,可以将待分发工作组平均分为N个工作组,“平均分”可以理解为平均分配线程数。例如,若待分发工作组包含2048个线程,若将该待分发工作组分为两个工作组,例如分为第一工作组和第二工作组,则该第一工作组包含的线程的数量和该第二工作组包含的线程的数量相同,均包含1024个线程。然后,可以将该第一工作组分发至第一计算模块,将该第二工作组分发至该第二计算模块。
例如,上述的将该N个工作组分别分发至该N个计算模块可以包括:将该多个计算模块分成包括N个计算模块的模块组;将该待分发工作组分发至一个该模块组包含的N个计算模块。
例如,在一些实施例中,可以将每相邻N个计算模块划分为一个模块组,例如,若GPU包括计算模块A1~A10共十个计算模块,若当前目标分发模式为将工作组分发至两个计算模块,则可以将每相邻两个计算模块划分为一个模块组,例如,A1和A2形成一个第一模块组,A3和A4形成一个第二模块组,等等。可以将待分发工作组分发至其中的一个模块组,例如分发至第一模块组,具体分发至第一模块组包含的计算模块A1和A2。
例如,在另一些实施例中,在当前空闲的多个计算模块中,按照计算模块的排列顺序,将每N个空闲的计算模块作为一个模块组。例如,若GPU包括计算模块A1~A10共十个计算模块,当前空闲的计算模块为计算模块A3、A4、A6和A8,则可以将计算模块A3和A4作为一个第一模块组,将计算模块A6和A8作为一个第二模块组,然后可以将待分发工作组分发至其中一个模块组,例如分发至第一模块组,具体分发至第一模块组包含的计算模块A3和A4。
例如,在将该N个工作组分别分发至该N个计算模块之前,可以先确定该N个计算模块是否满足该N个工作组的资源需求;在该N个计算模块满足该N个工作组的资源需求的情况下,将该N个工作组分别分发至该N个计算模块。
例如,每个计算模块还包括多个寄存器,针对每个计算模块,该多个寄存器与该共享内存和该多个线程执行单元进行交互。如图3所示,计算模块A1包括多个寄存器113,计算模块A2包括多个寄存器123,寄存器可以与线程执行单元一一对应。例如,确定该N个计算模块是否满足该N个工作组的资源需求,可以包括:确定该N个计算模块包含的寄存器数量是否满足该N个工作组的数量需求;和/或确定该N个计算模块包含的共享内存的容量是否满足该N个工作组的容量需求。
例如,确定该N个计算模块包含的寄存器数量是否满足该N个工作组的数量需求,包括:确定该N个计算模块包含的寄存器的总数量是否大于或等于该待分发工作组所需的寄存器数量;和/或,确定该N个计算模块中的每个计算模块包含的寄存器数量是否大于或等于该N个工作组中分发到该计算模块上的工作组所需的寄存器数量。
例如,确定该N个计算模块包含的共享内存的容量是否满足该N个工作组的容量需求,可以包括:确定该N个计算模块包含的N个共享内存的总容量是否大于或等于该待分发工作组所需的内存容量。
例如,将待分发工作组分发至第一计算模块和第二计算模块,若待分发工作组需要100个寄存器和16KB的内存资源,则需要第一计算模块和第二计算模块包含的总的寄存器的数量不小于100,且第一计算模块的共享内存的剩余存储容量和第二计算模块的共享内存的剩余存储容量之和不小于16KB。若将待分发工作组平均分为第一工作组和第二工作组,则第一工作组和第二工作组各自需要50个寄存器,需要第一计算模块和第二计算模块各自包含的寄存器的数量不小于50。由于第一计算模块的共享内存和第二计算模块的共享内存之间可以进行数据传输,所以第一计算模块的共享内存和第二计算模块的共享内存的总容量满足待分发工作组的容量需求即可。
为了使不同计算模块之间的共享内存能够互通,本公开实施例在不同计算模块之间建立有专门的共享内存数据通路和命令通路。根据本公开的实施例,可以将一个工作组分配到若干个计算模块上,并且在计算模块间增加共享内存直接读取通路(DMA)的方式,实现了在计算模块间的直接数据传递,减少了对全局内存的读取次数,降低了全局内存读取路径上的带宽需求。
一级/二级缓存对于软件来说不能直接控制,而共享内存却是软件可以精准控制的。因为工作组内的线程对于软件程序来说是可见的,所以即使是这些线程执行在不同计算模块上,软件程序也可以将这些计算模块进行统一调度达到数据共享的目的。
一个大的工作组相当于若干个工作组,相比于原来分配到不同计算模块上的若干个工作组之间数据共享效率低下的情况,通过本公开实施例的数据处理方法,一个大的运行在多个计算模块上的工作组软件程序能够更加可控的实现精确的数据共享,对减少访存带宽的控制也更容易。
本公开实施例还提供了一种数据处理装置,可参考图3,该数据处理装置100包括多个计算模块,其中,该多个计算模块中的每个包括多个线程执行单元和该多个线程执行单元共用的共享内存。该多个计算模块包括第一计算模块和第二计算模块,该第一计算模块的共享内存和该第二计算模块的共享内存之间具有数据传输通道,该数据传输通道配置为直接传输该第一计算模块运行的第一工作组和该第二计算模块运行的第二工作组之间的待交互的数据。
例如,该数据处理装置还包括模式控制单元,模式控制单元配置为:接收包括所述第一工作组和所述第二工作组的待分发工作组;确定目标分发模式;基于该目标分发模式,分发该待分发工作组。
例如,该数据处理装置还包括存储单元,其中,该存储单元配置为存储模式选定信息,其中,该模式选定信息表征用户选定的模式的类型。该模式控制单元进一步配置为:从至少两个分发模式中选取与该模式选定信息相匹配的分发模式,作为该目标分发模式。
例如,该第一计算模块还包括第一指令调度单元,该第二计算模块还包括第二指令调度单元;该第一指令调度单元配置为向该第二指令调度单元发送访问指令;该第二指令调度单元配置为基于该访问指令向该第二计算模块的共享内存发送数据传输命令;该第二计算模块的共享内存基于该数据传输命令,将与该访问指令相对应的数据通过该数据传输通道发送至该第一计算模块的共享内存,其中,该待交互的数据包括与该访问指令相对应的数据。
例如,该第一指令调度单元和该第二指令调度单元之间建立有命令传输通道,该第一指令调度单元配置为通过该命令传输通道向该第二指令调度单元发送该访问指令。
例如,该第一计算模块的共享内存配置为响应于存储与该访问指令相对应的数据,传输数据传递完毕信息至该第一指令调度单元。
例如,该数据处理装置100可以参见图3至图6以及上述关于数据处理装置的描述,在此不再赘述。
数据处理装置的各个组件可以通过总线系统和/或其它形式的连接机构(未示出)互连。例如,这些模块可以通过硬件(例如电路)模块、软件模块或二者的任意组合等实现,以下实施例与此相同,不再赘述。例如,可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。应当注意,图3所示的数据处理装置的组件和结构只是示例性的,而非限制性的,根据需要,数据处理装置也可以具有其他组件和结构。
例如,数据处理装置的各个组件可以为硬件、软件、固件以及它们的任意可行的组合。例如,可以为专用或通用的电路、芯片或装置等,也可以为处理器和存储器的结合。关于上述各个单元的具体实现形式,本公开的实施例对此不作限制。
例如,数据处理装置100的各个组件可以包括存储在存储器中的代码和程序;处理器可以执行该代码和程序以实现如上所述的数据处理装置的各个组件的一些功能或全部功能。例如,数据处理装置100的各个组件可以是专用硬件器件,用来实现如上所述的数据处理装置100的各个组件的一些或全部功能。例如,数据处理装置100的各个组件可以是一个电路板或多个电路板的组合,用于实现如上所述的功能。在本公开实施例中,该一个电路板或多个电路板的组合可以包括:(1)一个或多个处理器;(2)与处理器相连接的一个或多个非暂时的存储器;以及(3)处理器可执行的存储在存储器中的固件。
需要说明的是,本公开的实施例中,关于数据处理装置100的具体功能可以参考关于数据处理方法的相关描述,此处不再赘述。图3所示的数据处理装置100的组件和结构只是示例性的,而非限制性的,根据需要,该数据处理装置100还可以包括其他组件和结构。该数据处理装置100可以包括更多或更少的电路或单元,并且各个电路或单元之间的连接关系不受限制,可以根据实际需求而定。各个电路或单元的具体构成方式不受限制,可以根据电路原理由模拟器件构成,也可以由数字芯片构成,或者以其他适用的方式构成。
本公开的至少一个实施例还提供了一种电子设备,该电子设备包括处理器和存储器,存储器存储有一个或多个计算机程序模块。一个或多个计算机程序模块被配置为由处理器执行,用于实现上述的数据处理方法。
图7为本公开一些实施例提供的一种电子设备的示意框图。如图7所示,该电子设备400包括处理器410和存储器420。存储器420存储有非暂时性计算机可读指令(例如一个或多个计算机程序模块)。处理器410用于运行非暂时性计算机可读指令,非暂时性计算机可读指令被处理器410运行时执行上文所述的数据处理方法中的一个或多个步骤。存储器420和处理器410可以通过总线系统和/或其它形式的连接机构(未示出)互连。关于该数据处理方法的各个步骤的具体实现以及相关解释内容可以参见上述数据处理方法的实施例,重复之处在此不作赘述。
应当注意,图7所示的电子设备400的组件只是示例性的,而非限制性的,根据实际应用需要,该电子设备400还可以具有其他组件。
例如,处理器410和存储器420之间可以直接或间接地互相通信。
例如,处理器410和存储器420可以通过网络进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。处理器410和存储器420之间也可以通过系统总线实现相互通信,本公开对此不作限制。
例如,处理器410和存储器420可以设置在服务器端(或云端)。
例如,处理器410可以控制电子设备400中的其它组件以执行期望的功能。例如,处理器410可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或程序执行能力的其它形式的处理单元。例如,中央处理单元(CPU)可以为X86或ARM架构等。处理器410可以为通用处理器或专用处理器,可以控制电子设备400中的其它组件以执行期望的功能。
例如,存储器420可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序模块,处理器410可以运行一个或多个计算机程序模块,以实现电子设备400的各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据以及应用程序使用和/或产生的各种数据等。
例如,在一些实施例中,电子设备400可以为服务器、手机、平板电脑、笔记本电脑、可穿戴电子设备等。
例如,电子设备400可以包括显示面板,显示面板可以为矩形面板、圆形面板、椭圆形面板或多边形面板等。另外,显示面板不仅可以为平面面板,也可以为曲面面板,甚至球面面板。
例如,电子设备400可以具备触控功能,即电子设备400可以为触控装置。
需要说明的是,本公开的实施例中,电子设备400的具体功能和技术效果可以参考上文中关于数据处理方法的描述,此处不再赘述。
图8为本公开一些实施例提供的另一种电子设备的示意框图。该电子设备500例如适于用来实施本公开实施例提供的数据处理方法。电子设备500可以是终端设备等。需要注意的是,图8示出的电子设备500仅仅是一个示例,其不会对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)510,其可以根据存储在只读存储器(ROM)520中的程序或者从存储装置580加载到随机访问存储器(RAM)530中的程序而执行各种适当的动作和处理。在RAM 530中,还存储有电子设备500操作所需的各种程序和数据。处理装置510、ROM 520以及RAM530通过总线540彼此相连。输入/输出(I/O)接口550也连接至总线540。
通常,以下装置可以连接至I/O接口550:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置560;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置570;包括例如磁带、硬盘等的存储装置580;以及通信装置590。通信装置590可以允许电子设备500与其他电子设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备500,但应理解的是,并不要求实施或具备所有示出的装置,电子设备500可以替代地实施或具备更多或更少的装置。
例如,根据本公开的实施例,上述数据处理方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包括用于执行上述数据处理方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置590从网络上被下载和安装,或者从存储装置580安装,或者从ROM 520安装。在该计算机程序被处理装置510执行时,可以实现本公开实施例提供的数据处理方法中限定的功能。
本公开的至少一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有非暂时性计算机可读指令,当非暂时性计算机可读指令由计算机执行时可以实现上述的数据处理方法。
图9为本公开一些实施例提供的一种存储介质的示意图。如图9所示,存储介质600存储有非暂时性计算机可读指令610。例如,当非暂时性计算机可读指令610由计算机执行时执行根据上文所述的数据处理方法中的一个或多个步骤。
例如,该存储介质600可以应用于上述电子设备400中。例如,存储介质600可以为图7所示的电子设备400中的存储器420。例如,关于存储介质600的相关说明可以参考图7所示的电子设备400中的存储器420的相应描述,此处不再赘述。
虽然图9示出了具有各种装置的计算机系统,但应理解的是,并不要求计算机系统具备所有示出的装置,可以替代地,计算机系统可以具备更多或更少的装置。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
对于本公开,还有以下几点需要说明:
(1)本公开实施例附图只涉及到本公开实施例涉及到的结构,其他结构可参考通常设计。
(2)在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (24)
1.一种数据处理方法,用于数据处理装置,其中,所述数据处理装置包括多个计算模块,所述多个计算模块中的每个包括多个线程执行单元和所述多个线程执行单元的共享内存,所述多个计算模块包括第一计算模块和第二计算模块,所述方法包括:
通过所述第一计算模块的共享内存和所述第二计算模块的共享内存之间建立的数据传输通道,直接传输所述第一计算模块运行的第一工作组和所述第二计算模块运行的第二工作组之间的待交互的数据。
2.根据权利要求1所述的数据处理方法,其中,所述待交互的数据为所述第一工作组和所述第二工作组的共享数据。
3.根据权利要求1所述的数据处理方法,其中,所述待交互的数据为所述第一工作组和所述第二工作组之间需要同步的数据。
4.根据权利要求1所述的数据处理方法,其中,所述数据传输通道通过直接存储器访问的方式进行数据交互。
5.根据权利要求1所述的数据处理方法,其中,所述第一工作组包含的线程的数量和所述第二工作组包含的线程的数量相同。
6.根据权利要求1-5任一项所述的数据处理方法,还包括:
接收包括所述第一工作组和所述第二工作组的待分发工作组;
确定目标分发模式;
基于所述目标分发模式,分发所述待分发工作组。
7.根据权利要求6所述的数据处理方法,其中,确定目标分发模式,包括:
获取所述待分发工作组的配置信息;
从至少两个分发模式中选取与所述配置信息相匹配的分发模式,作为所述目标分发模式,
其中,所述至少两个分发模式包括第一分发模式和第二分发模式,在所述第一分发模式下,将所述待分发工作组分发至所述多个计算模块中的一个计算模块,在所述第二分发模式下,将所述待分发工作组分发至所述多个计算模块中的N个计算模块,所述N个计算模块中的至少部分计算模块的共享内存之间具有数据传输通道,以使所述N个计算模块中的任意两个计算模块能够通过所述数据传输通道进行交互,
其中,N为大于1的整数。
8.根据权利要求7所述的数据处理方法,其中,所述配置信息包括所述待分发工作组的线程数量和/或所述待分发工作组的每个线程的处理数据量。
9.根据权利要求6所述的数据处理方法,其中,确定目标分发模式,包括:
从存储单元获取模式选定信息,其中,所述模式选定信息表征用户选定的分发模式的类型;
从至少两个分发模式中选取与所述分发模式选定信息相匹配的分发模式,作为所述目标分发模式。
10.根据权利要求7所述的数据处理方法,其中,基于所述目标分发模式,分发所述待分发工作组,包括:
响应于所述目标分发模式为所述第二分发模式,将所述待分发工作组切分为N个工作组;
将所述N个工作组分别分发至所述N个计算模块。
11.根据权利要求10所述的数据处理方法,其中,所述N个工作组包括所述第一工作组和所述第二工作组,所述N个计算模块包括所述第一计算模块和所述第二计算模块;
将所述N个工作组分别分发至所述N个计算模块,包括:
将所述第一工作组分发至所述第一计算模块;
将所述第二工作组分发至所述第二计算模块。
12.根据权利要求10所述的数据处理方法,其中,将所述N个工作组分别分发至所述N个计算模块,包括:
将所述多个计算模块分成包括N个计算模块的模块组;
将所述待分发工作组分发至一个所述模块组包含的N个计算模块。
13.根据权利要求10所述的数据处理方法,其中,基于所述目标分发模式,分发所述待分发工作组,还包括:
在将所述N个工作组分别分发至所述N个计算模块之前,确定所述N个计算模块是否满足所述N个工作组的资源需求;
在所述N个计算模块满足所述N个工作组的资源需求的情况下,将所述N个工作组分别分发至所述N个计算模块。
14.根据权利要求13所述的数据处理方法,其中,所述多个计算模块中的每个还包括多个寄存器,针对每个所述计算模块,所述多个寄存器与所述共享内存和所述多个线程执行单元进行交互;
确定所述N个计算模块是否满足所述N个工作组的资源需求,包括:
确定所述N个计算模块包含的寄存器数量是否满足所述N个工作组的数量需求;和/或
确定所述N个计算模块包含的共享内存的容量是否满足所述N个工作组的容量需求。
15.根据权利要求14所述的数据处理方法,其中,确定所述N个计算模块包含的寄存器数量是否满足所述N个工作组的数量需求,包括以下中的至少一个:
确定所述N个计算模块包含的寄存器的总数量是否大于或等于所述待分发工作组所需的寄存器数量;
确定所述N个计算模块中的每个计算模块包含的寄存器数量是否大于或等于所述N个工作组中分发到所述计算模块上的工作组所需的寄存器数量。
16.根据权利要求14所述的数据处理方法,其中,确定所述N个计算模块包含的共享内存的容量是否满足所述N个工作组的容量需求,包括:
确定所述N个计算模块包含的N个共享内存的总容量是否大于或等于所述待分发工作组所需的内存容量。
17.根据权利要求1-5任一项所述的数据处理方法,其中,所述第一计算模块还包括第一指令调度单元,所述第二计算模块还包括第二指令调度单元;
通过所述第一计算模块的共享内存和所述第二计算模块的共享内存之间建立的数据传输通道,直接传输所述第一计算模块运行的第一工作组和所述第二计算模块运行的第二工作组之间的待交互的数据,包括:
所述第一指令调度单元向所述第二指令调度单元发送访问指令;
所述第二指令调度单元基于所述访问指令向所述第二计算模块的共享内存发送数据传输命令;
所述第二计算模块的共享内存基于所述数据传输命令,将与所述访问指令相对应的数据通过所述数据传输通道发送至所述第一计算模块的共享内存,其中,所述待交互的数据包括与所述访问指令相对应的数据。
18.根据权利要求17所述的数据处理方法,其中,所述第一指令调度单元向所述第二指令调度单元发送访问指令,包括:
所述第一指令调度单元通过所述第一指令调度单元和所述第二指令调度单元之间建立的命令传输通道,向所述第二指令调度单元发送所述访问指令。
19.根据权利要求17所述的数据处理方法,其中,通过所述第一计算模块的共享内存和所述第二计算模块的共享内存之间建立的数据传输通道,直接传输所述第一计算模块运行的第一工作组和所述第二计算模块运行的第二工作组之间的待交互的数据,还包括:
响应于所述第一计算模块的共享内存存储与所述访问指令相对应的数据,所述第一计算模块的共享内存传输数据传递完毕信息至所述第一指令调度单元。
20.一种数据处理装置,包括:
多个计算模块,其中,所述多个计算模块中的每个包括多个线程执行单元和所述多个线程执行单元共用的共享内存;
其中,所述多个计算模块包括第一计算模块和第二计算模块,所述第一计算模块的共享内存和所述第二计算模块的共享内存之间具有数据传输通道,所述数据传输通道配置为直接传输所述第一计算模块运行的第一工作组和所述第二计算模块运行的第二工作组之间的待交互的数据。
21.根据权利要求20所述的数据处理装置,还包括模式控制单元,其中,所述模式控制单元配置为:
接收包括所述第一工作组和所述第二工作组的待分发工作组;
确定目标分发模式;
基于所述目标分发模式,分发所述待分发工作组。
22.根据权利要求21所述的数据处理装置,还包括存储单元,其中,所述存储单元配置为存储模式选定信息,其中,所述模式选定信息表征用户选定的模式的类型;
所述模式控制单元进一步配置为:从至少两个分发模式中选取与所述模式选定信息相匹配的分发模式,作为所述目标分发模式。
23.一种电子设备,包括:
处理器;
存储器,存储有一个或多个计算机程序模块;
其中,所述一个或多个计算机程序模块被配置为由所述处理器执行,用于实现权利要求1-19任一项所述的数据处理方法。
24.一种计算机可读存储介质,存储有非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时实现权利要求1-19任一项所述的数据处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211471539.6A CN115775199B (zh) | 2022-11-23 | 2022-11-23 | 数据处理方法和装置、电子设备和计算机可读存储介质 |
PCT/CN2023/079753 WO2024108800A1 (zh) | 2022-11-23 | 2023-03-06 | 数据处理方法和装置、电子设备和计算机可读存储介质 |
EP23892910.3A EP4432210A1 (en) | 2022-11-23 | 2023-03-06 | Data processing method and apparatus, electronic device, and computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211471539.6A CN115775199B (zh) | 2022-11-23 | 2022-11-23 | 数据处理方法和装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115775199A CN115775199A (zh) | 2023-03-10 |
CN115775199B true CN115775199B (zh) | 2024-04-16 |
Family
ID=85389915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211471539.6A Active CN115775199B (zh) | 2022-11-23 | 2022-11-23 | 数据处理方法和装置、电子设备和计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4432210A1 (zh) |
CN (1) | CN115775199B (zh) |
WO (1) | WO2024108800A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116185670B (zh) * | 2023-05-04 | 2023-07-18 | 南京砺算科技有限公司 | 内存间的数据交换方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455468A (zh) * | 2012-11-06 | 2013-12-18 | 深圳信息职业技术学院 | 一种多gpu运算卡及多gpu之间的数据传输方法 |
DE102013018602A1 (de) * | 2012-11-09 | 2014-05-15 | Nvidia Corporation | System und Verfahren zur Datenübertragung |
CN105122210A (zh) * | 2013-12-31 | 2015-12-02 | 华为技术有限公司 | Gpu虚拟化的实现方法及相关装置和系统 |
WO2017067486A1 (zh) * | 2015-10-21 | 2017-04-27 | 中兴通讯股份有限公司 | 一种终端及数据传输方法和装置 |
CN107003892A (zh) * | 2016-12-29 | 2017-08-01 | 深圳前海达闼云端智能科技有限公司 | Gpu虚拟化方法、装置、系统及电子设备、计算机程序产品 |
CN109840877A (zh) * | 2017-11-24 | 2019-06-04 | 华为技术有限公司 | 一种图形处理器及其资源调度方法、装置 |
CN110675490A (zh) * | 2019-09-27 | 2020-01-10 | 武汉中旗生物医疗电子有限公司 | 一种三维超声渲染成像方法及装置 |
CN112181682A (zh) * | 2020-09-23 | 2021-01-05 | 上海爱数信息技术股份有限公司 | 一种多任务并发场景下的数据传输控制系统及其方法 |
CN112419140A (zh) * | 2020-12-02 | 2021-02-26 | 海光信息技术股份有限公司 | 数据处理装置、数据处理方法及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123265B (zh) * | 2013-04-26 | 2017-12-22 | 华为技术有限公司 | 一种众核间通信方法及系统 |
CN104461467B (zh) * | 2013-09-25 | 2018-05-04 | 广州中国科学院软件应用技术研究所 | 针对SMP集群系统采用MPI和OpenMP混合并行提高计算速度的方法 |
US9715475B2 (en) * | 2015-07-21 | 2017-07-25 | BigStream Solutions, Inc. | Systems and methods for in-line stream processing of distributed dataflow based computations |
CN112368686B (zh) * | 2018-11-06 | 2024-06-25 | 华为技术有限公司 | 一种异构计算系统及内存管理方法 |
CN112527514B (zh) * | 2021-02-08 | 2021-05-18 | 浙江地芯引力科技有限公司 | 基于逻辑扩展的多核心安全芯片处理器及其处理方法 |
CN113434814B (zh) * | 2021-06-26 | 2023-08-25 | 上海寒武纪信息科技有限公司 | 一种基于神经网络的矩阵乘运算方法及相关装置 |
CN114327926A (zh) * | 2021-11-12 | 2022-04-12 | 中国科学院计算技术研究所 | 一种异构边缘智能微服务器及其搭建方法 |
CN114756388B (zh) * | 2022-03-28 | 2024-05-31 | 北京航空航天大学 | 一种基于rdma的集群系统节点间按需共享内存的方法 |
-
2022
- 2022-11-23 CN CN202211471539.6A patent/CN115775199B/zh active Active
-
2023
- 2023-03-06 EP EP23892910.3A patent/EP4432210A1/en active Pending
- 2023-03-06 WO PCT/CN2023/079753 patent/WO2024108800A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455468A (zh) * | 2012-11-06 | 2013-12-18 | 深圳信息职业技术学院 | 一种多gpu运算卡及多gpu之间的数据传输方法 |
DE102013018602A1 (de) * | 2012-11-09 | 2014-05-15 | Nvidia Corporation | System und Verfahren zur Datenübertragung |
CN105122210A (zh) * | 2013-12-31 | 2015-12-02 | 华为技术有限公司 | Gpu虚拟化的实现方法及相关装置和系统 |
WO2017067486A1 (zh) * | 2015-10-21 | 2017-04-27 | 中兴通讯股份有限公司 | 一种终端及数据传输方法和装置 |
CN106612362A (zh) * | 2015-10-21 | 2017-05-03 | 中兴通讯股份有限公司 | 一种终端及数据传输方法和装置 |
CN107003892A (zh) * | 2016-12-29 | 2017-08-01 | 深圳前海达闼云端智能科技有限公司 | Gpu虚拟化方法、装置、系统及电子设备、计算机程序产品 |
CN109840877A (zh) * | 2017-11-24 | 2019-06-04 | 华为技术有限公司 | 一种图形处理器及其资源调度方法、装置 |
CN110675490A (zh) * | 2019-09-27 | 2020-01-10 | 武汉中旗生物医疗电子有限公司 | 一种三维超声渲染成像方法及装置 |
CN112181682A (zh) * | 2020-09-23 | 2021-01-05 | 上海爱数信息技术股份有限公司 | 一种多任务并发场景下的数据传输控制系统及其方法 |
CN112419140A (zh) * | 2020-12-02 | 2021-02-26 | 海光信息技术股份有限公司 | 数据处理装置、数据处理方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115775199A (zh) | 2023-03-10 |
WO2024108800A1 (zh) | 2024-05-30 |
EP4432210A1 (en) | 2024-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9734546B2 (en) | Split driver to control multiple graphics processors in a computer system | |
US9146777B2 (en) | Parallel processing with solidarity cells by proactively retrieving from a task pool a matching task for the solidarity cell to process | |
US20160350245A1 (en) | Workload batch submission mechanism for graphics processing unit | |
CN104126179B (zh) | 用于多核处理器中的核心间通信的方法和装置 | |
CN110308982B (zh) | 一种共享内存复用方法及装置 | |
CN103999051A (zh) | 用于着色器核心中着色器资源分配的策略 | |
US20110173629A1 (en) | Thread Synchronization | |
CN103425534A (zh) | 在许多应用之间共享的图形处理单元 | |
CN114675964A (zh) | 基于联邦决策树模型训练的分布式调度方法、系统及介质 | |
CN105068859A (zh) | 一种跨虚拟机的多服务调用方法及系统 | |
CN115775199B (zh) | 数据处理方法和装置、电子设备和计算机可读存储介质 | |
CN118035618B (zh) | 数据处理器、数据处理方法、电子设备、存储介质 | |
CN118277490B (zh) | 数据处理系统、数据同步方法、电子设备和存储介质 | |
CN103262039A (zh) | 用于处理装置的同步操作的方法和系统 | |
CN116339944B (zh) | 任务处理方法、芯片、多芯片模块、电子设备和存储介质 | |
KR102702130B1 (ko) | 딥러닝 모델을 트레이닝하는 방법 및 장치 | |
CN111767995A (zh) | 运算方法、装置及相关产品 | |
US20120151145A1 (en) | Data Driven Micro-Scheduling of the Individual Processing Elements of a Wide Vector SIMD Processing Unit | |
CN114116220B (zh) | 一种gpu共享控制方法、gpu共享控制装置及存储介质 | |
JP2024511765A (ja) | マルチアクセラレータ計算ディスパッチ | |
CN116774968A (zh) | 具有一组线程束的高效矩阵乘法和加法 | |
CN114003359A (zh) | 基于弹性持久的线程块的任务调度方法、系统及gpu | |
EP4455876A1 (en) | Task processing method, chip, multi-chip module, electronic device, and storage medium | |
CN118132279B (zh) | 任务处理方法、装置、电子设备和计算机可读存储介质 | |
Huang et al. | Performance optimization of High-Performance LINPACK based on GPU-centric model on heterogeneous systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |