CN116185670B

CN116185670B - 内存间的数据交换方法、装置、电子设备及存储介质

Info

Publication number: CN116185670B
Application number: CN202310484193.1A
Authority: CN
Inventors: 阙恒; 和华; 朱康挺; 商秋
Original assignee: Li Computing Technology Shanghai Co ltd; Nanjing Lisuan Technology Co ltd
Current assignee: Li Computing Technology Shanghai Co ltd; Nanjing Lisuan Technology Co ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-07-18
Anticipated expiration: 2043-05-04
Also published as: CN116185670A

Abstract

本发明公开了一种内存间的数据交换方法、装置设备及存储介质。该方法包括：在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型；其中，内存类型包括GPU的共享内存单元和全局内存单元；根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存。本发明实施例的技术方案，可以实现GPU的共享内存单元和全局内存单元之间的直接数据交换，使数据可以高效的在不同类型内存之间实现直接搬运，提高了数据交换的速度与效率。

Description

内存间的数据交换方法、装置、电子设备及存储介质

技术领域

本发明涉及片上的数据交换领域，尤其涉及一种内存间的数据交换方法、装置、电子设备及存储介质。

背景技术

现代GPU（Graphics Processing Unit，图形处理器）在工作时允许有多个硬件线程同时运行，多个硬件线程有自己独立的通用寄存器以及私有内存。当多个硬件线程之间存在数据交换的时候，需要通过GPU的共享内存单元进行数据交换，共享内存单元可以在一组线程内进行读写操作。当共享内存的数据来源于全局内存单元，或者需要将共享内存单元的数据写入全局内存单元时，需要在共享内存单元和全局内存单元之间实现数据交换。

现有技术在实现共享内存单元和全局内存单元之间的数据交换时，通常需要借助GPU上的各个硬件线程的通用寄存器进行数据的交换传输。

现有技术存在如下问题：在借助通用寄存器进行共享内存单元和全局内存单元之间的数据交换时，对通用寄存器会造成较大的工作负载，降低了GPU的工作效率，严重影响了数据交换的速度与效率。

发明内容

本发明提供了一种内存间的数据交换方法、装置、电子设备及存储介质，提高GPU的共享内存单元和全局内存单元之间的数据交换效率。

第一方面，本发明实施例提供了一种内存间的数据交换方法，该方法包括：

在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型；

其中，内存类型包括GPU的共享内存单元和全局内存单元，GPU通过数据加载与存储模块对全局内存单元进行读写操作，GPU的共享内存单元与数据加载与存储模块之间预先建立直连通路；

根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存。

第二方面，本发明提供了一种内存间的数据交换装置，该装置包括：

内存类型获取模块，用于在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型；

数据交换模块，用于根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存。

第三方面，本发明提供了一种电子设备，所述电子设备包括：

至少一个图形处理器；以及

与所述至少一个图形处理器通信连接的存储器；

设置在图形处理器上的共享内存单元和全局内存单元，其中，

所述存储器存储有可被所述至少一个图形处理器执行的计算机程序，所述计算机程序被所述至少一个图形处理器执行，以使所述至少一个图形处理器能够执行本发明任一实施例所述的内存间的数据交换方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使图形处理器执行时实现本发明任一实施例所述的内存间的数据交换方法。

本发明的技术方案，在GPU的共享内存单元与数据加载与存储模块之间预先建立直连通路，之后通过在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型，并根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存的方式，解决了GPU的共享内存单元和全局内存单元之间无法直接进行数据交换，数据交换的完成依赖于其他类型硬件，同时数据交换的速度与效率较低的问题，实现了共享内存单元和全局内存单元之间的直接数据交换，使数据可以高效的在不同类型内存之间实现搬运，提高了数据交换的速度与效率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中用于实现内存间的数据交换方法的一种GPU功能框图；

图2是根据本发明实施例一提供的一种内存间的数据交换方法的流程图；

图3是根据本发明实施例一提供的方法所适用的一种新形式的GPU功能框图；

图4是根据本发明实施例二提供的一种内存间的数据交换方法的流程图；

图5是本发明实施例二提供的方法所适用的一种内存间的数据交换方法的时序图；

图6是根据本发明实施例三提供的一种内存间的数据交换方法的流程图；

图7是本发明实施例三提供的方法所适用的另一种内存间的数据交换方法的时序图；

图8是根据本发明实施例四提供的一种内存间的数据交换装置的结构示意图；

图9是实现本发明实施例的一种内存间的数据交换方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解本发明的各实施例，首先将现有技术中GPU的共享内存单元和全局内存单元之间的数据交换方法进行简单介绍。

如前所述，现代GPU在工作时允许有多个硬件线程同时运行，多个硬件线程有自己独立的通用寄存器以及私有内存。当多个硬件线程之间存在数据交换的时候，需要通过GPU的共享内存单元进行数据交换，共享内存单元可以在一组线程内进行读写操作。当共享内存单元的数据来源于全局内存单元，或者需要将共享内存单元的数据写入全局内存单元时，需要在共享内存单元和全局内存单元之间实现数据交换。

相应的，在图1中示出了现有技术中用于实现内存间的数据交换方法的一种GPU功能框图。如图1所示，GPU中具体包括多个通用寄存器，也即，图中示例出的通用寄存器0、通用寄存器1、通用寄存器2以及通用寄存器3，数据加载与存储模块（一般可以称为LOADSTORE）以及共享内存单元。

其中，不同的通用寄存器分别对应GPU中不同的硬件线程（图中未示出）。各通用寄存器通过一类总线与数据加载与存储模块相连，通过二类总线与共享内存单元相连。同时，全局内存单元与数据加载与存储模块通信连接。具体的，该数据加载与存储模块可以理解为全局内存单元外设的一级缓存区。

相应的，现有技术在实现共享内存单元和全局内存单元之间的数据交换时，共享内存单元的数据首先通过二类总线写入各通用寄存器中，再由各通用寄存器通过一类总线将所述数据写入数据加载与存储模块，最终由数据加载与存储模块将该数据传输至全局内存单元中进行存储。或者，全局内存单元中的数据首先写入数据加载与存储模块，之后通过一类总线将该数据写入至各通用寄存器中，再由各通用寄存器通过二类总线将该数据写入至共享内存单元中。

由上述数据的双向交互过程可知，现有技术在借助各通用寄存器进行共享内存单元和全局内存单元之间的数据交换时，对通用寄存器会造成较大的工作负载，直接导致GPU的工作效率降低，严重影响了数据交换的速度与效率，进而影响了GPU的运行效率。

实施例一

图2为本发明实施例一提供的一种内存间的数据交换方法的流程图，本实施例可适用于GPU的共享内存单元和全局内存单元之间进行数据交换的情况，该方法可以由内存间的数据交换装置来执行，该内存间的数据交换装置可以采用硬件和/或软件的形式实现，并一般可配置于GPU内部。如图2所示，该方法包括：

S210、在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型。

其中，内存类型包括GPU的共享内存单元和全局内存单元，GPU通过数据加载与存储模块对全局内存单元进行读写操作，GPU的共享内存单元与数据加载与存储模块之间预先建立直连通路。

其中，所述目标数据请求可以为：GPU在进行设定计算（例如，基于设定神经网络模型的计算）之前,从全局内存单元读取计算依赖数据的请求，或者，所述GPU在全部计算完成之后，将存储在共享内存单元的最终的数据计算结果存储至全局内存单元的请求。

示例性的，在本发明实施例的一个应用场景中，所述目标数据请求具体可以为：在检测到人工智能模型的启动执行指令时，触发生成将全局内存单元中的数据交换至共享内存单元中的目标数据请求，或者；在检测到人工智能模型的执行完毕响应时，触发生成将共享内存单元中的数据交换至全局内存单元中的目标数据请求。

可选的，该GPU中各硬件线程所产生的各项指令，可以首先集中在GPU内部的指令调度模块中，由该指令调度模块实现对各项指令的分发调度。

其中，所述GPU是一种专门在个人电脑、工作站、游戏机和一些移动设备上做图像和图形相关运算工作的微处理器。所述共享内存单元为配置于GPU内部的，用于实现该GPU中多硬件线程之间数据通信的一个存储器件。所述全局内存单元为配置于GPU上的，用于与GPU上的数据加载与存储模块进行数据通信的另一个存储器件。其中，该数据加载与存储模块可以理解为全局内存单元设置在外部的一级缓存。

在本实施例中，在GPU的共享内存单元，以及数据加载与存储模块之间通过走线连接的方式，预先建立直连通路。可选的，在图3中示出了一种新形式的GPU功能框图。如图3所示，在GPU内部，数据加载与存储模块与共享内存单元之间可以通过直连通路直接进行数据交换。

需要注意的是，所述读取方内存的内存类型和写入方内存的内存类型为不同类型；示例性的，若所述读取方内存的内存类型为共享内存单元，则所述写入方内存的内存类型为全局内存单元；若所述读取方内存的内存类型为全局内存单元，则所述写入方内存的内存类型为共享内存单元。

S220、根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存。

示例性的，以所述读取方内存的内存类型为全局内存单元，写入方内存的内存类型为共享内存单元为例，如图3所示，共享内存单元的数据首先通过预先构建的直连通路直接写入数据加载与存储模块中，再由数据加载与存储模块将数据传输至全局内存单元进行存储。

本实施例的技术方案，在GPU的共享内存单元与数据加载与存储模块之间预先建立直连通路，之后通过在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型，并根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存的方式，实现了共享内存单元和全局内存单元之间的直接数据交换，使数据可以高效的在不同类型内存之间实现直接搬运，提高了数据交换的速度与效率，进而提高了GPU的工作效率。

实施例二

图4为本发明实施例二提供的一种内存间的数据交换方法的流程图，本实施例是上述实施例的细化。具体为，将调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由全局内存单元写入至共享内存单元的方法进行细化。

相应的，如图4所示，该方法包括：

S410、在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型。

S420、当获取到与目标数据请求匹配的读取方内存的内存类型为全局内存单元，写入方内存的内存类型为共享内存单元时，将目标数据请求分发至数据加载与存储模块和共享内存单元，并标注分发至共享内存单元的目标数据请求为暂停执行状态。

如前所述，GPU内部的指令调度模块在对各项指令进行分发调度的过程中，如果确定当前调度的指令为用于实现内存间数据交换的目标数据请求，则会同时将该目标数据请求数据加载至存储模块和共享内存单元中。

其中，所述暂停执行状态为在当前的条件下，所述共享内存单元在接收到目标数据请求后，不对所述目标数据请求进行执行，而仅做缓存操作，只有在满足该目标数据请求的触发条件时，才会执行目标数据请求。相类似的，分发至数据加载与存储模块中的目标数据请求未标注暂停执行状态，则当数据加载与存储模块执行至该目标数据请求时，可以无需等待，直接执行该目标数据请求。

具体的，如图5所示，当所述目标数据请求分发至数据加载与存储模块和共享内存单元时，数据加载与存储模块可以在空闲状态时，直接对所述目标数据请求进行执行，而共享内存单元仅对所述目标数据请求做接收与缓存的操作，即此时所述目标数据请求在共享内存单元中处于暂停执行状态。

进一步的，所示目标数据请求中包括：第一读取地址请求信息以及第一写入地址请求信息等，可以用于向通用寄存器请求获得第一读取地址以及第一写入地址等信息。

S430、通过数据加载与存储模块根据目标数据请求，确定请求交换的数据在全局内存单元的第一读取地址，并第一读取地址处读取第一数据后经由直连通路缓存至共享内存单元。

其中，可以直接将第一读取地址写入至目标数据请求中，或者，还可以将第一读取地址的存储位置（例如，GPU上的某一个通用寄存器）写入至该目标数据请求中，本实施例对此并不进行限制。

可选的，通过数据加载与存储模块根据目标数据请求，确定请求交换的数据在全局内存单元的第一读取地址，可以包括：

通过数据加载与存储模块在目标数据请求中识别第一读取地址所在的第一通用寄存器，并从第一通用寄存器中读取所述第一读取地址。

其中，所述第一通用寄存器可以为存储有目标数据请求在全局内存单元中的存储地址(也即，第一读取地址)的通用寄存器。也即，在本可选实施方式中，目标数据请求中仅包括第一读取地址所在的第一通用寄存器的寄存器标识，通过解析该寄存器标识，可以确定出第一通用寄存器，进而可以直接从第一通用寄存器中读取所述第一读取地址。

具体的，如图5所示，数据加载与存储模块在接收到目标数据请求后，根据所述目标数据请求向匹配的第一通用寄存器请求第一读取地址，之后第一通用寄存器响应于数据加载与存储模块的请求，将所述第一读取地址发送至数据加载与存储模块，数据加载与存储模块本地读取第一读取地址内存储的第一数据，并将所述第一数据经由直连通路发送至共享内存单元。

需要注意的是，此时所述第一数据在共享内存单元模块上的状态为缓存状态，即此时所述第一数据尚未被存储在共享内存单元中。

S440、通过共享内存单元将目标数据请求的状态更新为可执行状态后，根据目标数据请求，确定请求交换的数据在共享内存单元的第一写入地址，并将缓存的第一数据写入共享内存单元的第一写入地址。

可选的，在S430的基础上，当所述共享内存单元接收到所述第一数据并缓存后，则所述共享内存单元可以将目标数据请求的状态更新为可执行状态；进一步的，所述可执行状态可以理解为，当前共享内存单元可以执行所述目标数据请求对应的操作。

其中，所述第一写入地址可以为请求交换的数据在共享内存单元中的被存储的地址。具体的，若所述第一读取地址为R2，则说明所述请求交换的数据需要被存储至共享内存单元的R2地址处。

进一步的，通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第一写入地址，可以包括：通过共享内存单元在目标数据请求中识别第一写入地址所在的第二通用寄存器，并从第二通用寄存器中读取所述第一写入地址。

其中，所述第二通用寄存器可以为存储有与目标数据请求匹配的第一写入地址的通用寄存器。

具体的，如图5所示，共享内存单元在获取到第一目标数据并将所述目标数据请求更新为可执行状态后，根据所述目标数据请求向匹配的第二通用寄存器请求第一写入地址，之后第二通用寄存器响应于共享内存单元的请求，将所述第一写入地址发送至共享内存单元，共享内存单元读取当前缓存的第一数据，并将所述第一数据写入共享内存单元的第一写入地址。

在本实施例中，在通过共享内存单元将目标数据请求的状态更新为可执行状态之前，还可以包括：通过共享内存单元确定对第一数据成功缓存时，根据所述第一数据中包括的请求识别标识，定位目标数据请求。

也即，在共享内存单元成功缓存第一数据后，说明共享内存单元可以将该第一数据本地写入至匹配的第一写入地址中。也即满足将目标数据请求的状态更新为可执行状态的时机，此时，可以根据所述第一数据中包括的请求识别标识，定位目标数据请求，并通过共享内存单元将目标数据请求的状态更新为可执行状态。

本实施例的技术方案，在GPU的共享内存单元与数据加载与存储模块之间预先建立直连通路，通过在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存为全局内存单元，写入方内存为共享内存单元，将目标数据请求分发至数据加载与存储模块和共享内存单元，之后通过数据加载与存储模块根据目标数据请求，确定请求交换的数据在全局内存单元的第一读取地址，并第一读取地址处读取第一数据后经由直连通路缓存至共享内存单元，使数据可以高效的在不同类型内存之间实现直接搬运，提高了数据交换的速度与效率，进而提高了GPU的工作效率。

此外，需要再次强调的是，现有技术在实现将全局内存单元写入至共享内存单元时，需要在指令调度模块中存储两条指令，也即，将数据从全局内存单元写入至通用寄存器的第一指令，以及，将数据从通用寄存器写入至共享内存单元的第二指令。然而，通过实施本实施例的技术方案，仅需要在指令调度模块存储一条指令即可。

具体的，可以构建形如SMLD R0，R1，表示在从全局内存单元中，由通用寄存器RO中所存储的数据读取地址处读取出数据后，将该数据写入至共享内存单元中，由通用寄存器R1所存储的数据写入地址处。通过上述设置，可以大大减少对指令调度模块的空间占用，在提高指令调度模块的存储效率的同时，提高目标数据请求的执行效率。

实施例三

图6为本发明实施例三提供的一种内存间的数据交换方法的流程图，本实施例是上述实施例的细化。具体为，将调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由共享内存单元写入至全局内存单元的方法进行细化。

相应的，如图6所示，该方法包括：

S610、在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型。

S620、当获取的读取方内存的内存类型为共享内存单元，写入方内存的内存类型为全局内存单元时，将目标数据请求分发至共享内存单元和数据加载与存储模块，并标注分发至数据加载与存储模块的目标数据请求为暂停执行状态。

S630、通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第二读取地址，并从第二读取地址处读取第二数据进行本地缓存。

其中，所述第二读取地址为请求交换的数据在共享内存单元中的被读取的地址，具体的，若所述第二读取地址为R0，则说明所述请求交换的数据为存储在共享内存单元的R0地址的数据；进一步的，所述第二数据为根据目标数据请求确定的请求交换的数据。

可选的，通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第二读取地址，可以包括：通过共享内存单元在目标数据请求中识别第二读取地址所在的第三通用寄存器，并从第三通用寄存器中读取所述第二读取地址。

其中，所述第三通用寄存器可以为存储有与目标数据请求匹配的第二读取地址的通用寄存器。

具体的，如图7所示，共享内存单元在接收到目标数据请求后，根据所述目标数据请求向匹配的第三通用寄存器请求第二读取地址，之后通用寄存器响应于共享内存单元的请求，将所述第二读取地址发送至共享内存单元，共享内存单元本地读取第二读取地址内存储的第二数据，并将所述第二数据在共享内存单元中进行缓存。

S640、通过数据加载与存储模块将目标数据请求的状态更新为可执行状态后，根据目标数据请求，确定请求交换的数据在数据加载与存储模块的第二写入地址，并通过直连通路从共享内存单元中获取第二数据写入数据加载与存储模块的第二写入地址。

可选的，在S630的基础上，当数据加载与存储模块接收到所述第二数据并缓存，则所述数据加载与存储模块将目标数据请求的状态更新为可执行状态；进一步的，所述可执行状态为，当前数据加载与存储模块执行所述目标数据请求对应的操作。

通过数据加载与存储模块根据目标数据请求，确定请求交换的数据在数据加载与存储模块的第二写入地址，包括：通过数据加载与存储模块在目标数据请求中识别第二写入地址所在的第四通用寄存器，并从第四通用寄存器中读取所述第二写入地址。

在本实施例中，通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第二读取地址，并从第二读取地址处读取第二数据进行本地缓存之后，还包括：通过共享内存单元确定对第二数据的成功缓存时，生成联动触发指令，并将联动触发指令经由直连通路发送至数据加载与存储模块。

其中，所述联动触发指令可以请求所述数据加载与存储模块执行所述目标数据请求。

在通过数据加载与存储模块将目标数据请求的状态更新为可执行状态之前，还包括：通过数据加载与存储模块根据所述联动触发指令中包括的请求识别标识，定位目标数据请求。

本实施例的技术方案，在GPU的共享内存单元与数据加载与存储模块之间预先建立直连通路，通过在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存为共享内存单元，写入方内存的内存类型为全局内存单元，将目标数据请求分发至共享内存单元和数据加载与存储模块，并通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第二读取地址，并从第二读取地址处读取第二数据进行本地缓存，最终根据目标数据请求，确定请求交换的数据在数据加载与存储模块的第二写入地址，并通过直连通路从共享内存单元中获取第二数据写入数据加载与存储模块的第二写入地址，实现了共享内存单元和全局内存单元之间的直接数据交换，使数据可以高效的在不同类型内存之间实现搬运，提高了数据交换的速度与效率。

此外，需要再次强调的是，现有技术在实现将共享内存单元写入至全局内存单元时，需要在指令调度模块中存储两条指令，也即，将数据从共享内存单元写入至通用寄存器的第三指令，以及，将数据从通用寄存器写入至全局内存单元的第四指令。然而，通过实施本发明实施例的技术方案，仅需要在指令调度模块中存储一条指令即可。具体的，可以构建形如SMST R4，R7，表示在从共享内存单元中，由通用寄存器R4中所存储的数据读取地址处读取出数据后，将该数据写入至全局内存单元中，由通用寄存器R7所存储的数据写入地址处。通过上述设置，可以大大减少对指令调度模块的空间占用，并提高目标数据请求的执行效率。

实施例四

图8为本发明实施例四提供的一种内存间的数据交换装置的结构示意图。如图8所示，该装置包括：

内存类型获取模块810，用于在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型。

数据交换模块820，用于根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存。

本发明实施例的技术方案，在GPU的共享内存单元与数据加载与存储模块之间预先建立直连通路，通过在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型，并根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存，实现了共享内存单元和全局内存单元之间的直接数据交换，使数据可以高效的在不同类型内存之间实现搬运，提高了数据交换的速度与效率。

在上述实施例的基础上，数据交换模块820，包括：

共享内存暂停执行单元，用于如果读取方内存的内存类型为全局内存单元，写入方内存的内存类型为共享内存单元，则将目标数据请求分发至数据加载与存储模块和共享内存单元，并标注分发至共享内存单元的目标数据请求为暂停执行状态；

第一读取地址确定单元，用于通过数据加载与存储模块根据目标数据请求，确定请求交换的数据在全局内存单元的第一读取地址，并从第一读取地址处读取第一数据后经由直连通路缓存至共享内存单元；

第一写入地址确定单元，用于通过共享内存单元将目标数据请求的状态更新为可执行状态后，根据目标数据请求，确定请求交换的数据在共享内存单元的第一写入地址，并将缓存的第一数据写入共享内存单元的第一写入地址。

在上述实施例的基础上，第一读取地址确定单元，进一步包括：

第一读取地址读取单元，用于通过数据加载与存储模块在目标数据请求中识别第一读取地址所在的第一通用寄存器，并从第一通用寄存器中读取所述第一读取地址；

在上述实施例的基础上，第一写入地址确定单元，进一步包括：

第一写入地址读取单元，用于通过共享内存单元在目标数据请求中识别第一写入地址所在的第二通用寄存器，并从第二通用寄存器中读取所述第一写入地址。

在上述实施例的基础上，第一写入地址确定单元，还包括：

第一目标数据请求定位胡单元，用于通过共享内存单元确定对第一数据成功缓存时，根据所述第一数据中包括的请求识别标识，定位目标数据请求。

在上述实施例的基础上，数据交换模块820，包括：

加载存储暂停执行单元，用于如果读取方内存的内存类型为共享内存单元，写入方内存的内存类型为全局内存单元，则将目标数据请求分发至共享内存单元和数据加载与存储模块，并标注分发至数据加载与存储模块的目标数据请求为暂停执行状态；

第二读取地址确定单元，用于通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第二读取地址，并从第二读取地址处读取第二数据进行本地缓存；

第二写入地址确定单元，用于通过数据加载与存储模块将目标数据请求的状态更新为可执行状态后，根据目标数据请求，确定请求交换的数据在数据加载与存储模块的第二写入地址，并通过直连通路从共享内存单元中获取第二数据写入数据加载与存储模块的第二写入地址。

在上述实施例的基础上，第二读取地址确定单元，进一步包括：

第二读取地址读取单元，用于通过共享内存单元在目标数据请求中识别第二读取地址所在的第三通用寄存器，并从第三通用寄存器中读取所述第二读取地址；

在上述实施例的基础上，第二写入地址确定单元，进一步包括：

第二写入地址读取单元，用于通过数据加载与存储模块在目标数据请求中识别第二写入地址所在的第四通用寄存器，并从第四通用寄存器中读取所述第二写入地址。

在上述实施例的基础上，第二读取地址确定单元，还包括：

联动触发指令生成单元，用于通过共享内存单元确定对第二数据的成功缓存时，生成联动触发指令，并将联动触发指令经由直连通路发送至数据加载与存储模块；

在上述实施例的基础上，第二写入地址确定单元，还包括：

目标数据请求定位单元，用于通过数据加载与存储模块根据所述联动触发指令中包括的请求识别标识，定位目标数据请求。

在上述实施例的基础上，内存类型获取模块810，包括：

第一目标数据请求生成单元，用于在检测到人工智能模型的启动执行指令时，触发生成将全局内存单元中的数据交换至共享内存单元中的目标数据请求，或者；

第二目标数据请求生成单元，用于在检测到人工智能模型的执行完毕响应时，触发生成将共享内存单元中的数据交换至全局内存单元中的目标数据请求。

本实施例所提供的内存间的数据交换装置可执行本发明任意实施例所提供的内存间的数据交换方法，具备执行方法相应的功能模块和有益效果。

实施例五

图9示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图9所示，电子设备10包括至少一个图形处理器11，设置在图形处理器上的共享内存单元（图中未示出）和全局内存单元（图中未示出），以及与至少一个图形处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个图形处理器执行的计算机程序，图形处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。图形处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

图形处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。图形处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的图形处理器、数字信号图形处理器（DSP）、以及任何适当的图形处理器、控制器、微控制器等。图形处理器11执行上文所描述的各个方法和处理，例如本发明各实施例所述的内存间的数据交换方法。

相应的，该方法包括：

在一些实施例中，内存间的数据交换方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由图形处理器11执行时，可以执行上文描述的内存间的数据交换方法的一个或多个步骤。备选地，在其他实施例中，图形处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行内存间的数据交换方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程图形处理器的可编程系统上执行和/或解释，该可编程图形处理器可以是专用或者通用可编程图形处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的图形处理器，使得计算机程序当由图形处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学存储设备、磁存储设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种内存间的数据交换方法，其特征在于，包括：

在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型；读取方内存的内存类型和写入方内存的内存类型不同；

其中，内存类型包括图形处理器GPU的共享内存单元和全局内存单元，GPU通过数据加载与存储模块对全局内存单元进行读写操作，GPU的共享内存单元与数据加载与存储模块之间预先建立直连通路；

根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存；

其中，目标数据请求用于分发至读取方和写入方，且分发至写入方的目标数据请求被标记为暂停执行状态；在通过读取方根据目标数据请求读取请求交换的数据缓存至共享内存单元后，由写入方将处于暂停执行状态的目标数据请求更新为可执行状态，并根据目标数据请求将共享内存单元中缓存的所述请求交换的数据写入至写入方内存。

2.根据权利要求1所述的方法，其特征在于，根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存，包括：

如果读取方内存的内存类型为全局内存单元，写入方内存的内存类型为共享内存单元，则将目标数据请求分发至数据加载与存储模块和共享内存单元，并标注分发至共享内存单元的目标数据请求为暂停执行状态；

通过数据加载与存储模块根据目标数据请求，确定请求交换的数据在全局内存单元的第一读取地址，并从第一读取地址处读取第一数据后经由直连通路缓存至共享内存单元；

通过共享内存单元将目标数据请求的状态更新为可执行状态后，根据目标数据请求，确定请求交换的数据在共享内存单元的第一写入地址，并将缓存的第一数据写入共享内存单元的第一写入地址。

3.根据权利要求2所述的方法，其特征在于，通过数据加载与存储模块根据目标数据请求，确定请求交换的数据在全局内存单元的第一读取地址，包括：

通过数据加载与存储模块在目标数据请求中识别第一读取地址所在的第一通用寄存器，并从第一通用寄存器中读取所述第一读取地址；

通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第一写入地址，包括：

通过共享内存单元在目标数据请求中识别第一写入地址所在的第二通用寄存器，并从第二通用寄存器中读取所述第一写入地址。

4.根据权利要求2或3所述的方法，其特征在于，在通过共享内存单元将目标数据请求的状态更新为可执行状态之前，还包括：

通过共享内存单元确定对第一数据成功缓存时，根据所述第一数据中包括的请求识别标识，定位目标数据请求。

5.根据权利要求1所述的方法，其特征在于，根据读取方内存和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存，包括：

如果读取方内存的内存类型为共享内存单元，写入方内存的内存类型为全局内存单元，则将目标数据请求分发至共享内存单元和数据加载与存储模块，并标注分发至数据加载与存储模块的目标数据请求为暂停执行状态；

通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第二读取地址，并从第二读取地址处读取第二数据进行本地缓存；

通过数据加载与存储模块将目标数据请求的状态更新为可执行状态后，根据目标数据请求，确定请求交换的数据在数据加载与存储模块的第二写入地址，并通过直连通路从共享内存单元中获取第二数据写入全局内存单元的第二写入地址。

6.根据权利要求5所述的方法，其特征在于，通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第二读取地址，包括：

通过共享内存单元在目标数据请求中识别第二读取地址所在的第三通用寄存器，并从第三通用寄存器中读取所述第二读取地址；

通过数据加载与存储模块根据目标数据请求，确定请求交换的数据在数据加载与存储模块的第二写入地址，包括：

通过数据加载与存储模块在目标数据请求中识别第二写入地址所在的第四通用寄存器，并从第四通用寄存器中读取所述第二写入地址。

7.根据权利要求5或6所述的方法，其特征在于，在通过共享内存单元根据目标数据请求，确定请求交换的数据在共享内存单元的第二读取地址，并从第二读取地址处读取第二数据进行本地缓存之后，还包括：

通过共享内存单元确定对第二数据的成功缓存时，生成联动触发指令，并将联动触发指令经由直连通路发送至数据加载与存储模块；

在通过数据加载与存储模块将目标数据请求的状态更新为可执行状态之前，还包括：

通过数据加载与存储模块根据所述联动触发指令中包括的请求识别标识，定位目标数据请求。

8.根据权利要求1所述的方法，其特征在于，还包括：

在检测到人工智能模型的启动执行指令时，触发生成将全局内存单元中的数据交换至共享内存单元中的目标数据请求，或者；

在检测到人工智能模型的执行完毕响应时，触发生成将共享内存单元中的数据交换至全局内存单元中的目标数据请求。

9.一种内存间的数据交换装置，其特征在于，包括：

内存类型获取模块，用于在检测到用于实现内存间数据交换的目标数据请求时，获取与目标数据请求匹配的读取方内存的内存类型和写入方内存的内存类型；读取方内存的内存类型和写入方内存的内存类型不同；

数据交换模块，用于根据读取方内存的内存类型和写入方内存的内存类型，调度共享内存单元与数据加载与存储模块通过直连通路将请求交换的数据由读取方内存写入至写入方内存；

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个图形处理器；以及

与所述至少一个图形处理器通信连接的存储器；

所述存储器存储有可被所述至少一个图形处理器执行的计算机程序，所述计算机程序被所述至少一个图形处理器执行，以使所述至少一个图形处理器能够执行权利要求1-8中任一项所述的内存间的数据交换方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使图形处理器执行时实现权利要求1-8中任一项所述的内存间的数据交换方法。