CN102625934B

CN102625934B - 共享虚拟存储器

Info

Publication number: CN102625934B
Application number: CN200980154460.7A
Authority: CN
Inventors: H·陈; Y·高; 周小成; S·闫; P·张; J·方; A·孟德尔森; B·萨哈; 莫罕·拉贾戈帕兰
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2008-11-13
Filing date: 2009-11-05
Publication date: 2015-06-17
Anticipated expiration: 2029-11-05
Also published as: US20140375662A1; EP2386087B1; CN102625934A; US9400702B2; US20140306972A1; CN104298621B; EP2386087A2; US20150123978A1; HK1172108A1; US20130187936A1; CN104298621A; US20100118041A1; EP2889782A1; US9588826B2; US20140049550A1; WO2010056587A3; US8531471B2; US20100122264A1; US8683487B2; US8397241B2

Abstract

本发明的多个实施例提供了用于CPU-GPU平台的编程模型。特别是，本发明的多个实施例提供用于集成和分离设备的统一编程模型。该模型也可以统一地对多个GPU卡和混合GPU系统(分离的和集成的)工作。这允许软件销售商编写单个应用堆栈并使其面向所有不同的平台。此外，本发明的实施例提供了在CPU和GPU之间的共享存储器模型。代替了共享整个虚拟地址空间，仅仅虚拟地址空间的一部分需要被共享。这允许在分离的和集成的设置中的高效实施。

Description

共享虚拟存储器

背景技术

这通常涉及共享虚拟存储器实施方式。

计算工业正在朝向多样性的平台体系结构发展，该平台体系结构由通用CPU以及作为分离设备或集成设备而附连的可编程GPU所构成。这些GPU通过连续或非连续互连来连接，具有不同的工业标准体系结构(ISA)并可使用它们自己的操作系统。

由通用处理器(CPU)以及图形处理器(GPU)的组合所组成的计算平台已经无处不在，特别是在客户机计算空间中。如今，几乎所有桌面和笔记本平台都载有一个或多个CPU以及集成或分离的GPU。例如，一些平台具有与集成图形芯片组成对的处理器，而其余的使用通过诸如PCI-Express之类的接口连接的分离图形处理器。一些平台载有CPU和GPU的组合。例如，它们中的一些包括更为集成的CPU-GPU平台，而其他的包括图形处理器以补偿集成GPU供给。

这些CPU-GPU平台可提供在图形处理、医疗成像、数据挖掘、以及其他领域的非图形工作负载上的极大的性能提升。大量的数据并行GPU可被用于获取代码的高度并行部分上的高吞吐量。多样性的CPU-GPU平台可具有多个独特的体系结构约束，诸如：

●GPU可以集成和分离的方式连接。例如，一些图形处理器与芯片组集成。另一方面，其他当前的GPU以分离方式通过诸如PCI-Express之类的接口附连。虽然硬件可提供CPU和集成图形处理器之间的缓存一致性，但是对分离的GPU却很难如此。系统也可具有混合配置，其中低功率低性能GPU与CPU集成，且具有更高性能的分离GPU。最终，平台也可具有多个GPU卡。

●CPU和GPU可具有不同的操作系统。例如，处理器可具有它自己的操作系统内核。这意味着虚拟存储器翻译机制在CPU和GPU之间可能是不同的。相同的虚拟地址可能被通过CPU和GPU上的两个不同的页表被同时映射到两个不同的物理地址。这也意味着系统环境(加载器、链接器、等等)在CPU和GPU之间可以是不同的。例如，加载器可将应用加载在CPU和GPU上的不同基地址。

●CPU和GPU可具有不同的ISA，并因此相同的代码可能无法在两个处理器上运行。

附图简述

图1是根据一个实施例的CPU-GPU存储器模型的图示。

图2是用于增加了所有权权限的共享存储器模型的一个实施例的流程图。

图3是共享存储器模型的一个实施例的流程图。

图4是利用PCI开口的共享存储器模型的一个实施例的流程图。

图5是利用PCI开口的共享存储器模型的一个实施例的流程图。

图6是操作中的共享存储器模型的一个实施例的流程图。

详细描述

本发明的多个实施例提供了用于CPU-GPU平台的编程模型。特别是，本发明的多个实施例提供用于集成和分离设备的统一编程模型。该模型也可以统一地对多个GPU卡和混合GPU系统(分离的和集成的)工作。这允许软件销售商编写单个应用堆栈并将使其面向所有不同的平台。此外，本发明的实施例提供了在CPU和GPU之间的共享存储器模型。代替了共享整个虚拟地址空间，仅仅一部分虚拟地址空间需要被共享。这允许在分离的和集成的设置中的有效实现。进一步的，语言注释可被用于区分必须被运行在GPU上的代码。语言支持可被扩展为包括诸如函数指针之类的特征。

共享存储器模型的诸实施例提供了新颖的编程式样。特别是，数据结构可以在CPU和GPU之间无缝共享，并且可以从一端向另一端传递指针而不要求任何格式编组。例如，在一个实施例中，游戏引擎和包括物理、人工智能(AI)以及渲染。物理和AI代码最好在CPU上执行，而渲染最好在GPU上执行。诸如场景图片之类的数据结构可能需要在CPU和GPU之间共享。在一些当前的编程环境中这样的执行模型可能是行不通的，因为场景图片需要被来来回回地串行化(或格式编组)。然而在共享存储器模型的诸实施例中，场景图片可简单地位于共享存储器中，并可被CPU和GPU共同访问。

在一个实施例中，实现了包括语言和运行时支持的完全编程环境。多个高度并行的非图形负载可经由端口与该环境对接。该实现可工作在多样性的操作系统上，即，在CPU和GPU上运行不同操作系统。此外，可在CPU和GPU之间允许用户级通信。这可使得应用堆栈更为高效，因为可以消除CPU-GPU通信中的OS驱动器堆栈的开销。该编程环境可经由端口与两个不同的多样性CPU-GPU平台模拟器对接——一个模拟作为分离设备附加到CPU的GPU，另一个模拟集成CPU-GPU平台。

总之，CPU-GPU平台的编程模型的诸实施例可以：

●为分离的、集成的、多GPU卡和混合GPU配置提供统一编程模型。

●在CPU和GPU之间提供共享存储器语义，允许在CPU和GPU之间自由地传递指针并共享数据结构。

●被实现在具有CPU和GPU上不同的ISA和不同操作系统的多样性的CPU-GPU平台中。

●在CPU和GPU之间使能用户级通信，因此使得应用堆栈更为高效。

存储器模型

图1是根据一个实施例的GPU-CPU存储器模型的图示。在一个实施例中，存储器模型100提供CPU 110和GPU 120之间的共享虚拟地址窗口130，诸如以分割全局地址空间(PGAS)语言。在CPU 100和GPU 120之间共享的任何数据结构通常必须被编程者分配在该空间130中。本系统可提供将数据分配在该空间130中的特殊存储器分配(malloc)函数。静态变量可被注释以类型量词，以使它们被分配在共享窗口130中。然而，与PGAS语言不同，在共享窗口中没有亲和力(affinity)的概念。这是因为在共享空间130中的数据随着它被每个处理器所使用而在CPU和GPU高速缓存之间迁移。也与PGAS实现方式不同，指针的表示在共享和私有空间中不发生改变。剩余的虚拟地址空间对CPU 110和GPU 120而言是私有的。默认地，数据被分配在该空间130中，且对另一侧不可见。该分割地址空间方式可削减需要保持一致性的存储量，并实现对分离设备的更为高效的实施。

该存储器模型的实施例可被扩展到多GPU和混合配置中。特别是，共享虚拟地址窗口可以跨所有的设备而扩展。被分配在该共享地址窗口130中的任何数据结构可对所有代理而言都是可见的，且该空间中的指针可以自由地交换。此外，每个代理具有其自有的私有存储器。

由于多个原因，可使用共享地址空间中的释放一致性。第一，本系统仅仅需要记住连续释放指针之间的所有写入，而不是单独写入的序列。这更易于在释放点进行批量转换(诸如，在同一时间对若干页)，这在分离配置中很重要。第二，这允许存储器更新被完全保持在本地直到释放点，这在分离配置中很重要。第三，释放一致性模型可以对CPU-GPU平台的编程模式是良好的匹配，因为存在自然释放和获取点。例如，从CPU到GPU的调用是一个这样的点。在调用之前使得任何CPU更新对GPU可见可能不起到任何作用，并且对向CPU更新如何变得可见强加任何命令都是没有意义的，只要它们都在GPU开始执行之前是可见的既可。进一步的，所提出的C/C++存储器模型可被容易地映射到共享存储器空间。通常，非竞争程序可能不受共享存储器空间的弱连续性模型的影响。该实现方式可能不需要被限制在为竞争程序提供更强的保证。然而，不同的实施例可选择为共享空间提供不同的连续性模型。

图2是用于增加了所有权权限的共享存储器模型的一个实施例的流程图。顺序200可被实现在固件、软件或硬件中。软件实施例可被存储在诸如光盘、磁盘或半导体存储器之类的计算机可读介质上。特别是，可向共享存储器模型的诸实施例添加所有权权限以实现进一步的一致性优化。在共享虚拟地址窗口中，CPU或GPU可指定其拥有特定的地址块(框210)。如果在共享窗口中的地址范围是由CPU所拥有的(框220)，那么CPU知道GPU无法访问那些地址并因此不需要维持那些地址与GPU的一致性(框230)。例如，这可以避免向GPU发送任何监听或其他一致性信息。对于GPU拥有的地址也一样。如果GPU访问CPU拥有的地址，那么该地址变为非拥有的(对于GPU拥有的地址存在对称的行为)。或者，由GPU(CPU)对CPU(GPU)拥有的地址的访问可以触发错误情况。

本发明的诸实施例可提供这些所有权权限以利用公共CPU-GPU使用模型。例如，CPU首先访问一些数据(诸如，初始化数据结构)，并且随后将其转交给GPU(诸如，以数据并行方式在数据结构上进行计算)，并随后CPU分析计算结构，等等。所有权权限允许应用通知系统该临时局部性，并优化一致性实施方式。注意到，这些所有权权限是优化提示，并且本系统可以合法地忽略这些提示。

私有化和全局化

在一个实施例中，共享数据可通过从共享空间复制到私有空间而被私有化。不含指针数据结构可简单地通过复制存储器内容而被私有化。当复制含指针数据结构时，指向共享数据的指针必须被转换为指向私有数据的指针。

私有数据可以通过从私有空间复制到共享空间并对其他计算可见而被全局化。不含指针数据结构可简单地通过复制存储器内容而被全局化。当复制含指针数据结构时，指向私有数据的指针必须被转换为指向共享数据的指针(私有化示例的相反示例)。

例如，在一个实施例中，考虑在私有和共享空间中的节点链表。对于私有链表的类型定义是标准的：

typedef struct{

int val；//仅仅是int字段

Node*next；

}Node；

对于共享链表的类型定义如下所示。注意，指向下一节点的指针被定义为放置在共享空间中。用户必须明确地声明类型的私有和共享版本。

typedef struct{

shared int val；

shared Node*shared next；

}shared Node；

现在用户可通过下面的代码而明确地将私有链表复制到共享空间：

…

myNode＝(shared Node*)sharedMalloc(..)；

//指向私有链表的头指针

myNode-＞val＝head-＞val

myNode-＞next＝(shared Node*)sharedMalloc(..)；

…

由编译器使用的运行时API如下示出：

//分配并释放私有地址空间中的存储器

Maps to regular malloc

void*privateMalloc(int)；

void privateFree(void*)；

//从共享空间分配并释放。

shared void*sharedMalloc(size_t size)；

void sharedFree(shared void*ptr)；

//对于共享存储器的存储器连续性

void sharedAcquire()；

void sharedRelease()；

最后，运行时也为互斥体(mutex)和屏障体(barrier)提供API，以允许应用执行显式同步。这些结构经常分配在共享区域中。

本语言提供了自然获取和释放点。例如，从CPU向GPU的调用是CPU上的释放点紧接着在GPU上的获取点。类似地，从GPU的返回是在GPU上的释放点以及在CPU上的获取点。获取互斥体(mutex)的所有权并释放互斥体(mutex)分别是处理器进行互斥(mutex)操作的获取点和释放点，而命中屏障体(barrier)并通过屏障体(barrier)也是释放点和获取点。

在一个实施例中，运行时系统可为所有权的获取和释放提供API调用。例如，sharedMemoryAcquire()和sharedMemoryRelease()可以获取并释放整个存储器范围的所有权。或者，系统可提供sharedMemoryAcquire(addr，len)和sharedMemoryRelease(addr，len)以获取特定地址范围内的所有权。

实现

在一个实施例中，编译器生成两种二进制代码——一个用于在GPU上执行，而另一个用于CPU执行。生成两种不同的可执行代码，因为两个操作系统可能具有不同的可执行代码格式。GPU二进制代码包含将在GPU上执行的代码，而CPU二进制代码包含CPU函数。运行时库包括CPU和GPU部分，其与CPU和GPU应用二进制代码相链接以创建CPU和GPU可执行代码。当CPU二进制代码开始执行时，它调用运行时函数，该运行时函数加载GPU可执行代码。CPU和GPU二进制代码都创建用于CPU-GPU通信的虚拟线程。

实施CPU-GPU共享存储器

图3是共享存储器模型的一个实施例的流程图。顺序300可被实现在固件、软件或硬件中。在一个实施例中，CPU和GPU可具有不同的页表以及不同的虚拟到物理存储器翻译(框310)。因此，为了在CPU和GPU之间(诸如，在释放点)同步虚拟地址V的内容，不同物理地址的内容(诸如，CPU上的P1和GPU上的P2)被同步(框320)。然而，CPU可能不具有对GPU页表的访问权(且因此不知道P2)，并且GPU不具有对CPU页表的访问权因此不知道P1。

这个问题可通过以新颖的方式来使用PCI开口而解决。图4是利用PCI开口的共享存储器模型的一个实施例的流程图。序列400可被实现在固件、软件或硬件中。在初始化时，PCI开口空间的一部分可被映射到应用的用户空间，并且以任务队列、消息队列以及复制缓冲器来例示(框410)。当需要复制页(例如，从CPU到GPU)时(框420)，运行时将页复制到PCI开口复制缓冲器中，并使用虚拟地址和进程标识符对缓冲器进行标记(框430)。在GPU侧，虚拟线程通过使用虚拟地址标记将缓冲器的内容复制到它的地址空间(框440)。因此，该复制可以以2步进程来执行——CPU从其地址空间复制到CPU和GPU都可访问的公共缓冲器(PCI开口)，而GPU从该公共缓冲器提取页到其地址空间。GPU-CPU复制可以类似方式来完成。因为开口是插针存储器，如果CPU或GPU进程发生上下文切换，开口的内容不会丢失。这允许两个处理器异步地执行，这是非常关键的，因为两个处理器可能具有不同的操作系统并且因此上下文切换可能不是同步的。进一步的，开口空间可被映射到应用的用户空间中，由此实现用户级的CPU-GPU通信。这使得应用堆栈比起通过OS驱动器堆栈而言高效得多。

本发明的诸实施例可使用传统软件DSM和CPU-GPU平台之间的另一个差别。传统DSM被设计为规模在中型或大型群集。相反，CPU-GPU系统是非常小规模的群集。超过手持大小的GPU卡和CPU插槽在未来被良好使用几乎不太可能。此外，PCI开口提供了在不同处理器之间的方便共享的物理存储器空间。

本发明的诸实施例能够集中许多数据结构并使得实施更为高效。图5是利用PCI开口的共享存储器模型的一个实施例的流程图。序列500可被实现在固件、软件或硬件中。参考框510，将包括与共享地址区域中的页有关的元数据的目录放置在PCI开口中。元数据描述了CPU或GPU是否保持页的贵重副本(该页的主页)，包含了追踪页的更新次数的版本号、在更新页之前获取的互斥体(mutexes)、以及各种元数据。该目录可由页的虚拟地址来索引(框520)。CPU和GPU运行时系统都维持类似的私有结构，该私有结构包含页的本地访问许可以及页的本地版本号。

图6是操作中的共享存储器模型的一个实施例的流程图。序列500可被实现在固件、软件或硬件中。在一个实施例中，序列600可被实现在固件、软件或硬件中。当GPU执行获取操作时(框610)，对应的页可被设置为在GPU上是不可访问的(620)。在后续的读取操作时，如果在最后一次GPU获取之后页已经被CPU更新并释放(630)，则GPU上的页面错误管理器从CPU复制页(框640)。目录和私有版本号可被用于确定该情况。该页随后被设置为只读(框650)。在后续的写入操作时，页错误管理器创建页的备份副本，将页标记为可读写并递增页的本地版本号(框660)。在释放点，使用页的备份副本执行差异处理(diff)，并将更改发送到主页位置，同时递增目录版本号(框670)。差异处理(diff)操作计算两个页(即，页及其备份)之间存储器位置的差异，以寻找已经被执行的更改。CPU操作以对称的方式来完成。因此，在获取点和释放点之间，GPU和CPU超出它们的本地存储器和高速缓存而操作并仅仅在显式同步点上彼此进行通信。

在开始时，本实施方式确定将在CPU和GPU之间共享的地址范围，并确保该地址范围一直保持映射(诸如，使用Linux上的mmap)。该地址范围可以动态地增长，并不需要是连续的，虽然在64位地址空间中，运行时系统在最开始可能保留连续的块。

本发明的诸实施例可被实现在基于处理器的系统中，在一个实施例中该系统可包括耦合到芯片组的通用处理器。芯片组可耦合到系统存储器和图形处理器。图形处理器可耦合到帧缓冲器，并依次耦合到显示器。在一个实施例中，图1-6中示出的本发明的诸实施例可被实现为存储在计算机可读介质(诸如，系统存储器)中的软件。然而，本发明的诸实施例也可被实现为硬件或固件。

结论

本编程模型的诸实施例提供了用于CPU-GPU平台的共享存储器模型，其实现了CPU和GPU之间的细粒化一致性。可以为分离配置以及集成配置、以及多GPU和混合配置实现本统一编程模型。用户注释也被用于区分CPU和GPU执行的代码。可在CPU和GPU之间提供用户级通信，因此消除了OS驱动器调用的开销。可以为编程模型实现完全的软件堆栈，包括编译器和运行时支持。

在说明书通篇中提及的“一个实施例”、“实施例”意味着结合该实施例所描述的特定特征、结构或特性被包括在本发明内涵盖的至少一个实现中。因此，短语“一个实施例”或“在实施例中”的出现不一定是指同一个实施例。此外，还可以以除所示出的特定实施例以外的其他合适的形式构成该特定特征、结构或特性，所有这样的形式都可以涵盖在本申请的权利要求书内。

尽管本发明已针对有限数量的实施例作了描述，然而本领域技术人员将会从其中领会到许多修改和变型。所附权利要求旨在覆盖所有这样的修改和变型，只要其落在本发明的真实精神和范围内。

Claims

1.一种用于操作具有CPU和GPU的处理装置的方法，包括：

在所述CPU和所述GPU之间共享存储器语义，包括允许在CPU和GPU之间传递指针并共享数据结构；

允许共享存储器中存储的数据结构被CPU和GPU两者所访问；

确定CPU和GPU是否具有不同的页表和不同的虚拟到物理存储器翻译；以及

响应于不同的页表和不同的虚拟到物理存储器翻译，同步在CPU和GPU之间的虚拟地址内容以及不同物理地址的内容，包括：

在初始化时，将PCI开口的一部分映射到应用的用户空间，并使用任务队列、消息队列以及复制缓冲器来例示所述用户空间，所述PCI开口的一部分是对CPU和GPU都可访问的；

对于从CPU到GPU的页复制，将页从CPU地址空间复制到PCI开口中，并使GPU从PCI开口将页存取到其地址空间；以及

对于从GPU到CPU的页复制，将页从GPU地址空间复制到PCI开口中，并使CPU从PCI开口将页存取到其地址空间。

2.如权利要求1所述的方法，其特征在于，还包括：

在CPU和GPU之间共享地址，包括向存储器空间分配在CPU和GPU之间共享的数据结构。

3.如权利要求1所述的方法，其特征在于，还包括：在CPU和GPU之间共享虚拟地址，但使所述虚拟地址被映射到CPU和GPU上不同的物理地址。

4.如权利要求3所述的方法，其特征在于，向存储器空间分配在CPU和GPU之间共享的数据结构进一步包括：使用在存储器空间中分配数据的存储器分配函数。

5.如权利要求4所述的方法，其特征在于，向存储器空间分配在CPU和GPU之间共享的数据结构进一步包括静态变量的编程者注释，使这些变量被分配在共享存储器空间中。

6.如权利要求1所述的方法，其特征在于，还包括：当共享在存储器空间中的数据被CPU或GPU使用时，将共享在存储器空间中的数据在CPU和GPU存储器之间按需迁移。

7.如权利要求1所述的方法，其特征在于，还包括：将地址空间分割为CPU和GPU之间的共享地址空间以及对CPU或GPU私有的剩余地址空间；以及

将默认数据分配到私有空间。

8.如权利要求7所述的方法，其特征在于，指针的表示在共享和私有空间之间不发生改变。

9.如权利要求7所述的方法，其特征在于，还包括：

CPU或GPU指定其在共享虚拟地址空间中拥有特定的地址块。

10.如权利要求7所述的方法，其特征在于，CPU或GPU指定其在共享虚拟地址空间中拥有特定的地址块进一步包括：

当共享虚拟地址空间中的地址范围由CPU所拥有时，CPU知道GPU无法访问那些地址，并且不需要维持那些地址与GPU的一致性；以及

当CPU拥有的地址被GPU访问时，所述地址变为非拥有的。

11.如权利要求1所述的方法，其特征在于，所述PCI开口可以被映射到应用的用户空间，因此实现了用户级CPU和GPU通信。

12.如权利要求11所述的方法，其特征在于，还包括：

将包括与共享地址区域中的页有关的元数据的目录放置在PCI开口中，其中所述元数据指示CPU或GPU是否保持页的主页，包含了追踪对页的更新次数的版本号以及在更新页之前获取的互斥体。

13.如权利要求12所述的方法，其特征在于，所述目录可以通过页的虚拟地址来索引。

14.权利要求1所述的方法，其特征在于，GPU包括离散的设备或集成的设备或以不同配置的多个GPU的组合。

15.权利要求1所述的方法，其特征在于，进一步包括：对于多个图形卡和混合图形系统，统一地共享存储器语义。

16.一种共享存储器，其中在CPU和GPU之间共享数据结构并且可将指针从一侧传递到另一侧而不需要要求任何格式编组，使得共享存储器中的相同的指针可以被CPU和GPU中的每一个所访问，

其中允许共享存储器中存储的数据结构被CPU和GPU两者所访问；

所述共享存储器适于：

17.如权利要求16所述的共享存储器，其特征在于，场景图片位于共享存储器中，并且可以由CPU和GPU来访问。

18.如权利要求16所述的共享存储器，其特征在于，在CPU和GPU上运行不同的操作系统的情况下实现所述共享存储器。

19.如权利要求16所述的共享存储器，其特征在于，在GPU以分离设备附加到CPU上的情况下实现所述共享存储器。

20.如权利要求16所述的共享存储器，其特征在于，在集成CPU-GPU平台中实现所述共享存储器。

21.一种用于操作具有CPU和GPU的处理装置的设备，包括：

用于在所述CPU和所述GPU之间共享存储器语义，包括允许在CPU和GPU之间传递指针并共享数据结构的装置；

用于允许共享存储器中存储的数据结构被CPU和GPU两者所访问的装置；

用于确定CPU和GPU是否具有不同的页表和不同的虚拟到物理存储器翻译的装置；以及

用于响应于不同的页表和不同的虚拟到物理存储器翻译，同步在CPU和GPU之间的虚拟地址内容以及不同物理地址的内容的装置，包括：

22.如权利要求21所述的设备，其特征在于，进一步包括：

用于在CPU和GPU之间共享地址，包括向存储器空间分配在CPU和GPU之间共享的数据结构的装置。

23.如权利要求22所述的设备，其特征在于，进一步包括：

用于在CPU和GPU之间共享虚拟地址，并且使所述虚拟地址被映射到CPU和GPU上不同的物理地址的装置。