CN115952126B

CN115952126B - 一种gpu处理器系统

Info

Publication number: CN115952126B
Application number: CN202310239277.9A
Authority: CN
Inventors: 杨建�
Original assignee: Muxi Integrated Circuit Shanghai Co ltd
Current assignee: Muxi Integrated Circuit Shanghai Co ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-05-12
Anticipated expiration: 2043-03-14
Also published as: CN115952126A; US20240311953A1

Abstract

本发明涉及计算机领域，具体涉及一种GPU处理器系统，该系统包括N个GPU芯片和GPU芯片C_j所属显卡上的第一显存H1_j，C_j包括第一显存控制器MC1_j和第一跨芯片互连装置；系统还包括显存扩展装置，显存扩展装置E_i包括第二显存控制器MC2_i、第二显存H2_i和第二跨芯片互连装置SAC_i；第q个第一跨芯片互连装置FAC^j _q与SAC_i使用非QPI总线的互连总线互连；MC1_j不控制H2_i的访问，MC2_i不控制H1_j的访问；C_j外的其他GPU芯片不直接访问MC2_i，或通过FAC^j _q与SAC_i访问MC2_i，该系统在不更改第一显存控制器和GPU硬件架构的前提下，以较高兼容性和较低成本，增加GPU专用的独立显存。

Description

一种GPU处理器系统

技术领域

本发明涉及计算机领域，具体涉及一种GPU处理器系统。

背景技术

计算机领域中，典型的处理器包括中央处理单元（CPU，Central ProcessingUnit）和图形处理单元（GPU，Graphics Processing Unit）。通常，CPU访问的存储器被称之为“内存”，GPU访问的存储器被称之为“显存”，内存和显存可以为具有相同结构和/或参数的存储器，也可以为具有不同结构和/或参数的存储器。对内存进行控制的装置通常被称为内存控制器，对显存进行控制的装置通常被称为显存控制器。

CPU通过内存控制器访问内存，具体有两种情况。一种情况下，内存控制器与CPU分离设置，例如内存控制器被包含在北桥（North Bridge）芯片中，这种情况下，CPU通过前端总线（FSB，Front Side Bus）访问北桥芯片中的内存控制器，进而访问内存。另一种情况下，内存控制器集成在CPU中，这种情况下，CPU不需要使用前端总线就可以访问内存控制器，进而访问内存。进一步的，内存通常可插拔的安装在主板（Motherboard）的内存插槽中，示例性的，内存插槽可以为支持双列直插式存储模块（DIMM，Dual Inline Memory Modules）的插槽。

当CPU所需的内存容量不足时，由于内存是可插拔的，因此能够很方便的通过增加内存的数量或者更换容量较大的内存的方式扩展内存。进一步的，在内存插槽的数量不足时，还可以通过外接内存插槽的方式扩展内存，例如使用QPI总线和/或SMI（ScalableMemory Interconnect）链接外接内存扩展芯片的方式来扩展内存，使用QPI总线外接内存扩展芯片进行扩展内存的具体技术可以参考CN103488436B，使用QPI总线和SMI链接扩展内存的技术可以参考CN205091735U。显然，以上扩大内存容量的方式，只是改变了扩展内存的物理位置和内存与CPU之间的连接方式，并没有改变CPU、内存控制器和内存之间的架构，即CPU通过内存控制器访问扩展内存。

更进一步的，还可以采用对称多处理器（SMP，Symmetrical Multi Processing）的方式共享系统内存，或通过非均匀性内存访问(NUMA，Non Uniform Memory Access）的方式共享不同CPU的内存。

GPU包括集成显卡和独立显卡。

集成显卡的GPU被集成到主板上或者主板的其他芯片内部。集成显卡的GPU通常没有独立的显存，需要与CPU的共享内存，即可配置的部分内存供CPU使用，可配置的部分内存供GPU使用。这种情况下，GPU对内存的访问需要经过CPU的内存控制器，即访问路径包括GPU、CPU的内存控制器和内存。当GPU所需要的内存容量不足时，可以通过配置增加供GPU使用的内存。

独立显卡中集成的GPU是独立的芯片，被不可拆卸的固定在显卡上，显卡通过接口总线连接到主板上。示例性的，接口总线包括加速图形接口（AGP，Accelerate GraphicalPort）总线或PCIe（Peripheral Component Interconnect express）总线。示例性的，固定方式为焊接。独立显卡中的GPU通常内部集成了显存控制器并通过显存控制器访问独立显存。

早期独立显卡中的GPU在面对显存容量不足时，采用过类似CPU的处理方式，即通过显存插槽增加显存或更换更大容量的显存，显存插槽的位置可以在主板上，也可以在GPU所在的显卡上；还可以通过接口外接独立显存扩展卡的方式增加显存。示例性的，显存插槽位于主板上的技术可以参考中国专利CN203966018U、CN203720713U，显存插槽位于显卡上的技术可以参考影驰GeForce 6200A显卡（https://tech.sina.com.cn/h/2005-04-8/1027596611.shtml？from=wap），独立显存扩展卡的技术可以参考华硕AV264+显卡（https://www.163.com/mobile/article/BIGDIH0D0011309K.html）等。显然，以上扩大显容量的方式，也只是改变了显存和/或扩展显存的物理位置和显存与GPU之间的连接方式，并没有改变GPU、显存控制器和显存之间的架构，即GPU通过显存控制器访问扩展显存。

早期独立显卡中的GPU扩展显存的方法，存在以下技术问题：第一、可拆卸安装显存的插槽或者接口会占用显卡和/或主板的较多的物理空间，在GPU功能和/或性能提升较大的情况下，影响GPU所在显卡和/或主板上其他元件的放置；第二、在存储器功能和/或性能提升较大的情况下，插槽的引脚接口数量也有大幅度的上升，从而对GPU和显存之间的布线带来挑战。

为解决上述技术问题，与CPU和早期独立显卡中的GPU不同，高性能独立显卡的GPU的显存被封装在GPU中或者不可拆卸的固定在GPU所在的显卡上，以减少物理空间的占用并缓和布线带来的挑战。由于显存是不可改变的，因此高性能独立显卡的GPU的显存控制器通常不被专门设计成具有支持额外扩展显存的功能。示例性的，高性能独立显卡的GPU的显存为高带宽存储器（HBM，High Bandwidth Memory）或GDDR（GraphicsDouble Data Rate）。

高性能独立显卡的GPU中，显存控制器能够访问的显存通常被封装在GPU中或者不可拆卸的固定在GPU所在的显卡上。当面对显存容量不足时，主要有两种解决方案。一种解决方案是借鉴集成显卡访问内存的方式，共享CPU的内存，即GPU通过显卡与主板的接口，经CPU的内存控制器访问CPU的内存；示例性的，显卡与主板的接口例如是AGP总线或者PCIe总线。另一种是共享其他GPU的显存，即GPU通过跨芯片互连接口访问与GPU互连的其他GPU的显存，示例性的，跨芯片互连接口包括NVlink和/或NVSwitch。

高性能独立显卡的GPU扩展显存的方法，存在以下技术问题：由于GPU与CPU共享内存，或者GPU与其他GPU共享显存，在不更改GPU显存控制器的前提下，无法增加GPU和CPU的内存和/或显存上限，或者GPU和其他GPU的显存上限。当CPU或其他GPU也需要使用较多的内存或显存时，存在较为严重的内存或显存竞争。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种处理器系统，所采用的技术方案具体如下：

本发明一个实施例提供了一种GPU处理器系统，所述系统包括N个GPU芯片{C₁,C₂,…,C_j,…,C_N}和不可拆卸的固定在C_j所属显卡上的第一显存H1_j，其中，C_j为第j个GPU芯片，j的取值范围为1到N，N为GPU芯片的数量，N为正整数；所述C_j包括不可更改的第一显存控制器MC1_j和N1(j)个第一跨芯片互连装置{FAC^j ₁,FAC^j ₂,…,FAC^j _q,…,FAC^j _N1(j)}，FAC^j _q为C_j的第q个第一跨芯片互连装置，q的取值范围为1到N1(j)，N1(j)的函数值为正整数；所述MC_j用于控制所述H1_j的访问；所述系统还包括M个独立的显存扩展装置{E₁,E₂,…,E_i,…,E_M}，E_i为第i个显存扩展装置，i的取值范围为1到M，M为显存扩展装置的数量，M为正整数；E_i包括第二显存控制器MC2_i、第二显存H2_i和第二跨芯片互连装置SAC_i；所述MC2_i用于控制所述H2_j的访问。

所述FAC^j _q与SAC_i使用非QPI总线的互连总线互连。

所述MC1_j不控制所述H2_i的访问，所述MC2_i不控制所述H1_j的访问。

所述C_j外的其他处理器不能访问所述MC2_i，或者通过所述FAC^j _q与SAC_i访问所述MC2_i。

本发明具有如下有益效果：

本发明提供的一种GPU处理器系统通过GPU芯片的第一跨芯片互连装置与显存扩展装置的第二跨芯片互连装置连接，GPU芯片通过第一、二跨芯片互连装置访问第二显存控制器，进而访问第二显存，不需要改变高性能GPU内部的第一显存控制器，也不需要更换与第一显存控制器不可拆卸连接的第一显存，也即能够在不更改GPU的第一显存控制器的硬件结构和GPU整体硬件架构的前提下，以较高的兼容性和较低的成本，增加GPU专用的独立显存。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明实施例所提供的一种GPU处理器系统的系统框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种GPU处理器系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种GPU处理器系统的具体方案。

请参阅图1，GPU处理器系统包括N个GPU芯片{C₁,C₂,…,C_j,…,C_N}和不可拆卸的固定在C_j所属显卡上的第一显存H1_j，其中，C_j为第j个GPU芯片，j的取值范围为1到N，N为GPU芯片的数量，N为正整数；所述C_j包括不可更改的第一显存控制器MC1_j和N1(j)个第一跨芯片互连装置{FAC^j ₁,FAC^j ₂,…,FAC^j _q,…,FAC^j _N1(j)}，FAC^j _q为C_j的第q个第一跨芯片互连装置，q的取值范围为1到N1(j)，N1(j)的函数值为正整数；所述MC1_j用于控制所述H1_j的访问。

可选的，C_j为高性能GPU芯片。高性能GPU芯片内部具有与第一总线连接的第一跨芯片互连装置的接口。

优选的，GPU芯片为图形处理器、通用图形处理器或者AI处理器。

优选的，H1_j为符合HBM或者GDDR标准的显存。

需要说明的是，第一显存控制器集成于GPU内部，为GPU内部重要的组成单元。第一显存控制器连接第一显存，当第一显存为HBM时，第一显存与GPU芯片封装在一起；当第一显存为GDDR时，第一显存焊接在GPU芯片所属的显卡上。

进一步，所述系统还包括M个独立的显存扩展装置{E₁,E₂,…,E_i,…,E_M}，E_i为第i个显存扩展装置，i的取值范围为1到M，M为显存扩展装置的数量，M为正整数；E_i包括第二显存控制器MC2_i、第二显存H2_i和第二跨芯片互连装置SAC_i；所述MC2_i用于控制所述H2_i的访问。

其中，E_i不包括GPU和/或CPU芯片。

优选的，H2_i的容量大于H1_j的容量，且H2_i的带宽小于H1_j的带宽。

优选的，第二显存H2_i为符合DDR标准或LPDDR标准的显存。

可选的，第二显存H2_i可拆卸的固定在E_i上，其中可拆卸的固定方式为：第二显存控制器MC2_i通过DIMM接口与第二显存H2_i互连，DIMM接口方便拔插，方便更换第二显存。

可选的，E_i包括M(i)个第二显存控制器MC2_i和M(i)个第二显存H2_i，其中M(i)个第二显存H2_i可以是全部都符合DDR标准的显存；也可以是全部都符合LPDDR标准的显存；还可以是一部分第二显存为符合DDR标准，剩余的第二显存符合LPDDR标准。

进一步，FAC^j _q与SAC_i使用非QPI总线的互连总线互连。

其中，FAC^j _q和SAC_i符合同一种互连总线协议。FAC^j _q与SAC_i的结构相同，包括物理层、适配层和协议层。

可选的，FAC^j _q和SAC_i的互连协议带宽高于PCIe总线的带宽。

优选的，FAC^j _q和SAC_i使用符合MetaX Link、NVLink、Infinity Fabric或者UCIe标准的总线互连。可以理解的是，NVLink 1.0的带宽最大能够达到160GB/s，NVLink 2.0的带宽最大能够达到300GB/s，MetaX Link的带宽最大能够达到128GB/s；而PCIe连接的GPU通信双向带宽最大能够达到32GB/s；因此，搭载NVLink 1.0的显存扩展装置的带宽是PCIe的5倍左右，搭载NVLink 2.0的显存扩展装置的带宽是PCIe的9倍左右，搭载MetaX Link的显存扩展装置的带宽是PCIe的4倍。

优选的，FAC^j _q和SAC_i符合UCIe标准，符合UCIe标准的互连装置相较于符合NVLink标准和Infinity Fabric标准的互连装置的功耗更低。

其中，FAC^j _q和SAC_i为点对点的连接方式，点对点连接在物理设计上更加简单并且能够使控制逻辑也更加简单。FAC^j _q和SAC_i用于实现芯片与显存扩展装置之间的互连，相对于通过PCIe共享内存的方式物理传输的距离短，能够大幅度降低数据传输的延时问题。其中，FAC^j _q和SAC_i进行点对点连接所需满足的条件为：当FAC^j _q和SAC_i互连时，FAC^j _p和SAC_i不互连，且FAC^j _q和SAC_k不互连，其中，FAC^j _p为C_j的第p个第一跨芯片互连装置，SAC_k为第k个显存扩展装置E_k中的第二跨芯片互连装置，p≠q，i≠k。

优选的，当第j个GPU芯片C_j的第q个第一跨芯片互连装置FAC^j _q与第k个GPU芯片C_k的第p个第一跨芯片互连装置FAC^k _p互连时，不能与所述SAC_i互连。或者当FAC^j _q与GPU芯片的第一跨芯片互连装置互连时，不能与所述SAC_i互连。

可选的，当N=1且M=1时，GPU处理器系统中包括一个GPU芯片以及连接GPU芯片的一个显存扩展装置，为一对一的扩展结构。

可选的，当N=1且M>1时，GPU处理器系统中包括一个GPU芯片以及连接GPU芯片的M个显存扩展装置，为一对多的扩展结构。

可选的，当N>1且M>1时，GPU处理器系统中可以包括一对一的扩展结构或者一对多的扩展结构；进一步，处理器系统中还可以同时包括一对一的扩展结构和一对多的扩展结构。

进一步，MC1_j不控制H2_i的访问，所述MC2_i不控制H1_j的访问。

可以理解的是，C_j通过MC1_j访问H1_j，并通过MC2_i访问H2_i，H1_j和H2_i均为C_j的专用显存，且MC2_i仅被C_j直接访问，该方式不仅能够解决共享内存或者显存导致的资源竞争的问题，同时扩展的专用显存突破了容量上限。

其中，H1_j和H2_i采用统一编址的方式。具体的，C_j包括地址翻译单元，通过地址翻译单元对H1_j和H2_i做统一的地址转换。

可选的，C_j还包括第一接口总线，用于和CPU共享内存。可选的，第一接口总线为AGP总线或PCIe总线。需要说明的是，共享内存是将内存中的一部分作为C_j专用的显存，另一部分作为CPU专用的内存。也即，C_j通过第一接口总线访问CPU的内存控制器，进而经由CPU的内存控制器访问内存中作为C_j专用显存的存储空间。

可选的，H2_i的带宽大于CPU共享的内存。

进一步，所述C_j外的其他GPU芯片不能直接访问MC2_i，或者通过FAC^j _q与SAC_i访问所述MC2_i。

优选的，E_i还包括数据读写控制器RWC_i，RWC_i与MC2_i连接；SAC_i与RWC_i连接；当RWC_i接收C_j通过FAC^j _q和SAC_i发送的第一访问命令时，RWC_i将第一访问命令转换为第二访问命令，并发送给第二显存控制器MC2_i；所述第一访问命令不能被第二显存控制器MC2_i识别，且所述第二访问命令能够被第二显存控制器MC2_i识别。

其中，RWC_i用于命令格式的转化，当RWC_i接收到的第一访问命令不能被MC2_i识别时，RWC_i将第一访问命令转换为第二访问命令，并通过第二总线发送给MC2_i，由MC2_i向H2_i下发读写任务。当第一访问命令为读数据命令时，H2_i将返回数据依次通过MC2_i、第二总线、RWC_i、SAC_i、FAC^j _q返回给C_j，其中返回的过程与访问的过程是互逆的过程，需要将第二访问命令转换为第一访问命令。其中，第一访问命令和第二访问命令的命令格式不同，具体的，在C_j与E_i之间传输的第一访问命令的数据包大于在E_i内部传输的第二访问命令的数据包，例如，第一访问命令的数据包中包括128Byte的读写命令，第二访问命令的数据包中包括32Byte的读写命令。将第一访问命令转换为第二访问命令之前包括：SAC_i将接收到的第一访问命令进行解析得到多个读写命令，并将读写命令以4KB的虚拟页为单位发送32Byte-256Byte的读写命令给数据读写控制器RWC_i，使RWC_i将读写命令重新打包为第二访问命令。

可选的，第二总线的协议为AXI总线协议。

优选的，显存扩展装置通过FPGA或者ASIC设计实现。

综上所述，本发明提供的一种处理器系统通过GPU的第一跨芯片互连装置连接显存扩展装置，GPU通过第一、二跨芯片互连装置访问第二显存控制器，进而访问第二显存，第二显存控制器不被其他处理器访问，第一显存控制器不访问第二显存，第二显存控制器不访问第一显存，使第二显存作为GPU专用的显存，不需要改变高性能GPU内部的第一显存控制器，也不需要更换与第一显存控制器不可拆卸连接的GDDR或者HBM，也即能够在不更改GPU的显存控制器的硬件结构和GPU整体硬件架构的前提下，以较高的兼容性和较低的成本，增加GPU专用的独立显存。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种GPU处理器系统，所述系统包括N个GPU芯片{C₁,C₂,…,C_j,…,C_N}和不可拆卸的固定在C_j所属显卡上的第一显存H1_j，其中，C_j为第j个GPU芯片，j的取值范围为1到N，N为GPU芯片的数量，N为正整数；所述C_j包括不可更改的第一显存控制器MC1_j和N1(j)个第一跨芯片互连装置{FAC^j ₁,FAC^j ₂,…,FAC^j _q,…,FAC^j _N1(j)}，FAC^j _q为C_j的第q个第一跨芯片互连装置，q的取值范围为1到N1(j)，N1(j)的函数值为正整数；所述MC1_j用于控制所述H1_j的访问；其特征在于，所述系统还包括M个独立的显存扩展装置{E₁,E₂,…,E_i,…,E_M}，E_i为第i个显存扩展装置，i的取值范围为1到M，M为显存扩展装置的数量，M为正整数；E_i包括第二显存控制器MC2_i、第二显存H2_i和第二跨芯片互连装置SAC_i；所述MC2_i用于控制所述H2_i的访问；

所述FAC^j _q与SAC_i使用非QPI总线的互连总线互连；

所述MC1_j不控制所述H2_i的访问，所述MC2_i不控制所述H1_j的访问；

所述C_j外的其他GPU芯片不能直接访问所述MC2_i，或者通过所述FAC^j _q与SAC_i访问所述MC2_i。

2.根据权利要求1所述的系统，其特征在于，当第j个GPU芯片C_j的第q个第一跨芯片互连装置FAC^j _q与第k个GPU芯片C_k的第p个第一跨芯片互连装置FAC^k _p互连时，不能与所述SAC_i互连。

3.根据权利要求2所述的系统，其特征在于，所述FAC^j _q与SAC_i使用符合MetaX Link、NVLink、Infinity Fabric或者UCIe标准的总线互连。

4.根据权利要求1所述的系统，其特征在于，所述H2_i的容量大于所述H1_j的容量，且所述H2_i的带宽小于所述H1_j的带宽。

5.根据权利要求4所述的系统，其特征在于，所述H1_j为符合HBM或者GDDR标准的显存。

6.根据权利要求4所述的系统，其特征在于，所述H2_i为符合DDR标准或LPDDR标准的显存。

7.根据权利要求1所述的系统，其特征在于，所述E_i还包括数据读写控制器RWC_i，RWC_i与MC2_i连接；SAC_i与RWC_i连接；

当RWC_i接收C_j通过FAC^j _q和SAC_i发送的第一访问命令时，RWC_i将第一访问命令转换为第二访问命令，并发送给第二显存控制器MC2_i；所述第一访问命令不能被第二显存控制器MC2_i识别，且所述第二访问命令能够被第二显存控制器MC2_i识别。

8.根据权利要求1所述的系统，其特征在于，所述H2_i通过DIMM接口与MC2_i连接。

9.根据权利要求1所述的系统，其特征在于，所述GPU芯片为图形处理器、通用图形处理器或者AI处理器。

10.根据权利要求3所述的系统，其特征在于，所述FAC^j _q与SAC_i均包括物理层、适配层和协议层。

11.根据权利要求1所述的系统，其特征在于，所述显存扩展装置通过FGPA或ASIC设计实现。