CN111916120B

CN111916120B - 带宽提升的堆叠存储器

Info

Publication number: CN111916120B
Application number: CN202010384818.3A
Authority: CN
Inventors: 克里希纳·泰贾·马拉迪; 张牧天; 牛迪民; 郑宏忠
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-05-10
Filing date: 2020-05-08
Publication date: 2022-05-24
Anticipated expiration: 2040-05-08
Also published as: US10915451B2; TW202042066A; JP2020187747A; US20210141735A1; KR20200130113A; JP7473386B2; US11513965B2; TWI817008B; US20230087747A1; US20200356488A1; CN111916120A

Abstract

一种高带宽存储器系统。在一些实施例中，所述系统包括：具有多个存储器芯片和八个128位通道的存储器堆叠；以及逻辑芯片，存储器芯片堆叠在逻辑芯片上并连接到逻辑芯片；其中逻辑芯片可以被配置为在以下模式中操作128位通道中的第一通道：第一模式，其中前64位以伪通道模式操作，并且后64位作为两个32位细粒度通道操作；或者第二模式，其中前64位作为两个32位细粒度通道操作，并且后64位作为两个32位细粒度通道操作。

Description

带宽提升的堆叠存储器

相关申请的交叉引用

本申请要求2019年5月10日递交的题为“带宽提升的堆叠存储器(BANDWIDTHBOOSTED STACKED MEMORY)”的美国临时申请No.62/846,406的优先权和权益，其全部内容以引用方式并入于此。

技术领域

根据本发明的实施例的一个或多个方面涉及高带宽存储器，并且更具体地涉及一种增加高带宽存储器的带宽利用率的系统和方法。

背景技术

高带宽存储器(HBM)是用于三维(3D)堆叠动态RAM(DRAM)的高性能(RAM)接口。诸如深度神经网络之类的新兴应用需要大量的计算和存储能力，以便在不同的数据集上进行训练并以高精度学习。对于此类应用，高存储器带宽变得至关重要。存储器带宽可以用内核带宽和总线带宽来描述。当共享同一总线时，随着堆叠的DRAM芯片数量的增加，总线带宽成为存储器性能的限制因素。

因此，需要灵活的系统架构和操作方法，这些架构和方法不需要对DRAM内核或总线进行大量或昂贵的更改，并且可以帮助增加HBM系统的有效存储器带宽。

发明内容

本公开的实施例的各方面针对用于高带宽存储器(HBM)系统的系统和方法，以提高HBM系统的存储器带宽利用率。本系统和方法将对核心HBM芯片的外围架构的一系列修改与堆叠逻辑芯片的操作改进相组合，以提高存储器带宽利用率。旨在可以单独地或共同地实施这些修改，以为存储器提供增加的有效带宽。

在本发明的一些实施例中，高带宽存储器系统包括：具有多个存储器芯片和八个128位通道的存储器堆叠；以及逻辑芯片，存储器芯片堆叠在逻辑芯片上并连接到逻辑芯片；其中逻辑芯片可以被配置为在以下模式中操作128位通道中的第一通道：第一模式，其中前64位以伪通道模式操作，并且后64位作为两个32位细粒度通道操作；或者第二模式，其中前64位作为两个32位细粒度通道操作，并且后64位作为两个32位细粒度通道操作。

在本发明的一些实施例中，高带宽存储器系统包括：具有多个存储器芯片和八个全宽通道的存储器堆叠；以及逻辑芯片，存储器芯片堆叠在逻辑芯片上并连接到逻辑芯片；其中，逻辑芯片被配置为在以下模式中操作全宽通道中的第一通道：第一模式，其中第一通道的第一半部分以伪通道模式操作，并且第一通道的第二半部分作为两个四分之一宽细粒度通道操作；或第二模式，其中第一通道的第一半部分作为两个四分之一宽细粒度通道操作，并且第一通道的第二半部分作为两个四分之一宽细粒度通道操作。

根据本发明的一些实施例，逻辑芯片可以被配置为在第一模式下操作第一通道，并且在第二模式下操作128位通道中的第二通道。

根据本发明的一些实施例，逻辑芯片被配置为在第一模式下操作第一通道，并且在第二模式下操作全宽通道中的第二通道。

根据本发明的一些实施例，逻辑芯片可以能够在运行时将第一通道从以第一模式操作改变为以第二模式操作。

在本发明的一些实施例中，第一通道的模式可以被配置为通过第一通道的模式寄存器来在运行时控制。

在本发明的一些实施例中，第一通道的模式可以被配置为通过预留给将来使用的管脚来在运行时控制。

根据本发明的一些实施例，逻辑芯片可以进一步被配置为在第一模式下操作第一通道，对于前64位，突发长度为2。

根据本发明的一些实施例，逻辑芯片可以进一步被配置为在第一模式下操作第一通道，对于第一通道的第一半部分，突发长度为2。

根据本发明的一些附加实施例，逻辑芯片可以进一步被配置为在第二模式下操作第一通道，对于32位细粒度通道中的第一细粒度通道，突发长度为2。

根据本发明的一些附加实施例，逻辑芯片可以进一步被配置为在第二模式下操作第一通道，对于四分之一宽细粒度通道中的第一细粒度通道，突发长度为2。

根据本发明的一些实施例，全宽通道可以具有128位的宽度。

在本发明的一些实施例中，高带宽存储器系统包括：多个堆叠的存储器芯片、八个通道和逻辑芯片，堆叠的存储器芯片堆叠在逻辑芯片上并连接到逻辑芯片；每个存储器芯片具有多个存储体，每个存储体包括多行和多列；八个通道中的第一通道被配置为可操作作为以下任何一个：单个128位通道，两个64位伪通道，一个64位伪通道和两个32位细粒度通道，或四个32位细粒度通道；其中，逻辑芯片能够被配置为在所述多个存储体中的行和列中与第一通道相关联的行和列处的数据访问之后返回数据突发，数据突发的突发长度小于对应于256位事务(transaction)的突发长度。

在本发明的一些实施例中，高带宽存储器系统包括：多个堆叠的存储器芯片、八个通道和逻辑芯片，堆叠的存储器芯片堆叠在逻辑芯片上并连接到逻辑芯片；每个存储器芯片具有多个存储体，每个存储体包括多行和多列；八个通道中的第一通道被配置为可操作作为以下任何一个：单个全宽通道，两个半宽伪通道，一个半宽伪通道和两个四分之一宽细粒度通道，或四个四分之一宽细粒度通道；其中，逻辑芯片能够被配置为在所述多个存储体中的行和列中与第一通道相关联的行和列的数据访问之后返回数据突发，数据突发的突发长度小于对应于256位事务的突发长度。

在本发明的一些实施例中，逻辑芯片可以被配置为将第一通道操作为突发长度小于4的两个64位伪通道。

在本发明的一些实施例中，逻辑芯片可以被配置为将第一通道操作为突发长度小于4的两个半宽伪通道。

在本发明的一些实施例中，逻辑芯片被配置为将第一通道操作为突发长度为2或更小的四个32位细粒度通道。

在本发明的一些实施例中，逻辑芯片被配置为将第一通道操作为突发长度为2或更小的四个四分之一宽细粒度通道。

在本发明的一些实施例中，逻辑芯片可以被配置为使用预留给将来使用的管脚来接收指示要返回的突发长度的信号。

在本发明的一些实施例中，逻辑芯片可以被配置为从主机处理器接收指示突发长度的信号。

根据本发明的一些实施例，主机处理器可以是中央处理单元。

根据本发明的一些附加实施例，主机处理器可以是图形处理单元。

在本发明的一些实施例中，一种用于在具有高带宽存储器和主机处理器的系统中进行存储器寻址的方法包括：使用第一地址映射功能执行多个存储器访问；评估利用第一地址映射功能的映射空间局部性的第一程度；评估利用第二地址映射功能的映射空间局部性的第二程度；关闭所述系统；重新启动所述系统；确定映射空间局部性的第二程度是否超过第一映射空间局部性的第一程度；以及响应于确定映射空间局部性的第二程度超过映射空间局部性的第一程度，使用第二地址映射功能执行多个存储器访问。

根据本方法的一些实施例，高带宽存储器包括逻辑芯片；使用第一地址映射功能执行多个存储器访问包括：由主机处理器使用第一地址映射功能执行多个存储器访问；以及评估映射空间局部性的第一程度和评估映射空间局部性的第二程包括：在主机处理器不访问高带宽存储器的时间间隔内，由逻辑芯片评估映射空间局部性的第一程度和映射空间局部性的第二程度。

根据本方法的一些实施例，第二地址映射功能可以从多个预编程的地址映射功能中选择。

根据本方法的一些实施例，第二地址映射功能可以由逻辑芯片使用预留给将来使用的管脚传送到主机处理器。

根据本方法的一些实施例，主机处理器可以是图形处理单元。

根据本方法的一些附加实施例，主机处理器可以是中央处理单元。

附图说明

参考说明书、权利要求和附图，将明白和理解本发明的这些及其他特征和优点，在附图中：

图1是根据本公开实施例的结合逻辑处理器、硅(Si)中介层(interposer)、PCB基板和母板的高带宽存储器堆叠的剖视图。

图2是根据本公开实施例的包括将DRAM堆叠链接到逻辑处理器的存储器通道的高带宽存储器系统的图示。

图3是示出了根据本公开实施例的存储器通道如何在不同模式下独立地运行的框图。

具体实施方式

以下结合附图给出的详细描述旨在作为对根据本发明的高带宽存储器系统的示例实施例的描述，而不是要表示可以构建或利用本发明的唯一形式。描述结合所示实施例阐述了本发明的特征。然而，应该理解，相同或等同的功能和结构可以通过不同的实施方式来实现，这些实施方式也意图包含在本发明的精神和范围内。如本文其他地方所示，相似的元件编号旨在表示相似的元件或特征。

高带宽存储器(HBM)是高性能的三维(3D)堆叠动态随机存取存储器(DRAM)。第二代高带宽存储器每个堆叠最多可包含12个芯片，并提供2.4GT/s(每秒千兆传输)或更快的管脚传输速率。堆叠芯片与存储器利用组件(例如，图形处理单元(GPU)或中央处理单元(CPU))之间的接口可以包括8个通道，每个通道128位宽，总共1024位宽访问。第二代高带宽存储器可以达到每个封装307GB/s或更高的存储器带宽，并且存储容量可以高达甚至可能超过每个封装12GB。第二代高带宽存储器系统的接口可以符合联合电子设备工程委员会(JEDEC)接受的标准JESD235B。

如图1所示，HBM系统100可以包括堆叠在逻辑芯片120的顶部上的多个堆叠DRAM芯片110。图1描绘了在逻辑芯片120的顶部上的4个DRAM芯片110的堆叠(称为4-hi配置)的剖视图。如本领域技术人员所知，在堆叠下使用逻辑芯片120可以是可选的。在本发明的范围内可以使用其他配置，例如但不限于2-hi、8-hi和12-hi。DRAM芯片110可以通过硅通孔(TSV)180和多个微凸块连接。如图1所示，接口190可以将HBM堆叠连接到主机处理器140。本文所使用的术语“主机处理器”和“逻辑处理器”在全文中可以互换使用，以表示存储器利用组件，例如但不限于图形处理单元(GPU)、中央处理单元(CPU)或本领域技术人员所知的任何其他存储器利用组件。

图2描绘了使用包括八个128位通道130的接口190与逻辑芯片120接口的HBM堆叠的俯视图。该堆叠可以包括DRAM芯片110，每个DRAM芯片包括与多个通道130相关联的多个存储体112。为简单起见，在图2中示出了每个芯片110的减少数量的存储体112。通道130可以彼此独立，并且每个通道130可以具有其自己的数据总线以及其自己的命令和地址总线。

如图2所示，HBM堆叠与主机处理器140之间的接口190可以包括在硅中介层(interposer)150内创建通道130A-130H(统称为通道130)的多个导电路径(或“迹线”)。在本文中，作为单个128位通道操作的通道将被称为“传统”通道。如本领域技术人员所知，可以替代地使用硅中介层150的合适替代物。硅中介层150可以耦接到PCB基板160，而PCB基板160又可以耦接到另一组件，例如但不限于母板170。

对于更高的HBM堆叠，例如8-hi和12-hi配置，存储器总线的带宽利用率可能越来越重要。对于需要大量计算能力和存储器带宽的应用例如深度神经网络和高性能计算(HPC)尤其如此。当前，使用在“伪(pseudo)通道模式”下操作的HBM堆叠可以产生额外的有效带宽，在伪通道模式中每个通道作为2个半独立的64位通道操作。在这种模式下，一对伪通道可以共享一条数据总线(每个通道使用原始128位中的64位)以及一条命令和地址总线，但是可以被配置为单独解码和执行命令。这增加了有效通道的数量，并可以导致更高的带宽利用率。然而，随着对存储器带宽的需求增加，例如源自越来越强大的GPU等，甚至伪通道模式也无法完全利用HBM系统100的接口190提供的总线带宽。

作为非限制性示例，即使在伪通道模式下，随着堆叠中DRAM芯片110的数量增加，依赖于与该伪通道相关联的数据总线的储存体的数量也增加。在伪通道模式下，堆叠中的每个储存体被分为2个子存储体。将每个存储体分成一对子存储体，有效地将通道130可以利用的存储体的数量加倍，而无需更改JESD235B标准中规定的命令和地址总线。另外，由于可以按交错顺序刷新子存储体，因此可以确保数据总线的饱和度更高，这提高了带宽利用率。每个存储体可以以更细的数据粒度独立操作，从而可以更好地利用数据总线，而不会导致数据过取(overfetch)/浪费。

在以伪通道模式运行的2-hi配置中，只有8个子存储体共享64位数据总线。在这样的配置中，每个子存储体使用堆叠的每个级别中的两个TSV阵列，并且带宽受诸如DRAM内核的时序参数之类的因素限制。但是，例如在8-hi配置中，有32个子存储体共享与伪通道关联的64位总线。作为非限制性示例，如果核心时钟速度为1.2GHz(对应于JESD235B标准支持的每个管脚2.4Gbps的数据速率)，则周期(cycle)时间为0.83ns。当在伪通道模式(在突发长度(BL)为4的标准下操作)下操作时，由于存储器的双倍数据速率操作，因此对存储体或子存储体的每次访问都需要2个时钟周期。如果所有32个子存储体都完全共享64位总线，则对于所有32个子存储体的突发访问需要32×2＝64个时钟周期。64个时钟周期乘以周期时间得到大约53ns的突发时间。该时间大于DRAM存储器的行周期时间(tRC)，作为非限制性示例，行周期时间可以为大约46ns。因此，存储器的数据吞吐量将受到总线的限制，并且随着HBM堆叠的高度增加到12-hi甚至16-hi堆叠，这将相应地变得更差。

本发明实施例的各方面旨在通过引入对数据访问的粒度的附加控制来提高HBM系统100的存储器带宽利用率。在本发明的一些实施例中，通道粒度被进一步细化为32位。在本文所中，128位通道可以被称为“全宽通道”，64位通道也可以被称为“半宽通道”或“半宽伪通道”，而32位宽的通道可以称为“细粒度”通道，或称为“四分之一宽细粒度通道”。粒度的细化允许通道130在以下模式下操作：(i)第一模式，其中通道130作为两个半宽伪通道来操作(例如，其中全宽通道的第一半部分(例如，前64位)在伪通道模式下操作，并且全宽通道的第二半部分(例如，后64位)在伪通道模式下操作)；(ii)第二模式，其中通道130作为四个四分之一宽细粒度通道来操作，例如，其中全宽通道的第一半部分(例如，前64位)作为两个四分之一宽细粒度通道操作，全宽通道的第二半部分(例如，后64位)作为两个四分之一宽细粒度通道操作；以及(iii)128位“传统”模式，其中通道130作为单个通道操作。应理解，在一些实施例中，全宽通道的宽度可以不同于128位，并且半宽和四分之一宽通道的宽度也可以相应地不同于64位和32位。

这相应地增加了有效通道的数量。这也创建了存储体的额外划分，传统模式下的1个存储体现在变为细粒度通道模式下的4个子存储体。子存储体的额外划分导致子存储体的数量相应增加，每个子存储体具有新的索引参数。在一些实施例中，可以使用管脚(可以是“预留供将来使用”(RFU)管脚，BA5管脚(如下文进一步详细讨论)，或在封装接口中添加的不属于当前JESD235B标准的新管脚)实现在细粒度通道模式下对子存储体的索引。这样的实施例可能不需要进一步改变与子存储体相关联的DWORD或AWORD。例如，在伪通道模式下，存储体地址(BA)管脚4用于索引子存储体。同样，可以使用额外的管脚将子存储体的额外划分索引为四分之一，以便使用细粒度通道模式。在一些实施例中，如4-hi配置的实施例，可以使用BA5管脚(如上所述)。在高于4的堆叠中，其中BA5用于索引堆叠ID，可以使用另一管脚作为替代，在一些实施例中，该管脚为RFU管脚。使用RFU管脚可能会带来风险，即将来对JESD235B标准进行更新可能会为此管脚分配功能，该功能可能与其用作细粒度通道模式的索引管脚不一致。使用BA5管脚可能不会带来这种风险，但是在大于4-hi的堆叠中，BA5引脚可能无法用作细粒度通道模式的索引管脚。使用不属于当前JESD235B标准且添加到封装接口的新管脚可能具有导致封装与JESD235B不兼容的缺点。由于细粒度通道模式进一步将原始存储体划分为四分之一，因此与每个细粒度通道关联的通用输入/输出(GIO)的数量会减少，当从伪通道模式转换为细粒度通道模式时，GIO大小将从64减少到32。

此外，本发明的各方面还涉及逻辑芯片120的配置，以允许8个通道130中的每一个在128位传统通道模式、64位伪通道模式或32位细粒度通道模式下独立地操作。这可以通过使用每个通道两个模式寄存器位(每个通道可以具有一组控制其配置的模式寄存器)指定通道配置(例如，两个位中的第一位指定通道的第一伪通道是否被进一步划分为两个细粒度通道，并且第二位指定通道的第二伪通道是否被进一步划分为两个细粒度通道)来实现。模式寄存器位可以是JESD235B标准定义的模式寄存器中现有未使用的位，也可以是新增的位(例如，未由该标准定义的寄存器中的位)。例如，可以使用MR9OP[1：0]，具有以下可能的值和相应的操作模式：

00：x128

01：x64+x64

10：x32+x32+x64

11：x32+x32+x32+x32

在其他实施例中，DEVICE_ID包装器数据寄存器可以扩展，例如，位[17：16]具有以下可能的值和相应的操作模式：

10：仅x128

01：仅x64

00：支持x128+x64，并且可以通过模式寄存器编程

11：支持x128+x64+x32，并且可以通过模式寄存器编程

根据JESD235B标准，HBM DRAM根据通道密度定义了两种操作模式。对不同操作模式的支持通过设计固定，并在DEVICE_ID包装器寄存器的位[17：16]上指示。为了包括细粒度通道，可以以上述方式扩展DEVICE_ID，从而可以使用2位来编码x128、x64、x32模式。

在一些实施例中，模式寄存器可以在逻辑芯片120内。在一些替代实施例中，模式寄存器在DRAM芯片110内。在某些情况下，较小通道宽度操作可以提供更好的带宽利用率和数据传输效率。在对存储器进行的数据访问具有低空间局部性(spatial locality)的情况尤其如此。

本发明实施例的另一方面涉及通过提供如下逻辑芯片120来进一步细化访问粒度，该逻辑芯片120被配置为以截短的突发长度(BL)来操作接口通道130。例如，可以通过将伪通道的突发长度从4减小到由逻辑管芯120配置的较小值(例如，BL＝2)来实现更精细的访问粒度。通常，在伪通道模式下，通道以32字节事务(transaction)大小操作。这是通过在64位接口上使用BL＝4来实现的，对于小于指定的32字节取操作(fetch)的事务大小，这可能是低效的。但是，当所访问的数据的粒度较小且空间局部性降低时，这可能会降低效率，因为这会导致花费时间预取(prefetch)的数据将不能用于越来越多的访问。

因此，本发明实施例的一些方面旨在使逻辑芯片120能够对截短的突发长度进行编程以细化访问粒度。作为非限制性示例，以传统的BL＝4模式运行的64位伪通道具有32字节(或“32B”)的访问粒度。这与以BL＝2模式运行的传统通道130相同。然而，根据本发明的各方面，伪通道可以在对应于16B访问粒度的BL＝2下运行。此外，在更精细的防问粒度更为有效的情况下，可以按例如BL＝2操作细粒度通道，从而获得8B访问粒度。因此，逻辑芯片120还可被配置为以突发长度为1操作通道130(为了方便术语，单个数据字在本文中被称为突发长度为1的“突发”)。在一些实施例中，通道配置可以基于所访问的数据的类型以及对存储在DRAM芯片110中的数据进行的访问的空间局部性。应该理解，提供这些先前的示例仅是为了帮助说明本发明的实施例的截短突发方面的功能，并且旨在是非限制性的。

在一些实施例中，逻辑芯片120可以被配置为独立地为传统通道、伪通道或细粒度通道各自提供减小的突发长度操作(即，具有的突发长度导致小于256位事务大小的操作)。可以使用各种方法来命令逻辑芯片120在任何这种模式组合中操作。例如，一个或多个预留给将来使用(RFU)管脚可以用于将命令减小的突发长度的信号传送到逻辑芯片120(使用的管脚数量(每个都用作控制位)取决于所要支持的模式数量，如下文进一步详细讨论)。在其他实施例中，突发长度的配置可以由一个或多个模式寄存器位(例如，JESD235B标准中定义的模式寄存器中的未使用位)或添加位(例如，JESD235B中未定义的添加寄存器中的位)确定。在一些实施例中，每个传统通道、伪通道或细粒度通道的突发长度被独立地控制为例如标准长度(对于细粒度通道BL＝8，对于伪通道BL＝4，并且对于传统通道BL＝2)、半长度(例如，对于细粒度通道BL＝4)、四分之一长度(例如，对于细粒度通道BL＝2)或八分之一长度(例如，对于细粒度通道BL＝1)。在一些实施例中，支持非2次幂的突发长度，从而例如对于细粒度通道而言突发长度为5是可能的。可以使用相应数量的控制位(管脚或模式寄存器位)。例如，为了能够命令通道以四个细粒度通道操作，每个通道具有八种可能的突发长度(标准长度、7/8长度、3/4长度、5/8长度、半长度等)中的任何一种，每个细粒度通道可以使用三位(例如，每个通道12个控制位)。在一些实施例中，高带宽存储器封装的管脚(例如，针对支持该特征的每个传统通道、伪通道或细粒度通道的RFU管脚)可用于中断部分完成的突发。例如，如果在细粒度通道的标准长度突发的中途断言了此管脚，则可以只传输四个32位字(而不是八个)。

在一些实施例中，还可以实现对逻辑芯片可以采用的纠错码(ECC)的相应改变，以考虑部分访问长度，同时保留在原始突发长度的情况下所具备的检错和纠错功能。这可能包括对ECC算法、ECC码字位置以及在数据写入期间计算ECC所基于的数据字的更改。

本发明的实施例的各方面也可以一起使用以向逻辑芯片提供更高级别的带宽控制。如图3所示，对于原始的8个128位通道130中的任何一个，逻辑芯片120可以以独立于其他通道130的模式所选择的模式来操作该通道。这允许非对称(例如，非均匀)数据通道宽度，这可以为增加总线带宽利用率提供额外的灵活性。此外，一些实施例还可针对每个传统通道、伪通道或细粒度通道并入可编程突发长度缩减，从而创建非对称通道宽度和访问粒度。

如图3所示，这种非对称通道组织和非对称访问粒度允许在运行时对通道130的不同配置进行编程，如每个通道130的模式寄存器所定义的那样，这可以最佳地利用HBM系统的可用存储器带宽。图3描绘了独立地操作接口190中每个通道130的逻辑芯片120。如图所示，存在以128位传统模式、64位伪模式和32位细粒度模式操作的通道。另外，一些传统通道和伪通道被描述为具有截短的突发长度，其中BL＝2。

作为非限制性示例，本发明可以与具有并行运行的数千个核从而产生空间局部性减小且随机性增加的数据访问的高性能GPU结合使用，其中逻辑芯片120可以为一些通道实现非对称通道配置和突发长度，以通过增加相应的通道数并减小数据访问粒度来更好地利用接口190的可用带宽。例如在机器学习的情况下可能就是这种情况，这种情况下需要具有使用小粒度数据的快速、较低精度通道，同时保留一些使用相应较大访问粒度的较宽通道以获得较高精度。

另外，本发明的实施例的一些方面旨在将逻辑芯片120配置为实施机器学习算法以记录和分析对存储器进行的数据访问。机器学习算法可以根据地址映射功能寻找主机处理器140所进行的存储器访问中的模式。使用预先选择的多个地址映射功能，机器学习算法可以将根据当前地址映射功能的存储器防问模式与根据这多个预先选择地址映射功能的预测存储器访问模式进行比较，以确定使用不同的地址映射功能是否可以改善访问的空间局部性。然后，机器学习算法可以从预先选则的多个地址映射功能中选择为顺序访问产生最大空间局部性的映射功能。由于预先选择了可能数量的地址映射功能，因此可以以降低的复杂度实现机器学习算法。该算法将第一地址映射功能的顺序访问的空间局部性(可以称为“利用第一地址映射功能的映射空间局部性的程度”)与不同的地址映射功能所生成的预测空间局部性进行比较，并选择对顺序访问产生最大空间局部性的地址映射功能。在本发明的范围内，可以使用本领域技术人员所知的能有效地对访问模式进行预测建模的任何合适的机器学习算法，例如强化学习，或例如长短期记忆循环神经网络(LSTM)。在读取操作期间，神经网络继续在后台进行训练。此外，神经网络的最后一层选择排名最高的地址映射功能。因此，在此训练阶段中保存的数据仅为与该映射功能相对应的少数几位。地址序列不会在任何给定的时间点存储，因为存储如此大量的数据是不切实际的，而是将地址连续馈送到神经网络以充当训练数据。存储器控制器离线使用经过训练的模型以及输出位，以便在重新连接/重新启动GPU时进行适当的改变。该地址映射功能选择可以增加顺序访问的数量，并因此相应地提高存储器的效率。

在一些实施例中，机器学习算法可以实现为在存储器离线时研究访问模式。逻辑芯片120然后可以传送将由主机处理器140(例如CPU或GPU)使用的理想映射功能，以在重启时改善顺序访问。逻辑芯片120可以使用RFU管脚将优选的映射功能传送给主机处理器140。

综上所述，实现本发明的各方面(无论是单一还是组合的)的HBM系统100，相较于缺少本发明的粒度通道宽度和突发大小控制以及智能地址映射功能的现有技术系统而言，可以具有许多优点。本发明实施例的各方面可以由逻辑芯片120独立地实现，该逻辑芯片120可以使用专用指令集架构来实例化和执行新硬件上的操作以利用更高带宽的优点。无需对DRAM内核进行大量昂贵的更改，就可以提高有效带宽利用率。另外，本发明的实施例的各方面可以与HBM系统100的其他改进一起使用，这些改进可以改进DRAM内核的时序参数或增加TSV计数或比特率。

在本发明的一些实施例中，提供了软件应用编程接口(API)，其被配置为允许访问逻辑芯片120，并且还提供软件驱动器和库以透明地集成到现有的机器学习框架例如TensorFlow、Torch7、Caffe或本领域技术人员所知的任何其他机器学习框架中。

应理解，虽然本文中可以使用术语“第一”、“第二”、“第三”等来描述各种元件、组件、区域、层和/或部分，但是这些元件、组件、区域、层和/或部分不应受这些术语限制。这些术语仅用于将一个元件、组件、区域、层或部分与另一元件、组件、区域、层或部分区分开。因此，以下讨论的第一元件、组件、区域、层或部分可被称为第二元件、组件、区域、层或部分，而不脱离本发明构思的精神和范围。

本文中可以使用空间相对术语如“下方”、“之下”、“下部”、“下面”、“上方”、“上部”等，以便于描述在附图中示出的一个元件或特征相对于另一元件或特征的关系。应理解，这种空间相对术语除了包括附图中示出的取向之外，还意在包含设备在使用中或操作中的不同取向。例如，如果附图中的设备被翻转，则被描述为在其他元件或者特征“之下”或者“下方”或者“下面”的元件将取向为在其它元件或者特征“上方”。因此，示例性术语“之下”和“下面”可以涵盖之上和之下的取向。设备可以以其它方式取向(例如，旋转90度或在其它取向)，且本文中使用的空间相对描述语应当相应地予以解释。此外，还将理解，当一层被称为在两层“之间”时，该层可以是这两层之间的唯一层，或者也可以存在一个或多个中间层。

本文所用术语仅用于描述具体实施例的目的，而不是为了限制本发明构思。本文所使用的术语“基本”、“大约”和类似术语被用作近似的术语而不是程度的术语，并且意在考虑本领域普通技术人员应当认识到的测量值或计算值中的固有偏差。本文所使用的术语“主要成分”是指按重量计构成组合物的至少一半的成分，并且术语“主要部分”在应用于多个物品时是指至少一半的物品。

本文中使用的单数形式“一”和“一个”意在还包括复数形式，除非上下文明确地给出相反的指示。还将理解，术语“包括”和/或“包含”当在本说明书中使用时，规定了存在所声明的特征、整数、步骤、操作、元件和/或组件，但是并没有排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合。本文中所使用的术语“和/或”包括相关列出项目中的一个或多个的任何和所有组合。诸如“…中的至少一个”之类的表述当在元件列表之前时修饰整个元件列表，而不是修饰列表中的单独元件。此外，当描述本发明构思的实施例时使用“可以”是指“本发明的一个或多个实施例”。此外，术语“示例性”意在指代示例或说明。本文所使用的术语“使用”可以被认为与术语“利用”同义。本文所使用的术语“或”应解释为“和/或”，从而例如“A或B”表示“A”或“B”或“A和B”中的任何一个。

将理解，当一元件或层被称为在另一元件或层“上”，“连接到”、“耦接到”或“邻近”另一元件或层时，该元件或层可以直接在该另一元件或层上，直接连接到、耦接到或邻近该另一元件或层，或者可以存在一个或多个中间元件或层。相反，当一元件或层被称为“直接”在另一元件或层“上”，“直接连接到”、“直接耦接到”或“直接邻近”另一元件或层时，不存在中间元件或层。

本文列举的任何数值范围旨在包括所列举范围内纳入的具有相同数值精度的所有子范围。例如，“1.0至10.0”的范围旨在包括所列最小值1.0和所列最大值10.0之间(并且包括所列最小值1.0和所列最大值10.0)的所有子范围，即具有等于或大于1.0的最小值和等于或小于10.0的最大值的所有子范围，例如2.4至7.6。本文列举的任何最大数值限制旨在包括其中纳入的所有较低数值限制，并且本说明书中列举的任何最小数值限制旨在包括其中纳入的所有较高数值限制。

尽管在此具体描述和说明了高带宽存储器系统架构的示例性实施例，但是对于本领域技术人员而言，许多修改和变型将是显而易见的。因此，应该理解，根据本发明的原理而构建的高带宽存储器系统可以以不同于在此具体描述的方式来实施。还在所附权利要求及其等同物中限定了本发明。

Claims

1.一种高带宽存储器系统，包括：

存储器堆叠，包括多个存储器芯片和超过两个的全宽通道；以及

逻辑芯片，所述存储器芯片堆叠在所述逻辑芯片上并连接到所述逻辑芯片；

其中，所述逻辑芯片被配置为在以下模式中操作所述全宽通道中的第一通道：

第一模式，其中所述全宽通道的所述第一通道的第一半部分以伪通道模式操作，并且所述全宽通道的所述第一通道的第二半部分作为两个四分之一宽细粒度通道操作，或者

第二模式，其中所述全宽通道的所述第一通道的第一半部分作为两个四分之一宽细粒度通道操作，并且所述全宽通道的所述第一通道的第二半部分作为两个四分之一宽细粒度通道操作。

2.根据权利要求1所述的高带宽存储器系统，其中：

所述逻辑芯片被配置为在所述第一模式下操作所述第一通道，并且在所述第二模式下操作所述全宽通道中的第二通道。

3.根据权利要求1所述的高带宽存储器系统，其中：

所述逻辑芯片能够在运行时将所述第一通道从以所述第一模式操作改变为以所述第二模式操作。

4.根据权利要求3所述的高带宽存储器系统，其中：

所述第一通道的模式被配置为通过所述第一通道的模式寄存器来在运行时控制。

5.根据权利要求3所述的高带宽存储器系统，其中：

所述第一通道的模式配置为通过预留给将来使用的管脚来在运行时控制。

6.根据权利要求1所述的高带宽存储器系统，其中：

所述逻辑芯片还被配置为在所述第一模式下操作所述第一通道，对于所述全宽通道的所述第一通道的第一半部分的突发长度为2。

7.根据权利要求1所述的高带宽存储器系统，其中：

所述逻辑芯片还被配置为在所述第二模式下操作所述第一通道，对于所述两个四分之一宽细粒度通道中的第一细粒度通道的突发长度为2。

8.根据权利要求1所述的高带宽存储器系统，其中：

所述全宽通道的宽度为128位。

9.一种高带宽存储器系统，包括：

多个堆叠的存储器芯片，

超过两个的通道，以及

逻辑芯片，

所述堆叠的存储器芯片堆叠在所述逻辑芯片上并连接到所述逻辑芯片；

每个存储器芯片包括多个存储体，每个存储体包括多个行和多个列；

所述超过两个的通道中的第一通道被配置为可操作作为以下任何一个：

单个全宽通道，

两个半宽伪通道，

一个半宽伪通道和两个四分之一宽细粒度通道，或者

四个四分之一宽细粒度通道；

其中，所述逻辑芯片能够被配置为在所述多个存储体中的多个行和多个列中与所述第一通道相关联的行和列处的数据访问之后返回数据突发，所述数据突发的突发长度小于对应于256位事务的突发长度。

10.根据权利要求9所述的高带宽存储器系统，其中，所述逻辑芯片被配置为将所述第一通道操作为突发长度小于4的两个半宽伪通道。

11.根据权利要求9所述的高带宽存储器系统，其中，所述逻辑芯片被配置为将所述第一通道操作为突发长度为小于或等于2的四个四分之一宽细粒度通道。

12.根据权利要求9所述的高带宽存储器系统，其中，所述逻辑芯片被配置为使用预留给将来使用的管脚来接收指示将要返回的突发长度的信号。

13.根据权利要求9所述的高带宽存储器系统，其中，所述逻辑芯片被配置为从主机处理器接收指示所述突发长度的信号。

14.根据权利要求13所述的高带宽存储器系统，其中，所述主机处理器是中央处理单元。

15.根据权利要求13所述的高带宽存储器系统，其中，所述主机处理器是图形处理单元。