CN109845113B

CN109845113B - 多通道高速缓存存储器和系统存储器设备

Info

Publication number: CN109845113B
Application number: CN201780048241.5A
Authority: CN
Inventors: S-J.李
Original assignee: Tsvlink Corp
Current assignee: Tsvlink Corp
Priority date: 2016-08-01
Filing date: 2017-07-24
Publication date: 2023-05-09
Anticipated expiration: 2037-07-24
Also published as: CN109845113A; WO2018026562A1; EP3491740A4; EP3491740B1; US10713170B2; US20180032436A1; JP6740456B2; JP2019523508A; EP3491740A1

Abstract

公开了一种高性能、低功率且成本有效的多通道高速缓存‑系统存储器系统。

Description

多通道高速缓存存储器和系统存储器设备

优先权声明

本申请要求对提交于2016年8月1日且题为“Multiple Channel Cache Memoryand System Memory Device Utilizing a Pseudo Multiple Port for Commands andAddresses and A Multiple Frequency Band QAM Serializer/De-Serializer for Data（利用伪多重端口用于命令和地址以及多频带QAM串行器/解串器用于数据的多通道高速缓存存储器和系统存储器设备）”的美国临时申请号62/369,597的优先权，通过引用将其并入本文。

技术领域

公开了一种高性能、低功率且成本有效的多通道高速缓存存储器/系统存储器。

背景技术

高速缓存存储器和系统存储器二者的性能在包含多核处理器或多处理器的高性能计算系统、特别是使用诸如图形处理单元（GPU）之类的附加硬件加速器的系统中是关键的。这些计算系统不仅越来越多地执行通用计算，还执行深度机器学习和大数据挖掘。

为了应对施加于计算系统的需求，需要同时针对存储器访问等待时间和存储器带宽来优化存储器系统。为了优化同一计算系统上的存储器访问等待时间和存储器带宽，必须提高高速缓存性能以及降低总线上的存储器冲突频率。

现有技术方法包括通过将较大的高速缓存RAM集成在与其服务于的处理器核相同的硅上来提高高速缓存性能。然而，这种方法由于大尺寸RAM的成本而受到限制。

其他现有技术方法使用位于与其服务于的处理器核不同的硅上的较大的片外RAM。然而，这种方法需要RAM芯片和处理器核芯片之间的大量连接引脚，并且系统设计成本变得不如人意。

另一现有技术方法是一种“蛮力”方法，其通过增加存储器总线的总线宽度和时钟速率来增加存储器带宽。然而，在这种方法下，当系统具有多个硬件加速器时，来自系统的不同存储器主设备的存储器请求可能容易发生冲突。

另一种现有技术方法是多并发存储器通道，这是维持高有效存储器带宽并支持到多个硬件加速器的高带宽的最有效解决方案。这种方法的局限性再一次在于处理器芯片和RAM芯片之间需要大量的接口连接引脚。使用大量连接引脚会增加芯片的成本、尺寸和制造复杂度。

现有技术还包括用于将数据从一个芯片传输到另一个芯片的多种方法。在题为“Scalable Serial/De-serial I/O for Chip-to-Chip Connection Based on MultiFrequency QAM Scheme（基于多频QAM方案的用于芯片到芯片连接的可扩展串行/解串I/O）”的美国专利9,369,318中，公开了串行器/解串器（“SerDes（串行解串器）”）的实施例，通过引用将该专利并入本文，并且该专利与本申请共享发明人。

在图5中示出了该现有技术。串行器530和解串器540通常位于不同的芯片上并通过I/O接口510连接。串行器540接收并行数字数据，所述并行数字数据在该示例中被示为8比特，D0到D7。通过数模2比特转换器501、502、503和504将数据转换成模拟形式。将来自数模2比特转换器501、502、503和504的每个模拟输出耦合到QAM混合器。在混合器505处的QAMI通道处接收来自DAC 501的输出，混合器505还接收90度异相的调制载波F1_I。在混合器506处的QAM I通道处接收来自DAC 502的输出，混合器506还接收90度异相的调制载波F1_Q。混合器505和506都与QAM调制器524相关联。类似地，来自DAC 503的输出耦合到混合器507，混合器507还接收90度异相的调制载波F2_I，而在混合器508处接收来自DAC 504的输出，混合器508还接收90度异相的调制载波F2_Q。混合器507和508都与QAM调制器525相关联。在加法器509处对来自QAM调制器524和525二者的混合器的输出进行加和，并通过I/O接口510将其从包含串行器530的芯片输出。通过该调制过程，从而将并行输入串行化成作为模拟信号的串行输出。

由第二芯片中的解串器540接收I/O连接510上的模拟信号。解串器540优选地包括放大器511，其接收信号并提供增益级以补偿低通滤波器中的损耗。将放大后的信号提供给第一QAM解调器526中的混合器512和513，混合器512和513分别接收90度异相的调制载波F1_I、F1_Q，并且将放大后的信号提供给第二QAM解调器527中的混合器514和515，混合器514和515接收放大后的信号以及90度异相的调制载波F2_I、F2_Q。四个模拟信号通道分别从混合器512、513、514和515输出到低通滤波器516、517、518和519。低通滤波器可以具有任何期望的配置和阶（即，二阶、三阶等等）。来自低通滤波器516、517、518和519的输出分别由2比特模数转换器（ADC）520、521、522和523接收，这些ADC输出数字数据。通过该解调过程，从而将模拟串行输入解串回为并行数字输出。通常，每个芯片将包含串行器530和解串器540，使得任一芯片可以发送数据并且任一芯片可以接收数据。

因此，在图5的现有技术系统中，8比特并行输入由两个频带的QAM16串行化至第一芯片中的一个I/O接口，发送到第二芯片，并且然后在第二芯片中由两个频带的QAM16解调来解串回为原始的并行数据。应当领会的是，可以使用其他配置，诸如使用16比特的并行数据和四个频带的QAM16或两个频带的QAM256。迄今为止，图5的SerDes设计尚未用于存储器系统中。

现有技术包括用于最大化可以在给定通道上传输的信息量的其他技术。题为“Pipelined Dual Port RAM（流水线化的双端口RAM）”的美国专利5,206,833介绍了伪多端口存储器的技术，通过引用将该专利并入本文，并且该专利与本申请共享发明人。在图6中示出了该现有技术。设备601和602各自输出数据，该数据被多路复用器603接收。多路复用器603由仲裁信号控制。多路复用器603将来自设备601和602的数据组合至单个通道中，如图所示。在一个实施例中，对设备601给予优于设备602的优先级，并且仅当设备601处于间歇状态时才从多路复用器603输出来自设备602的数据。这有效地产生了伪多端口设备，即便实际上只存在一个端口。迄今为止，该技术尚未用于处置存储器系统中的命令和地址数据。

需要的是用于高速缓存存储器和系统存储器的新架构，其允许多个存储器通道能够并发地操作，同时还优化存储器访问等待时间和存储器带宽，而无需在处理器芯片和存储器芯片之间添加大量的额外引脚。

发明内容

本文描述的实施例包括高速缓存存储器和系统存储器架构，其利用了SerDes技术用于数据总线以及伪多端口技术用于命令/地址总线，从而得到了多通道、并发的高速缓存-系统存储器。所提出的多通道的高速缓存-系统存储器得到良好的高速缓存性能以及良好的系统存储器性能。

附图说明

图1描绘了利用改进的高速缓存存储器和系统存储器架构的计算设备的实施例。

图2包含利用改进的高速缓存存储器和系统存储器架构的实施例的四通道的框图。

图3描绘了用于在改进的高速缓存存储器和系统存储器架构中利用的高速缓存存储器芯片与处理器芯片之间的总线的示例性时序图。

图4描绘了现有技术的存储器系统。

图4B描绘了利用改进的高速缓存存储器和系统存储器架构的实施例的框图。

图5描绘了现有技术的串行器和解串器。

图6描绘了现有技术的伪多端口设备。

具体实施方式

图1描绘了包括4通道并发高速缓存-系统存储器系统的计算设备100的实施例。计算设备100包括片上系统处理器（标记为“SOC”）110，其包含末级高速缓存和系统存储器控制器（标记为“LLC/DRAM控制器”）104。SOC处理器110耦合到高速缓存系统芯片120，高速缓存系统芯片120与SOC处理器110分离。

高速缓存系统芯片120集成了多个高速缓存RAM和旧有PHY通道，以连接不同类型的系统存储器。高速缓存系统芯片120包括数据路由器127，其调节高速缓存系统芯片120、系统存储器总线117和处理器高速缓存总线129之间的通信量。高速缓存系统芯片120还包括高速缓存存储器阵列126a ... 126j（其中j是整数，诸如4）和旧有物理接口（PHY）128a... 128d（其中d是整数，诸如4），以将高速缓存系统芯片120连接到系统存储器130，诸如LPDDR、DDR、GDR、HBM、HMC等。在该示例中，高速缓存存储器阵列126包括四个阵列，每个阵列4MB。本领域普通技术人员将理解的是，图1的示例可以扩展为包括额外的存储器通道和更大的高速缓存RAM尺寸，这取决于目标性能和片上系统复杂度。

SOC处理器110还包括CPU核101a ... 101i（其中i是整数，诸如2或4），所述CPU核中的每一个耦合到L1高速缓存存储器系统102a ... 102i，所述L1高速缓存存储器系统中的每一个进而耦合到L2高速缓存存储器系统103。L2高速缓存存储器系统103通过处理器高速缓存总线129耦合到LLC/DRAM控制器104（具体来说，耦合到末级高速缓存控制器105）。此处，LLC或末级高速缓存指的是CPU核101a ... 101i所利用的最后一级高速缓存存储器，诸如L3或L4（后者将需要L2高速缓存存储器103与末级高速缓存控制器105之间的另一级高速缓存存储器）。

SOC处理器110还包括图形处理器单元（GPU）核115a ... 115k（其中k是整数），所述GPU核中的每一个耦合到共享GPU高速缓存存储器系统116。

SOC处理器110还包括系统总线117，以下设备耦合到该系统总线117：共享GPU高速缓存存储器系统116、串行MFI SerDes控制器118、总线桥121、显示引擎123、DSP视频多媒体处理器124和SOC处理器110。串行MFI SerDes控制器118还耦合到串行MFI SerDes 119，串行MFI SerDes 119进而连接到外部设备140，诸如固态驱动器或硬件加速器。总线桥121耦合到PCIe（快速PCI）控制器122，PCIe控制器122进而耦合到旧有Phy 125。显示引擎123还耦合到Legal（合法）Phy 125，其进而连接到I/O端口150，诸如USB、以太网和HDMI端口。

LLC/DRAM控制器104还包括末级高速缓存（LLC）控制器105、四通道存储器仲裁器106、MFI SerDes 107、DRAM控制器108和MFI SerDes 109。四通道存储器仲裁器106耦合到系统总线117。

如图1中所示，系统可能将会具有多个硬件加速器和存储器主设备。多存储器通道可以降低存储器请求冲突的可能性，并且可以实现高持久性存储器带宽。如果两个存储器请求确实在特定存储器通道处发生冲突，那么存储器仲裁器106执行请求仲裁以基于仲裁算法将服务授权给特定的存储器主设备。

图2包含关于计算设备100的四通道并发高速缓存存储器/系统存储器系统的附加细节。描绘了处理器高速缓存总线129和系统总线117。系统存储器总线117连接到四通道存储器仲裁器106，四通道存储器仲裁器106进而耦合到系统存储器控制器108、SerDes 107和伪多端口CMD/ADR 205a、205b、205c和205d。处理器高速缓存总线129耦合到LLC Tag（标签）206，LLC Tag 206进而耦合到LLC控制器105、SerDes 107和伪多端口CMD/ADR 204a、204b、204c和204d。伪多端口CMD/ADR 204、204b、204c、204d、205a、205b、205c和205d耦合到高速缓存系统芯片120，具体来说，耦合到系统CMD/ADR接口202a、202b、202c和202d。SerDes 107耦合到高速缓存系统芯片120，具体来说，耦合到SerDes接口201a、201b、20c、201d、203a、203b、203c和203d。数据路由器127耦合到旧有Phy 128a、128b、128c和128d，所述旧有Phy进而耦合到系统存储器130。

在图2中，不仅存储器主设备在系统存储器总线117上主张存储器请求，还有末级高速缓存105在存在高速缓存未命中时主张存储器请求。也就是说，对于特定的存储器请求，LLC控制器105将首先针对该数据检查末级高速缓存存储器。如果数据不存在于末级高速缓存存储器中或者如果数据是陈旧的，则那将被视为高速缓存未命中，并且该请求将被转发到高速缓存系统芯片120。用于存储器访问的数据路径将由高速缓存存储器芯片120中的数据路由器127针对各种总线状况进行安排。一旦仲裁器106决定了要服务于哪个存储器主设备，总线请求就被转发到该系统存储器控制器108。系统存储器控制器108内的状态机将向系统存储器130发布正确的命令和地址序列。

当仲裁器106将请求转发到系统存储器控制器108时，如果该存储器请求是在可高速缓存的交换存储器区域上，则它还需要将同一存储器请求转发到末级高速缓存（LLC）TAG206，以供监听（snooping）比较。如果存在监听命中，则高速缓存存储器芯片120中的数据路由器127必须执行从快速高速缓存RAM 126a ... 126j而不是相对较慢的系统存储器130的数据路径重路由。

当处理器存储器请求是高速缓存命中时，SOC处理器110与其他系统存储器主设备并发地访问存储器。但是当存在高速缓存未命中时，LLC TAG 206必须将处理器存储器请求转发到仲裁器106，并且仲裁器106将系统存储器总线117授权给LLC TAG 206。一旦执行了该高速缓存未命中周期，高速缓存存储器芯片120中的数据路由器127就必须进行数据路径重新输出。

表1示出了高速缓存存储器芯片120内的数据路由器127如何针对所有可能的周期来执行路由：

表1

在该实施例中，高速缓存存储器芯片120中的数据路由器127必须执行表1中描述的存储器数据路径路由。

利用SerDes架构可以减少SOC处理器110和高速缓存存储器芯片120之间的数据总线所需的引脚数量，如图2中所示。但是SerDes设计不能用于命令和地址总线，因为半双工SerDes的等待时间会使存储器性能降级。全双工SerDes可以解决等待时间的问题，但是将引脚数量加倍的成本完全抵消了SerDes相比于并行总线的优势。

当系统存储器总线117以固定的突发长度传输来传输数据时，可以观察总线上的连续命令和地址之间的空闲周期。在典型的存储器设计中，突发长度是针对每个存储器访问4或8的固定突发。针对存储器总线的突发长度的选择是为了同步处理器高速缓存行尺寸和DRAM固定突发长度。

对于存储器突发长度为8的情况，最快的连续命令和地址将不早于第8个时钟。图3示出了处理器和高速缓存RAM芯片之间的接口总线的时序，其中针对该存储器阵列的流水线等待时间为2-1-1-1-1-1-1-1。

存储器主设备0在第1个时钟处主张了第一命令/地址。存储器阵列返回从第2个时钟开始到第9个时钟结束的8个连续数据。如图3中所示，在第1个时钟处发布了命令地址之后，由存储器主设备0的最快下一个连续命令地址是在第9个时钟处。也就是说，在第1个时钟和第9个时钟之间，命令/地址总线对于存储器主设备0是空闲的，并且可供其他存储器主设备用来向同一总线发布命令地址。因此，其他存储器主设备可以从该空闲命令地址总线执行“周期窃取”。通过在单个命令地址总线上的这种类型的周期窃取，可以在单个命令地址总线上支持多个存储器通道，而无需到每个存储器通道的多个专用命令地址总线。图3示出了存储器突发长度为8可以在单个命令地址总线上支持多达8个并发的存储器通道命令地址周期。

因为存储器阵列架构由行和列解码器组成，因此可以实现命令和地址总线协议的进一步简化而不会使性能降级。高速缓存存储器芯片120通常由SRAM组成，其中可以在行地址之后解码列地址而不减慢存储器访问。因此，SRAM命令地址总线协议可以在时钟上升沿选通行地址，并在下降沿选通列地址。以这种方式，可以将地址信号的数量减少一半。

用于高速缓存RAM芯片120的命令地址总线协议由两组命令地址协议组成，即一组用于高速缓存RAM而另一组用于旧有系统存储器。每当存在高速缓存未命中或监听命中时，数据路由器127都必须如表1中描述的那样在高速缓存RAM 126a ... 126j与系统存储器130之间重新路由数据。因此，在给高速缓存RAM芯片的命令中，必须包括给数据路由器127的关于要如何重新路由存储器数据的指令。

可以通过基于上述固定突发长度周期窃取技术的单个命令地址总线来实现图2中所示的四个分离的高速缓存RAM命令地址总线。也就是说，单个命令地址总线表现为存储器命令地址总线的伪多端口。四个旧有系统存储器命令也可以减少至如高速缓存RAM命令地址总线那样的单个命令地址总线。

图4A和4B中示出了现有技术的设计与这些实施例之间的高层级差异。

在图4A中，示出了现有技术系统400，其中处理器SOC 410包含末级高速缓存420，并且SOC 410通过众多数据引脚440和命令/地址引脚450来对接到系统存储器430（例如，DRAM芯片）。增大末级高速缓存420的尺寸将会改进高速缓存命中率。然而，由于SOC半导体工艺相对昂贵，因此在SOC 410上使用较大的末级高速缓存420将是昂贵的。

在图4B中，示出了计算设备100，其中处理器SOC 110通过SerDes接口112和命令/地址接口410来对接到高速缓存-系统存储器120。高速缓存-系统存储器模块120包括末级高速缓存存储器126a ... 126j以及系统存储器128a ... 128d和130。由于末级高速缓存位于与SOC分离的芯片上，因此末级高速缓存可以被制成比图4A中更大，这是因为高速缓存-系统存储器模块可以用更便宜的半导体工艺来制造。通常，SOC是以大约11个金属层制造的，而存储器芯片可以以大约6个金属层来制造。

图4B中示出的实施例的另一个益处在于在SOC与系统存储器之间不需要引脚。那些引脚通常需要大量功率并且还需要终端电路。

综上所述，描述了基于短等待时间SerDes和伪多端口命令地址总线的多通道并发高速缓存RAM和系统存储器的发明。本发明不仅减少了用于多存储器通道的处理器与存储器系统之间的接口引脚的数量，这实现了有成本竞争力的制造，而且还保持了短等待时间和高并发性的高存储器性能。

Claims

1.一种计算设备，包括：

第一芯片，其包括一个或多个CPU核、耦合到所述一个或多个CPU核的存储器控制器和第一串行器-解串器设备，所述存储器控制器包括高速缓存存储器控制器和系统存储器控制器；

第二芯片，其包括由所述高速缓存存储器控制器管理的高速缓存存储器、数据路由器和第二串行器-解串器设备；

系统存储器，其与第一芯片和第二芯片分离并且由所述系统存储器控制器和所述数据路由器管理；

第一接口，其耦合在所述系统存储器和所述第二芯片之间；以及

第二接口，其包括耦合在第一串行器-解串器设备和第二串行器-解串器设备之间的单线，其中所述第一串行器-解串器设备和第二串行器-解串器设备使用正交幅度调制通过所述单线来交换数据；

其中，如果存在针对存储器请求的高速缓存命中的话由所述高速缓存存储器控制器通过经由所述第二接口将数据从所述高速缓存存储器提供给所述一个或多个CPU核，或者如果存在针对所述存储器请求的高速缓存未命中的话由所述数据路由器将数据从所述系统存储器提供给所述一个或多个CPU核，来服务于来自所述一个或多个CPU核的存储器请求。

2.根据权利要求1所述的计算设备，其中，所述存储器控制器用处理器总线耦合到所述一个或多个CPU核。

3.根据权利要求2所述的计算设备，还包括耦合到所述存储器控制器的系统总线。

4.根据权利要求3所述的计算设备，其中，所述系统总线耦合到一个或多个图形处理器单元(GPU)核。

5.根据权利要求4所述的计算设备，其中，所述存储器控制器包括仲裁器，其用于管理对所述系统总线的控制。

6.一种计算设备，包括：

系统存储器，其与第一芯片和第二芯片分离并且由所述存储器控制器和所述数据路由器管理，并且通过第一接口耦合到所述第二芯片；

第二接口，其包括在第一芯片和第二芯片之间的单线，其中第一串行器-解串器设备和第二串行器-解串器设备使用正交幅度调制模拟信号通过所述单线来交换多个数据比特；以及

总线，其在所述第一芯片和第二芯片之间，其中所述存储器控制器和所述数据路由器传输命令和地址信息；

其中，响应于由所述数据路由器通过所述总线接收的来自所述一个或多个CPU核的存储器请求，如果存在针对所述存储器请求的高速缓存命中的话将数据通过所述第二接口从所述高速缓存存储器提供给所述一个或多个CPU核，或者如果存在针对所述存储器请求的高速缓存未命中的话将数据通过所述第二接口从所述系统存储器提供给所述一个或多个CPU核。

7.根据权利要求6所述的计算设备，其中，所述存储器控制器用处理器总线耦合到所述一个或多个CPU核。

8.根据权利要求7所述的计算设备，还包括耦合到所述存储器控制器的系统总线。

9.根据权利要求8所述的计算设备，其中，所述系统总线耦合到一个或多个图形处理器单元(GPU)核。

10.根据权利要求9所述的计算设备，其中，所述存储器控制器包括仲裁器，其用于管理对所述系统总线的控制。

11.一种用于读取计算设备中的数据的方法，所述计算设备包括第一芯片、第二芯片和系统存储器，第一芯片包括一个或多个CPU核、耦合到所述一个或多个CPU核的存储器控制器和第一串行器-解串器设备，所述存储器控制器包括系统存储器控制器和高速缓存存储器控制器，以及第二芯片包括由所述高速缓存存储器控制器管理的高速缓存存储器和第二串行器-解串器设备，所述方法包括：

由所述存储器控制器从所述一个或多个CPU核接收针对与地址相关联的数据的读取请求；如果存在针对地址的高速缓存命中的话从所述高速缓存存储器获得与所述地址相关联的所述数据，以及如果存在针对所述地址的高速缓存未命中的话从所述系统存储器获得与所述地址相关联的所述数据；

使用第二串行器-解串器设备使用正交幅度调制来调制与所述地址相关联的所述数据以生成模拟信号；

通过单线将所述模拟信号从第二串行器-解串器设备传输到第一串行器-解串器设备；

使用第一串行器-解串器设备解调所述数据，以生成与所述地址相关联的所述数据；以及

响应于所述读取请求，将与所述地址相关联的所述数据发送到所述一个或多个CPU核。

12.根据权利要求11所述的方法，其中，所述调制步骤包括：

将与地址相关联的所述数据转换成中间模拟信号；

使用多个正交幅度调制器来调制所述中间模拟信号；以及

对所述多个正交幅度调制器的输出进行加和以生成所述模拟信号。

13.根据权利要求12所述的方法，其中，所述解调步骤包括：

对所述模拟信号施加增益以生成放大后的模拟信号；

使用多个正交幅度调制器来解调所述放大后的模拟信号；

使用低通滤波器对解调后的信号进行滤波；以及

将滤波后的数据转换成与地址相关联的所述数据。

14.一种用于读取计算设备中的数据的方法，所述计算设备包括第一芯片、第二芯片和由接口耦合到所述第二芯片的系统存储器，第一芯片包括一个或多个CPU核、耦合到所述一个或多个CPU核的存储器控制器和第一串行器-解串器设备，以及第二芯片包括由所述存储器控制器管理的高速缓存存储器和第二串行器-解串器设备，所述存储器控制器包括系统存储器控制器和高速缓存存储器控制器，所述方法包括：

由所述存储器控制器从所述一个或多个CPU核接收针对与地址相关联的数据的读取请求；由第二芯片通过用于命令和地址的总线从第一芯片接收命令和地址；

如果存在针对地址的高速缓存命中的话从所述高速缓存存储器获得与所述地址相关联的所述数据，以及如果存在针对所述地址的高速缓存未命中的话从所述系统存储器获得与所述地址相关联的所述数据；

使用第二串行器-解串器设备使用正交幅度调制来调制与地址相关联的所述数据以生成模拟信号；

通过单线将所述模拟信号从第二芯片传输到第一芯片；

15.根据权利要求14所述的方法，其中，所述调制步骤包括：