CN116050307A - 面向硅介质层互联的高速低延迟互联接口 - Google Patents
面向硅介质层互联的高速低延迟互联接口 Download PDFInfo
- Publication number
- CN116050307A CN116050307A CN202211730093.4A CN202211730093A CN116050307A CN 116050307 A CN116050307 A CN 116050307A CN 202211730093 A CN202211730093 A CN 202211730093A CN 116050307 A CN116050307 A CN 116050307A
- Authority
- CN
- China
- Prior art keywords
- data
- delay
- interface
- physical layer
- interconnection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 title claims abstract description 47
- 229910052710 silicon Inorganic materials 0.000 title claims abstract description 47
- 239000010703 silicon Substances 0.000 title claims abstract description 47
- 230000005540 biological transmission Effects 0.000 claims abstract description 79
- 239000007771 core particle Substances 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000008439 repair process Effects 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 32
- 230000008054 signal transmission Effects 0.000 claims description 6
- 238000011990 functional testing Methods 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 3
- 210000001503 joint Anatomy 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 14
- 240000007320 Pinus strobus Species 0.000 description 13
- 238000013461 design Methods 0.000 description 10
- 239000003292 glue Substances 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000001193 catalytic steam reforming Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/30—Circuit design
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Design And Manufacture Of Integrated Circuits (AREA)
Abstract
本申请涉及一种面向硅介质层互联的高速低延迟互联接口。该高速低延迟互联接口用于在硅介质层上进行大规模IO互联,包括物理层和链路层,链路层接收芯粒内部的数据信号、配置信号和控制信号,并可完成针对物理层的数据转换、奇偶校验、训练、通道修复、指令流生成等功能。物理层接收经过链路层转换的数据信号,完成对数据信号的发射与接收工作,该物理层包括高速的I/O口、FIFO及相关的控制逻辑,其中物理层的高速I/O口同时兼容DDR模式和SDR模式。上述面向硅介质层互联的高速低延迟互联接口提供芯粒在硅介质层上无协议的高速数据传输,满足高效率数据传输和高性能功耗比等要求。
Description
技术领域
本申请涉及高速物理接口设计技术领域,特别是涉及一种面向硅介质层互联的高速低延迟互联接口。
背景技术
在Dennard几何缩放失效后,关于半导体技术路线图提出在延续摩尔定律的同时,关注基于多样化封装的拓展摩尔定律。单片集成升级到片上系统(System on Chip,SoC)是半导体产业的一个里程碑式的发展,但是当技术节点进入深亚纳米后,不仅难度上升,而且设计费用昂贵,导致很难在有限市场容量中回收投入。
更加严峻的是,在面对大数据等高算力爆炸式增长的应用时,传统同构处理器已很难满足计算要求,需要附加专用加速器进行异构计算(Hetergeneous computing,HC),完成异构计算则需要对不同芯粒进行异构集成。同时,适用于高密集型数据应用的高带宽存储器(High Bandwidth Memory,HBM)也需要进行异构集成,因此,亟需设计一种面向硅介质层互联的高速低延迟互联接口(High-Speed Low-Latency Interconnect Interface,HLII)。
然而,由于与面向传统PCB(Printed Circuit Board)层互联或SIP(System In aPackage)集成方式的接口设计不同,硅介质层互联需要完成异构芯粒间的大规模IO的高速互联,因此面向硅介质层互联的高速低延迟互联接口架构无法沿用传统高速接口的设计,其数据传输效率和功耗也面临挑战。
发明内容
基于此,有必要针对上述技术问题,提供一种面向硅介质层互联的高速低延迟互联接口。
第一方面,本申请提供了一种面向硅介质层互联的高速低延迟互联接口,包括物理层以及,介于芯粒内部逻辑与所述物理层之间的链路层;
所述链路层,用于接收芯粒内部的信号,将芯粒内部的信号传输至物理层,以及,根据芯粒内部的信号,对所述物理层进行控制,其中,所述芯粒内部的信号包括数据信号,所述将芯粒内部的信号传输至物理层包括将数据信号进行数据转换后发送至所述物理层;
所述物理层,用于接收经由所述链路层传输的信号,将信号通过硅介质发射至另一个高速低延迟互联接口的物理层,以及,接收另一个高速低延迟互联接口物理层传输的信号,将信号传输至所述链路层,以由所述链路层接收后传输至芯粒内部。
在其中一个实施例中,所述芯粒内部的信号还包括配置信号和控制信号,所述对物理层进行控制包括对所述物理层进行数据转换、奇偶校验、训练、通道修复和指令流生。
在其中一个实施例中,所述物理层包括至少一个传输通道,所述链路层包括至少一个逻辑控制通道,其中,所述传输通道和所述逻辑控制通道的数量相同;
所述传输通道用于传输数据信号,所述传输数据信号的模式包括DDR传输模式和SDR传输模式;
所述逻辑控制通道用于对所述传输通道的数据流进行控制和调度。
在其中一个实施例中,每个所述传输通道包括多个传输子通道,每个所述传输子通道负责至少32bit的数据信号传输;
每个所述逻辑控制通道包括多个逻辑控制子通道,所述逻辑控制子通道和所述传输子通道一一对应,所述逻辑控制子通道用于控制和调度对应的传输子通道所传输的数据流。
在其中一个实施例中,所述传输子通道包括多个DWORD位片、发射时钟生成模块、接受时钟生成模块、DWORD FIFO控制器、延迟线测试器和Rx时钟驱动;
每个所述DWORD位片包括1个发送数据FIFO、1个接收数据FIFO、1个发送I/O和1个接收I/O;
所述发射时钟生成模块用于产生高速时钟;
所述接受时钟生成模块用于产生高速时钟和捕获读数据的时钟;
所述DWORD FIFO控制器用于控制所述DWORD位片中的发送数据FIFO和接收数据FIFO;
所述延迟线测试器用于微调发送时钟上的延时,以将时钟集中于数据眼上;
所述Rx时钟驱动用于增加时钟驱动。
在其中一个实施例中,所述逻辑控制子通道包括控制模块、延迟线控制器、DWORD环回BIST、数据生成模块、数据检查模块;
所述控制模块用于控制数据路径,承载数据信号;
所述延迟线控制器用于DWORD延迟线的控制、校准和VT补偿;
所述DWORD环回BIST用于回环和延迟线测试的BIST逻辑;
所述数据生成模块和数据检查模块用于生成训练和测试的数据。
在其中一个实施例中,所述物理层还包括物理层Matser和接口测试模块;
所述物理层Matser用于为所述物理层提供全局时钟、复位信号和基准电压;
所述接口测试模块用于对高速低延迟互联接口进行功能性测试。
在其中一个实施例中,所述链路层还包括链路层MASTER模块,所述链路层MASTER模块包括配置模块、Master状态寄存器、初始化引擎、训练控制器、复位与测试控制器、P1500控制器、指令流生成器和指令单元;
所述配置模块用于交互APB接口、TDR接口、JTAG接口事务以进行CSR的读写;
所述Master状态寄存器包括所有能被整个接口共享的逻辑状态寄存器;
所述初始化引擎用于在硬件层面实现初始化流程并配合状态寄存器对高速低延迟互联接口进行初始化的操作;
所述训练控制器用于自动进行读延迟、读数据眼、写数据眼和基准电压训练;
所述测试控制器用于复位生成,校准I/O驱动的阻抗,提供数据接收I/O的全局基准电压、监控高速低延迟互联接口内部测试信号的测试输出I/O口和接口测试模块的I/O口;
所述P1500控制器用于生成测试用的P1500指令;
所述指令流生成器用于执行高速低延迟互联接口内部以及P1500命令的引擎;
所述指令单元用于完成高速低延迟互联接口内部指令地解码和分发工作。
第二方面,本申请还提供了一种面向硅介质层互联的高速低延迟互联拓扑结构,包括叠在硅介质层上的多个芯粒和每个芯粒对应的至少一个互联接口;
其中,所述互联接口为本申请第一方面所述的高速低延迟互联接口。
在其中一个实施例中,每个所述互联接口包括至少一个传输通道;多个所述互联接口的传输通道对称且相同,以支持多个互联接口之间的对接。
上述面向硅介质层互联的高速低延迟互联接口,包括物理层和链路层,链路层介于物理层与芯粒内部逻辑之间,链路层用于接收芯粒内部的信号,并可完成针对物理层的控制功能,物理层接收经过链路层传输的信号,例如链路层转换的数据信号,完成对该数据信号的发射与接收工作,例如将其通过硅介质发射至另一个高速低延迟互联接口的物理层,以及,接收另一个高速低延迟互联接口物理层传输的信号,将信号传输至所述链路层,以由所述链路层接收后传输至芯粒内部,完成面向硅介质层互联的高速低延迟互联接口间数据流的传输,以提供芯粒在硅介质层上无协议的高速数据传输,满足高效率数据传输和高性能功耗比等要求。
在部分实施例中,上述面向硅介质层互联的高速低延迟互联接口,可支持多个通道,每个通道支持数据并行传输,兼容DDR和SDR传输模式,其中每个通道中包含多个传输子通道,每个传输子通道可提供至少32bit数据传输。本申请的高速低延迟互联接口可被配置为1、2、4、8或更多通道模式以满足不同案例的设计需求。所有高速低延迟互联接口的通道都是对称且相同的,对于一个多通道的高速接口物理层,其可支持与多块计算芯片进行互联。
附图说明
图1为一个实施例中不同芯粒(CPU/GPU/SoC/FPGA/存储颗粒等)在硅介质层上的互联示意图;
图2为一个实施例中高速低延迟互联接口的顶层架构框图;
图3为一个实施例中高速低延迟互联接口的层级关系示意图;
图4为一个实施例中高速低延迟互联接口的的顶层设计结构框图;
图5为一个实施例中链路层MASTER的顶层结构框图;
图6为一个实施例中逻辑控制子通道的顶层结构框图;
图7为一个实施例中传输子通道的顶层结构框图;
图8为一个实施例中传输子通道的详细逻辑结构图;
图9为一个实施例中从链路层到物理层输出(侧)的写数据发送路径图;
图10为一个实施例中从物理层输入(侧)到链路层的读数据接收路径图;
图11为一个实施例中带有不同通道数的高速低延迟互联接口的芯粒之间的互联示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的面向硅介质层互联的高速低延迟互联接口,可以应用于如图1所示的应用环境中。其中,芯粒1和芯粒2叠在硅介质层上,每个芯粒可以对应有一个或多个高速低延迟互联接口(High-Speed Low-Latency Interconnect Interface,HLII),HLII为芯粒在硅介质层上提供无协议的高速数据传输。该芯粒可以是CPU、GPU、SoC、FPGA或存储颗粒等,该HLII的设计方案为所有与HLII兼容的芯粒提供逻辑支持。
在一个实施例中,如图2所示,提供了一种面向硅介质层互联的高速低延迟互联接口,以该接口应用于图1中的不同芯粒在硅介质层上的互联为例进行说明,该高速低延迟互联接口包括物理层和链路层,该链路层介于芯粒内部逻辑与所述物理层之间。
所述链路层,用于接收芯粒内部的信号,将芯粒内部的信号传输至物理层,以及,根据芯粒内部的信号,对所述物理层进行控制,其中,所述芯粒内部的信号包括数据信号,所述将芯粒内部的信号传输至物理层包括将数据信号进行数据转换后发送至所述物理层。
所述物理层,用于接收经由所述链路层传输的信号,将信号通过硅介质发射至另一个高速低延迟互联接口的物理层,以及,接收另一个高速低延迟互联接口物理层传输的信号,将信号传输至所述链路层,以由所述链路层接收后传输至芯粒内部。
具体地,高速低延迟互联接口的数据传输主要靠链路层和物理层实现,链路层介于HLII物理层与芯粒内部逻辑之间,芯粒内部逻辑与链路层之间、链路层与物理层之间以及物理层通过硅介质与另一高速低延迟互联接口的物理层之间的信号传输均为双向传输。
示例性地,芯粒1的内部逻辑资源将数据信号发送至对应的高速低延迟互联接口的链路层,链路层接收该数据信号后,进行数据转换发送至物理层,物理层接收经由链路层转换的数据信号,将数据信号通过硅介质发射至另一个高速低延迟互联接口的物理层,再由另一个高速低延迟互联接口的物理层将数据信号传输至对应高速低延迟互联接口的链路层,最后由该链路层传输至对应的芯粒2,以完成芯粒1至芯粒2的数据传输。
上述面向硅介质层互联的高速低延迟互联接口,包括物理层和链路层,链路层介于物理层与芯粒内部逻辑之间,链路层用于接收芯粒内部的信号,并可完成针对物理层的控制功能,物理层接收经过链路层传输的信号,例如链路层转换的数据信号,完成对该数据信号的发射与接收工作,例如将其通过硅介质发射至另一个高速低延迟互联接口的物理层,以及,接收另一个高速低延迟互联接口物理层传输的信号,将信号传输至所述链路层,以由所述链路层接收后传输至芯粒内部,完成面向硅介质层互联的高速低延迟互联接口间数据流的传输,以提供芯粒在硅介质层上无协议的高速数据传输,满足高效率数据传输和高性能功耗比等要求。
在一个实施例中,如图3所示,如前所述高速低延迟互联接口的数据传输主要靠链路层和物理层实现,链路层介于HLII物理层与芯粒内部逻辑之间,接收芯粒内部的信号,其中,芯粒内部的信号包括数据信号、配置信号和控制信号,并可完成针对物理层的数据转换、奇偶校验、训练、通道修复、指令流生成等功能。链路层主要提供控制功能,以方便芯粒内部对高速低延迟互联接口的物理层进行初始化、延迟线校准和VT补偿等操作,并可配合芯粒的内部寄存器编程配置控制。链路层具有内置的自测试特性,可以对物理层进行功能测试。链路层与物理层之间通过专用数据接口连接。除此之外,其还包括可通过配置端口访问的配置状态寄存器,这些配置状态寄存器除了可以通过APB接口访问之外还有一个单独的可选TDR接口,以提高易用性访问测试功能。物理层接收经过链路层转换的数据信号,完成对数据信号的发射与接收工作,该物理层主要包括高速的I/O口、FIFO及相关的控制逻辑,其中物理层的高速I/O口同时兼容DDR模式和SDR模式。
该高速低延迟互联接口为芯粒在硅介质层上提供无协议的高速数据传输,参见图4,图4显示了该高速低延迟互联接口的顶层设计结构图,如图所示HLII包括物理层(PHYLayer,PL)和链路层(Link Layer,LL),物理层包括至少一个传输通道、物理层MASTER(PLMASTER)和接口测试模块(TESTSTACK)。链路层包括至少一个逻辑控制通道和链路层MASTER模块(Link Layer MASTER,LL MASTER)。
其中,所述传输通道和所述逻辑控制通道的数量相同。所述传输通道用于传输数据信号,所述传输数据信号的模式包括DDR传输模式和SDR传输模式。所述逻辑控制通道用于对所述传输通道的数据流进行控制和调度,并完成时序校准、阻抗校准、BIST流程控制、通道修复等功能。
其中,物理层MASTER为整个物理层提供全局时钟、复位信号和Vref基准电压。所述接口测试模块用于对高速低延迟互联接口进行功能性测试。
其中,链路层MASTER模块实现控制逻辑并且可被各通道共享,如图5所示,链路层MASTER模块包括配置模块、Master状态寄存器、初始化引擎、训练控制器、复位与测试控制器、P1500控制器、指令流生成器和指令单元。Master控制寄存器包含所有被整个接口共享的逻辑控制寄存器,这些CSRs不包含在各通道中已经实现的控制寄存器。配置模块用于交互APB、TDR、JTAG事务以进行控制寄存器的读写,由于APB接口、JTAG接口、MASTER控制寄存器工作在不同的时钟域,因此配置模块除了将APB接口和JTAG接口的配置信息转换成内部控制寄存器数据之外,还需要对数据进行跨时钟域的处理。初始化引擎用于在硬件层面实现初始化流程并配合控制寄存器对HLII进行初始化的操作。同时,初始化引擎也可以进行频率切换,让HLII可以在不同的功耗状态下工作。训练控制器可以自动进行读延迟、读数据眼、写数据眼和基准电压训练。指令流生成器用于执行HLII内部以及P1500命令的引擎。指令单元可以集中式地完成HLII内部指令的解码和分发工作。复位与测试控制器则可以实现不同的控制:包括复位生成,I/O驱动的阻抗校准,提供给I/O receiver的全局基准电压、用于监控HLII内部测试信号的测试输出I/O口和接口测试模块的I/O口。
在一个实施例中,每个所述传输通道包括多个传输子通道(PHY Data WORD,PHYDWORD),每个所述传输子通道负责至少32bit的数据信号传输。每个所述逻辑控制通道包括多个逻辑控制子通道(Control Data WORD,Control DWORD),所述逻辑控制子通道和所述传输子通道一一对应,所述逻辑控制子通道用于控制和调度对应的传输子通道所传输的数据流。例如,逻辑控制通道0与传输通道0对应,逻辑控制通道0中的Control DWORD0与传输通道0中的PHY DWORD0对应,由Control DWORD0控制和调度传输通道0所传输的数据流。
在一个实施例中,物理层负责完成数据的发射和接受,整个物理层最多可被配置成八个通道,而每个通道又由4个PHY DWORD构成层级关系,每个PHY DWORD负责32bit的数据信号传输,每个传输通道支持128bit的数据并行传输,兼容DDR和SDR传输模式。
除了全速的8通道模式外,在另一个实施例中,高速低延迟互联接口还可被配置为1、2、4通道模式以满足不同案例的设计需求。所有高速低延迟互联接口的通道都是对称且相同的,对于一个多通道的高速接口物理层,其可支持与多块计算芯片进行互联。
参见图6,逻辑控制子通道(Control DWORD)包括控制模块、延迟线控制器、DWORD环回BIST、数据生成模块、Read Status。控制模块用于控制数据路径,承载数据信号,这些信号处在FPGA与硅介质之间且会经过高速低延迟接口。控制模块也包含了用于互联冗余和修复的数据通路重映射逻辑。延迟线控制器用于四条DWORD延迟线(WDQS_t/c延迟线,DQ延迟线,RDQS_t延迟线,RDQS_c延迟线)的控制、校准和的VT补偿。而DWORD环回BIST则用于回环和延迟线测试的BIST逻辑。数据生成模块用于生成用于训练和测试的数据。
参见图7,传输子通道(PHY DWORD)主要用于完成数据、信号的发射与接收功能,在一个实施例中,PHY DWORD包括多个DWORD位片、发射时钟生成模块、接受时钟生成模块、DWORD FIFO控制器、延迟线测试器和Rx时钟缓冲。每个PHY DWORD可处理48位数据信号,即其包含48个DWORD位片,每个位片由1个发送数据FIFO、1个接收数据FIFO、1个发送I/O和1个接收I/O组成。发射时钟生成模块用于产生高速时钟,为除了用于WDQS_t信号、WDQS_c信号、RDQS_t信号和RDQS_c信号的4个DWORD位片的其他所有数据位片提供该时钟,它由1个延迟线和一些胶连逻辑组成。接收时钟生成模块用于产生高速时钟,为用于WDQS_t信号、WDQS_c信号、RDQS_t信号和RDQS_c信号的4个DWORD位片提供该时钟,它由1个延迟线和一些胶连逻辑组成,RDQS_t和RDQS_c的DWORD位片仅被用于环回。接收时钟生成模块用于捕获读数据的时钟,它由2个延迟线(分别用于RDQS_t和RDQS_c)和一些胶连逻辑组成。发射FIFO用于发送命令和数据信号,同时用于同步发送由HLII内部时钟域到I/O时钟域的数据和命令信号。接收FIFO用于接收数据信号,同时用于同步接收由RDQS域到HLII内部时钟域的数据。延迟线测试器用于微调发送时钟上的延时,以将时钟集中到数据眼上,同时也是HLII实现训练的基础,针对该延迟线PHY DWORD还设计有延迟线测试模块,用于延迟线环形振荡器测试。所述DWORD FIFO控制器用于控制所述DWORD位片中的发送数据FIFO和接收数据FIFO。所述Rx时钟缓冲用于增加时钟驱动。
在HLII中,芯粒Die-to-Die之间的高速数据信号传输是基于物理层中的PHYDWORD完成的,1个PHY DWORD包含用于4个字节的逻辑,每个字节都有专用的数据掩码(DM)和专用的数据总线反向(DBI)信号,但是所有4个字节都共享相同的数据选通(strobe)对。图8展示了PHY DWORD的详细逻辑结构图以及其相对应的链路层中Control DWORD的方框图。
PHY DWORD中包含了面向上述48个数据信号的发送和环回路径,详细地,这些信号包括:
写数据选通对(WDQS_t和WDQS_c);
读数据选通对(RDQS_t和RDQS_c);
数据输入/输出(DQ[31:0]);
数据总线反向(DBI[3:0]);
数据掩码(DM[3:0]);
数据奇偶校验(PAR);
数据奇偶校验错误(DERR);
冗余数据(RD[1:0]);
尽管数据选通的在正常地读写操作下是单向的,但是在环回测试模式下还是分别为写和读选通实现接收器和驱动器。
PHY DWORD使用写数据接口(wrdata和wrdata_en)与HLII内部的链路层进行数据信号交互,链路层使用wrdata_en信号执行写事务。每个PHY DWORD都有自己独立的wrdata_en信号,这使得HLII能够工作在伪通道模式或legacy模式。图9展示了从DFI控制器到PHY输出(侧)的写数据发送路径的细节。
发送写数据信号的时序和控制信息从链路层写到了发送命令FIFO中,信息包括了发射使能、使能发送数据FIFO读时钟和更新发送数据FIFO读时钟上的延迟线的延时值(TxPhaseUpd)。TxEn和TxClkEn是来自链路层内部wrdata_en信号,仅当有效的写数据由控制器被发送时(也就是说,当wrdata_en有效时)被使能。
来自链路层的写数据在进入物理层前会经过链路层内部的重映射模块,以防HLII中的一些数据路径需要被重新映射,作为互联冗余修复的结果(互联冗余)。每一个写数据信号也穿过一个可选的粗延时流水,该流水用于延时链路层内的信号。
将在数据(DQ)信号上被送出的数据,通过PHY DWORD中的发送数据FIFO被发送。FIFO只在有效的写数据由控制器发送出时(也就是说,当wrdata_en被有效时)才会被写入。接收数据FIFO使用被延迟线延时的时钟读出,发送数据FIFO的输出穿过一个受时钟控制的发送电路。
对于这数据发射FIFO和数据接收FIFO,写时钟速率与读时钟速率之比均为1:2,因此,FIFO的每个输入都是2位的位宽,而输出是1位的位宽。因此读写两侧的FIFO的深度之比也为2:1,如果FIFO在写一侧的深度都是6,那么在读一侧的深度为12。
发送电路的输出使能不经过发送数据FIFO,但它会经过发送命令FIFO,因此对一个DWORD内的所有数据通道都是相同的。另外,为了减小电路面积,发送电路内的输出是不受时钟控制的。由于协调器周围的时序要求不那么严格,发送输出使能处的时序较为宽松。为了向任意通道中相同TxEn信号相对于TxDat满足的时序要求提供更多灵活性,可以用链路层内部的状态控制寄存器调整发射使能(TxEn)的时序,从而给相对发射数据(TxDat)的setup和/或hold提供更多裕量。
PHY DWORD使用读数据接口(rddata,rddata_en和rddata_valid))与链路层进行数据交互。链路层使能数据使能(rddata_en)信号来执行读事务,每个PHY DWORD自己都有一个独立的读数据使能(rddata_en)信号,这使能控制器能够将PHY工作在在伪通道模式或legacy模式。数据使用读数据信号(rddata)来返回到链路层,由读数据有效(rddata_valid)信号进行数据接收确认。图10展示了从物理层输入(侧)到链路层的读数据接收路径的细节。
发送读数据信号的时序和控制信息从链路层写到了发送命令FIFO中,信息包括了更新接收数据FIFO读时钟上更新延迟线(RxPhaseUpd)。RxPhaseUpd以及其他一般的FIFO控制(比如指针初始化)由初始化或VT更新过程中的通道初始化模块产生。
来自外部芯粒DIE的读数据(DQ)通过DQ接收I/O口被采样,并使用读数据选通(RDQS_t/RDQS_c)被写入接收数据FIFO。读数据选通通过延迟线被延时,以允许将选通信号对齐到读数据眼(read data eye)中心。由于外部芯粒DIE分别驱动RDQS_t和RDQS_c,使得LOW和HIGH值会同时有效,唯一的选通需要被掩蔽的时间就是存储器复位被置为无效之前的预初始化状态。因此,默认情况下,直到复位信号(reset)被置为无效之后选通信号才会打开。掩蔽读选通的行为可以使用HLII内部的控制状态寄存器进行改变。
链路层使用读数据使能信号来使能读出接收数据FIFO,来自接收数据FIFO的数据会经过链路层中的重映射模块,以防一些数据路径需要被重映射,作为HLII中互联冗余修复的结果。在经过校准之后,由读数据使能信号产生读数据有效信号信号,以丢弃在数据选通上升沿的pre-amble或post-amble上被锁定到FIFOs中的无效数据。读数据延迟通常由训练得到的延迟周期数补偿读数据的往返延迟。
接收数据FIFO的写时钟和读时钟的比例是1:1,写一侧具有双数据速率。因此,每个FIFO的输入是2位的位宽,输出也是2位的位宽。
第二方面,本申请实施例还提供了一种面向硅介质层互联的高速低延迟互联拓扑结构,包括叠在硅介质层上的多个芯粒和每个芯粒对应的至少一个互联接口,其中,所述互联接口为本申请实施例第一方面所述的高速低延迟互联接口。
在其中一个实施例中,所述互联接口的传输通道数量为1、2、4、8或更多;多个所述互联接口的传输通道对称且相同,以支持多个互联接口之间的对接。
图11展示了带有不同通道数的高速低延迟互联接口的芯粒之间的互联,从图中可看出芯粒1的HLII包含8个通道而芯粒2和芯粒3的HLII各包含4个通道,由于该高速低延迟互联接口是对称且相同的,所以单个多通道的高速低延迟互联接口可以与多个高速低延迟互联接口进行对接,图11即展示了一块8通道的FPGA DIE与两块4通道的FPGA DIE之间的互联方式。
本申请实施例提供的面向硅介质层互联的高速低延迟互联接口,用于在硅介质层上进行大规模IO互联,其包括物理层和链路层,链路层介于物理层与芯粒内部逻辑之间,链路层用于接收芯粒内部的信号,并可完成针对物理层的控制功能,物理层接收经过链路层传输的信号,例如链路层转换的数据信号,完成对该数据信号的发射与接收工作,例如将其通过硅介质发射至另一个高速低延迟互联接口的物理层,以及,接收另一个高速低延迟互联接口物理层传输的信号,将信号传输至所述链路层,以由所述链路层接收后传输至芯粒内部,完成面向硅介质层互联的高速低延迟互联接口间数据流的传输,以提供芯粒在硅介质层上无协议的高速数据传输,满足高效率数据传输和高性能功耗比等要求。
进一步地,上述面向硅介质层互联的高速低延迟互联接口,可支持多个通道,每个通道支持数据并行传输,兼容DDR和SDR传输模式,其中每个通道中包含多个传输子通道,每个传输子通道可提供至少32bit数据传输。本申请的高速低延迟互联接口可被配置为1、2、4、8或更多通道模式以满足不同案例的设计需求。所有高速低延迟互联接口的通道都是对称且相同的,对于一个多通道的高速接口物理层,其可支持与多块计算芯片进行互联。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种面向硅介质层互联的高速低延迟互联接口,其特征在于,包括物理层以及,介于芯粒内部逻辑与所述物理层之间的链路层;
所述链路层,用于接收芯粒内部的信号,将芯粒内部的信号传输至物理层,以及,根据芯粒内部的信号,对所述物理层进行控制,其中,所述芯粒内部的信号包括数据信号,所述将芯粒内部的信号传输至物理层包括将数据信号进行数据转换后发送至所述物理层;
所述物理层,用于接收经由所述链路层传输的信号,将信号通过硅介质发射至另一个高速低延迟互联接口的物理层,以及,接收另一个高速低延迟互联接口物理层传输的信号,将信号传输至所述链路层,以由所述链路层接收后传输至芯粒内部。
2.根据权利要求1所述的高速低延迟互联接口,其特征在于,所述芯粒内部的信号还包括配置信号和控制信号,所述对物理层进行控制包括对所述物理层进行数据转换、奇偶校验、训练、通道修复以及指令流生成。
3.根据权利要求1所述的高速低延迟互联接口,其特征在于,所述物理层包括至少一个传输通道,所述链路层包括至少一个逻辑控制通道,其中,所述传输通道和所述逻辑控制通道的数量相同;
所述传输通道用于传输数据信号,所述传输数据信号的模式包括DDR传输模式和SDR传输模式;
所述逻辑控制通道用于对所述传输通道的数据流进行控制和调度。
4.根据权利要求3所述的高速低延迟互联接口,其特征在于,每个所述传输通道包括多个传输子通道,每个所述传输子通道负责至少32bit的数据信号传输;
每个所述逻辑控制通道包括多个逻辑控制子通道,所述逻辑控制子通道和所述传输子通道一一对应,所述逻辑控制子通道用于控制和调度对应的传输子通道所传输的数据流。
5.根据权利要求4所述的高速低延迟互联接口,其特征在于,所述传输子通道包括多个DWORD位片、发射时钟生成模块、接受时钟生成模块、DWORD FIFO控制器、延迟线测试器和Rx时钟驱动;
每个所述DWORD位片包括发送数据FIFO、接收数据FIFO、发送I/O和接收I/O;
所述发射时钟生成模块用于产生高速时钟;
所述接受时钟生成模块用于产生高速时钟和捕获读数据的时钟;
所述DWORD FIFO控制器用于控制所述DWORD位片中的发送数据FIFO和接收数据FIFO;
所述延迟线测试器用于微调发送时钟上的延时,以将时钟集中于数据眼上;
所述Rx时钟驱动用于增加时钟驱动。
6.根据权利要求4所述的高速低延迟互联接口,其特征在于,所述逻辑控制子通道包括控制模块、延迟线控制器、DWORD环回BIST、数据生成模块、数据检查模块;
所述控制模块用于控制数据路径,承载数据信号;
所述延迟线控制器用于DWORD延迟线的控制、校准和VT补偿;
所述DWORD环回BIST用于回环和延迟线测试的BIST逻辑;
所述数据生成模块和所述数据检查模块用于生成训练和测试的数据。
7.根据权利要求3所述的高速低延迟互联接口,其特征在于,所述物理层还包括物理层Matser和接口测试模块;
所述物理层Matser用于为所述物理层提供全局时钟、复位信号和基准电压;
所述接口测试模块用于对高速低延迟互联接口进行功能性测试。
8.根据权利要求3所述的高速低延迟互联接口,其特征在于,所述链路层还包括链路层MASTER模块,所述链路层MASTER模块包括配置模块、Master状态寄存器、初始化引擎、训练控制器、复位与测试控制器、P1500控制器、指令流生成器和指令单元;
所述配置模块用于交互APB接口、TDR接口、JTAG接口事务以进行CSR的读写;
所述Master状态寄存器包括所有能被整个接口共享的逻辑状态寄存器;
所述初始化引擎用于在硬件层面实现初始化流程并配合状态寄存器对高速低延迟互联接口进行初始化的操作;
所述训练控制器用于自动进行读延迟、读数据眼、写数据眼和基准电压训练;
所述测试控制器用于复位生成,校准I/O驱动的阻抗,提供数据接收I/O的全局基准电压、监控高速低延迟互联接口内部测试信号的测试输出I/O口和接口测试模块的I/O口;
所述P1500控制器用于生成测试用的P1500指令;
所述指令流生成器用于执行高速低延迟互联接口内部以及P1500命令的引擎;
所述指令单元用于完成高速低延迟互联接口内部指令地解码和分发工作。
9.一种面向硅介质层互联的高速低延迟互联拓扑结构,其特征在于,包括叠在硅介质层上的多个芯粒和每个芯粒对应的至少一个互联接口;
其中,所述互联接口为权利要求1至8中任一项所述的高速低延迟互联接口。
10.根据权利要求9所述的高速低延迟互联拓扑结构,其特征在于,每个所述互联接口包括至少一个传输通道;多个所述互联接口的传输通道对称且相同,以支持多个互联接口之间的对接。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211730093.4A CN116050307A (zh) | 2022-12-30 | 2022-12-30 | 面向硅介质层互联的高速低延迟互联接口 |
US18/446,501 US20230385222A1 (en) | 2022-12-30 | 2023-08-09 | High-speed low-latency interconnect interface (hlii) for silicon interposer interconnection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211730093.4A CN116050307A (zh) | 2022-12-30 | 2022-12-30 | 面向硅介质层互联的高速低延迟互联接口 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116050307A true CN116050307A (zh) | 2023-05-02 |
Family
ID=86114162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211730093.4A Pending CN116050307A (zh) | 2022-12-30 | 2022-12-30 | 面向硅介质层互联的高速低延迟互联接口 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050307A (zh) |
-
2022
- 2022-12-30 CN CN202211730093.4A patent/CN116050307A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230395103A1 (en) | Memory bandwidth aggregation using simultaneous access of stacked semiconductor memory die | |
US7412627B2 (en) | Method and apparatus for providing debug functionality in a buffered memory channel | |
US8019907B2 (en) | Memory controller including a dual-mode memory interconnect | |
JP5300732B2 (ja) | 高速シリアルバッファを有するメモリシステム | |
US7200710B2 (en) | Buffer device and method of operation in a buffer device | |
US7051151B2 (en) | Integrated circuit buffer device | |
US6854042B1 (en) | High-speed data-rate converting and switching circuit | |
US20100169583A1 (en) | Multi-port memory device with serial input/output interface | |
TWI534625B (zh) | 將獨立邏輯區塊整合在單晶片系統內之技術 | |
JPH08227394A (ja) | データ処理システム及びその動作方法 | |
US9734116B2 (en) | Method, apparatus and system for configuring a protocol stack of an integrated circuit chip | |
CN112513827A (zh) | 使用hbm物理接口的高带宽芯片到芯片接口 | |
US10325637B2 (en) | Flexible point-to-point memory topology | |
US9910814B2 (en) | Method, apparatus and system for single-ended communication of transaction layer packets | |
CN110727637B (zh) | Fpga芯片及电子设备 | |
US20070150667A1 (en) | Multiported memory with ports mapped to bank sets | |
US9036718B2 (en) | Low speed access to DRAM | |
US20080104456A1 (en) | Memory system including asymmetric high-speed differential memory interconnect | |
CN116050307A (zh) | 面向硅介质层互联的高速低延迟互联接口 | |
US20230119889A1 (en) | Computer system based on wafer-on-wafer architecture | |
US20230385222A1 (en) | High-speed low-latency interconnect interface (hlii) for silicon interposer interconnection | |
US20070005834A1 (en) | Memory chips with buffer circuitry | |
US20240125851A1 (en) | Multi-modal memory apparatuses and systems | |
CN112667541B (zh) | 一种ip动态配置电路和fpga | |
US7269681B1 (en) | Arrangement for receiving and transmitting PCI-X data according to selected data modes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240430 Address after: No.5 Huihe Road, Binhu District, Wuxi City, Jiangsu Province Applicant after: The 58th Research Institute of China Electronics Technology Group Corp. Country or region after: China Address before: Floor 1-4, Building A6, No. 777 Jianzhu West Road, Binhu District, Wuxi City, Jiangsu Province, 214000 Applicant before: WUXI ZHONGWEI YIXIN Co.,Ltd. Country or region before: China |
|
TA01 | Transfer of patent application right |