CN113722268A - 一种存算一体的堆叠芯片 - Google Patents

一种存算一体的堆叠芯片 Download PDF

Info

Publication number
CN113722268A
CN113722268A CN202111028372.1A CN202111028372A CN113722268A CN 113722268 A CN113722268 A CN 113722268A CN 202111028372 A CN202111028372 A CN 202111028372A CN 113722268 A CN113722268 A CN 113722268A
Authority
CN
China
Prior art keywords
programmable gate
gate array
storage
memory
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111028372.1A
Other languages
English (en)
Inventor
周骏
郭一欣
左丰国
马亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Unilc Semiconductors Co Ltd
Original Assignee
Xian Unilc Semiconductors Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Unilc Semiconductors Co Ltd filed Critical Xian Unilc Semiconductors Co Ltd
Priority to CN202111028372.1A priority Critical patent/CN113722268A/zh
Publication of CN113722268A publication Critical patent/CN113722268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7867Architectures of general purpose stored program computers comprising a single central processing unit with reconfigurable architecture
    • G06F15/7871Reconfiguration support, e.g. configuration loading, configuration switching, or hardware OS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F2015/761Indexing scheme relating to architectures of general purpose stored programme computers
    • G06F2015/763ASIC
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F2015/761Indexing scheme relating to architectures of general purpose stored programme computers
    • G06F2015/768Gate array
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Design And Manufacture Of Integrated Circuits (AREA)

Abstract

本发明提供一种存算一体的堆叠芯片,包括:第一可编程门阵列组件,第一可编程门阵列组件包括第一接口模块,第一接口模块嵌入于第一可编程门阵列组件内,第一接口模块包括第一键合引出区域;第二可编程门阵列组件,第二可编程门阵列组件包括第二接口模块,第二接口模块嵌入于第二可编程门阵列组件内,第二接口模块包括第三键合引出区域;第一存储阵列组件,设置有第二键合引出区域;第一键合引出区域、第二键合引出区域、第三键合引出区域键合连接,以将第一可编程门阵列组件、第二可编程门阵列组件以及第一存储阵列组件上的互连信号连接在一起。实现存储访问的高带宽、低功耗的目的。

Description

一种存算一体的堆叠芯片
技术领域
本发明涉及集成电路技术领域,特别是涉及一种存算一体的堆叠芯片。
背景技术
随着应用计算规模的快速增长,存储访问的带宽和能耗开销成为限制规模性计算电路发展的重要因素。
发明内容
本发明提供一种存算一体的堆叠芯片,其能够实现存储访问的高带宽、低功耗。
为解决上述技术问题,本发明提供的一个技术方案为:提供一种存算一体的堆叠芯片,包括:第一可编程门阵列组件,第一可编程门阵列组件包括第一接口模块,第一接口模块嵌入于第一可编程门阵列组件内,第一接口模块包括第一键合引出区域;第二可编程门阵列组件,第二可编程门阵列组件包括第二接口模块,第二接口模块嵌入于第二可编程门阵列组件内,第二接口模块包括第三键合引出区域;第一存储阵列组件,设置有第二键合引出区域;第一键合引出区域、第二键合引出区域、第三键合引出区域键合连接,以将第一可编程门阵列组件、第二可编程门阵列组件以及第一存储阵列组件上的互连信号连接在一起。
其中,第二可编程门阵列组件设置于第一可编程门阵列组件远离第一存储阵列组件的一侧;第一接口模块还包括:第四键合引出区域,第四键合引出区域、第三键合引出区域键合连接,第一键合引出区域以及第二键合引出区域键合连接,以将第一可编程门阵列组件、第二可编程门阵列组件以及第一存储阵列组件上的互连信号连接在一起。
其中,第二可编程门阵列组件设置于第一存储阵列组件远离第一可编程门阵列组件的一侧;第一存储阵列组件还包括:第四键合引出区域,第四键合引出区域、第三键合引出区域键合连接,第一键合引出区域以及第二键合引出区域键合连接,以将第一可编程门阵列组件、第二可编程门阵列组件以及第一存储阵列组件上的互连信号连接在一起。
其中,第二可编程门阵列组件的数量至少为2。
其中,存算一体的堆叠芯片还包括:存储控制单元,存储控制单元设置于第一接口模块,或第二接口模块上;第一可编程门阵列组件以及第二可编程门阵列组件共用同一存储控制单元访问第一存储阵列组件的同一存储单元。
其中,第一可编程门阵列组件还包括:第一可编程逻辑单元,连接存储控制单元,第一可编程逻辑单元引出第一逻辑信号;第二可编程门阵列组件还包括:第二可编程逻辑单元,连接存储控制单元,第二可编程逻辑单元引出第二逻辑信号;存储控制单元基于第一逻辑信号以及第二逻辑信号选择第一可编程门阵列组件访问第一存储阵列组件或者第二可编程门阵列组件访问第一存储阵列组件。
其中,存算一体的堆叠芯片还包括:第一存储控制单元以及第二存储控制单元;第一存储控制单元设置于第一接口模块上,第二存储控制单元设置于第二接口模块上;第一可编程门阵列组件利用第一存储控制单元访问第一存储阵列组件的存储单元;第二可编程门阵列组件利用第二存储控制单元访问第一存储阵列组件的存储单元。
其中,第一可编程门阵列组件还包括:第一可编程逻辑单元,连接第一存储控制单元,第一可编程逻辑单元引出第一逻辑信号;第二可编程门阵列组件还包括:第二可编程逻辑单元,连接第二存储控制单元,第二可编程逻辑单元引出第二逻辑信号;响应于第一存储控制单元以及第二存储控制单元均控制第一存储阵列组件的所有存储单元,且第一可编程门阵列组件以及第二可编程门阵列组件同时访问同一存储单元时,第一存储控制单元基于第一逻辑信号控制第一可编程门阵列组件在第一时间访问存储单元;第二存储控制单元基于第二逻辑信号控制第二可编程门阵列组件在第二时间访问存储单元;响应于第一存储控制单元以及第二存储控制单元分别控制第一存储阵列组件的不同存储单元,第一存储控制单元以及第二存储控制单元同时控制第一可编程门阵列组件以及第二可编程门阵列组件访问第一存储阵列组件的不同存储单元。
其中,所述第一可编程门阵列组件包括多个功能模块,所述功能模块通过内部金属层连接至接口路由单元,所述第一接口模块通过内部金属层与所述接口路由单元互连。
其中,所述第一可编程门阵列组件包括:可编程路由网络,所述多个功能模块通过内部金属层与所述可编程路由网络互连,并通过所述可编程路由网络连接至所述接口路由单元。
本发明的有益效果,区别于现有技术的情况,本发明的存算一体的堆叠芯片通过第一键合引出区域、第二键合引出区域以及第三键合引出区域将所述第一可编程门阵列组件、所述第二可编程门阵列组件以及所述第一存储阵列组件上的互连信号连接在一起。并且设置第一键合引出区域的第一接口模块嵌入至第一可编程门阵列组件中,进而实现三维异质集成结构,实现存储访问的高带宽、低功耗的目的。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明存算一体的堆叠芯片的第一实施例的结构示意图;
图2为本发明第一可编程门阵列组件的平面结构示意图;
图3为图1中第一可编程门阵列组件对第一存储阵列组件的存储访问结构示意图;
图4为本发明存算一体的堆叠芯片的第二实施例的结构示意图;
图5为图4中第一可编程门阵列组件以及第二可编程门阵列组件对第一存储阵列组件的共享存储访问的结构示意图;
图6为图4中第一可编程门阵列组件以及第二可编程门阵列组件对第一存储阵列组件独立存储访问的的结构示意图;
图7为本发明存算一体的堆叠芯片的第三实施例的结构示意图;
图8为图7中第一可编程门阵列组件对第一存储阵列组件以及第二存储阵列组件的共享存储访问的结构示意图;
图9为图7中第一可编程门阵列组件对第一存储阵列组件以及第二存储阵列组件的独立存储访问的结构示意图;
图10为本发明存算一体的堆叠芯片的第四实施例的结构示意图;
图11为图10中第一可编程门阵列组件对第一存储阵列组件以及第二存储阵列组件的共享存储访问的结构示意图;
图12为图10中第一可编程门阵列组件对第一存储阵列组件以及第二存储阵列组件的独立存储访问的结构示意图;
图13为可编程路由网络和可编程逻辑块的结构示意图;
图14为功能组件210、220、230之间的三维异质集成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排它的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参见图1,为本发明存算一体的堆叠芯片的第一实施例的结构示意图。具体的,存算一体的堆叠芯片包括第一可编程门阵列组件1以及第一存储阵列组件2。本申请中,利用三维异质集成的方式将第一可编程门阵列组件1以及第一存储阵列组件2混合键合集成。三维异质集成是将两个芯片组件内部金属层直接跨芯片互连,物理及电气参数遵循半导体制程工艺特征,三维异质集成的互连密度和速度,较通过输入输出(I/O)接口,和/或,I/O电路实现的互连,极大提高,堆叠芯片内部互连,因此能够实现存算一体的堆叠芯片的高带宽、低功耗。
在一实施例中,第一存储阵列组件2可以为DRAM(Dynamic Random AccessMemory,动态随机存储器),在另一实施例中,第一存储阵列组件2还可以为SRAM(staticRandom Access Memory,静态随机存储器),当然考虑到技术迭代发展,第一存储阵列组件2还可以为其它类型的存储器或SRAM以及其它类型存储器的组合,例如闪存(Flash)、变阻存储器(RRAM或ReRAM)、磁阻存储器(MRAM)、铁电存储器(FeRAM)、氧化物电阻存储器(OxRAM)、电桥存储器(CBRAM)、相变存储器(PCM)、自旋转移力矩存储器(STT-MRAM)和电擦除存储器(EEPROM)等,具体不做限定。上述存储器有各自的特征优势,并可能需要存储控制器作为存储访问界面,存储控制器用于实现物理接口、数据读写、数据缓冲、数据预取、数据刷新和数据块重映射等功能,具体不做限定。
具体的,如图1所示,第一可编程门阵列组件1包括第一接口模块11,第一接口模块11嵌入至第一可编程门阵列组件1内。具体的,第一接口模块11包括第一键合引出区域111。第一存储阵列组件2设置有第二键合引出区域21。第一键合引出区域111与第二键合引出区域21通过三维异质集成键合结构键合在一起,进而实现第一可编程门阵列组件1与第一存储阵列组件2的三维异质集成,进而实现存算一体的堆叠芯片的高带宽、低功耗的可编程静态存算一体结构。三维异质集成键合能够大大提高第一可编程门阵列组件1与第一接口模块11的互连密度,并且能够进一步提高第一可编程门阵列组件1与第一存储阵列组件2的互连密度,降低互连分布参数,提高互连带宽并且降低互连功耗。
具体的,第一可编程门阵列组件1包括多个功能模块13,第一接口模块11位于多个功能模块13之间,第一接口模块11靠近功能模块13的一侧设置接口路由单元137,该接口路由单元137将功能模块13与第一接口模块11连接。具体的,功能模块13通过内部金属层连接至接口路由单元137,第一接口模块11通过内部金属层与接口路由单元137连接。在一具体实施例中,第一接口模块11的数量为一,在另一实施例中,第一接口模块11的数量至少为2,至少两个第一接口模块11分别穿插设置在多个功能模块13之间,并且通过接口路由单元137与功能模块13连接。图1所示的实施例中仅仅示出了一个第一接口模块11,在其它实施例中,还可以具有多个第一接口模块11,本申请并不以此为限,具体根据需求设置。
在一实施例中,如图2所示,图2为第一可编程门阵列组件1的平面结构示意图。功能模块13包括可编程逻辑块(Logic Array Block,LAB/Configurable Logic Block,CLB)133,存储块(Block Random Access Memory,BRAM)134,乘法单元(Digital SignalProcesser)135和乘加单元(Multiply Accumulate,MAC)138。需要说明的是,乘法单元135不是数字信号处理器芯片,是嵌入式可编程乘法单元。在一具体实施例中,功能模块13可以按照要求设置,不限定于本申请。
本实施例中,第一键合引出区域111即为第一可编程门阵列组件1中的三维异质集成互连资源,第一可编程门阵列组件1直接通过第一键合引出区域111与第一存储阵列组件2的第二键合引出区域21键合连接,实现高密度低分布参数的金属层直接互连,实现存储访问,避免利用第一可编程门阵列组件1通过IO接口和IO接口电路与第一存储阵列组件2互连,进而实现高带宽、低功耗的目的,并且具有密度高,分布参数低的优点。
在一实施例中,第一可编程门阵列组件1还包括:可编程路由网络。多个功能模块13通过内部金属层与可编程路由网络互连,并通过可编程路由网络连接至接口路由单元137。具体的,可编程路由网络用于以可编程的方式,利用第一可编程门阵列组件1的内部金属层,建立第一可编程门阵列组件1内部所有资源的互连和数据交换,功能模块13通过可编程路由网络建立模块之间和模块到存储设备的广泛的可重构的大带宽的数据互连。如图2所示,可编程路由网络连接存储路由单元136,存储块BRAM 134与存储路由单元136互连并连接至可编程存储路由网络,实现第一可编程门阵列组件1内所有功能模块13,通过存储路由单元136,对所有存储块BRAM 134的存储访问(现有技术)。可编程路由网络连接接口路由单元137,第一存储阵列组件2通过第一接口模块11与接口路由单元137互连并连接至可编程存储路由网络,实现第一可编程门阵列组件1内所有功能模块13通过接口路由单元137,对所有第一存储阵列组件2上存储阵列的存储访问。
具体的,第一可编程门阵列组件1上的所有功能模块13通过可编程路由网络连接至接口路由单元137,接口路由单元137与第一接口模块11对应的三维异质集成键合结构连接,进而建立功能模块13对所有第一存储阵列组件2上存储阵列的存储访问。由于可编程路由网络广泛分布在第一可编程门阵列组件1上,并支持可编程特性,无论是接近或远离第一接口模块11的功能模块13,都能通过可编程路由网络与接口路由单元137建立高密度芯片内金属层互连。第一接口模块11通过第一键合引出区域111、第二键合引出区域21与第一存储阵列组件2实现高密度低分布参数的跨芯片金属层直接互连,避免通过IO接口和IO接口电路带来的低互连密度、低互连速度和高互连功耗的不足,建立起所有功能模块13对所有第一存储阵列组件2上存储阵列的高带宽和低功耗的存储访问。
可以理解的是,可编程门阵列组件上存储块BRAM通过储路由单元连接至可编程路由网络,为功能模块提供高带宽存储资源,受限于可编程门阵列组件的面积约束,存储块BRAM的容量通常在几万至几百万个存储位(bit,memorycell)这无法满足常规应用需求。现有技术中,在可编程门阵列组件外,通过可编程门阵列组件和外部存储器的IO,扩展大容量存储资源,并通常将可编程门阵列组件内部的存储块BRAM作为外部大容量存储资源的缓存使用。受限于可编程门阵列组件外部扩展大容量存储资源的互连技术,外部存储访问带宽远低于内部,且存储访问功耗更大。与现有技术相比本申请的两个优势克服了上述不足:与功能模块和存储块BRAM的互连和存储访问结构相似,设计接口路由单元137和第一接口模块11,所有功能模块13,都能通过可编程路由网络与接口路由单元137建立高密度芯片内金属层互连,并且所有功能模块13都能够进一步通过接口路由单元137与第一接口模块11互连。由于第一接口模块11通过三维异质集成方式连接第一存储阵列组件2,也即实际上,本申请中,第一可编程门阵列组件1与第一存储阵列组件2,通过三维异质集成,建立芯片间金属层高密度互连,互连物理及电气参数遵循半导体制程工艺特征,继承存储块BRAM134与功能模块13通过储路由单元136在第一可编程门阵列组件1的芯片内的互连的高密度和高速度的带宽优势和低功耗优势,并近乎无限地扩展存储容量。如图2所示,功能模块13中的可编程逻辑块LAB/CLB 133、存储块BRAM 134、乘法单元DSP 135、乘累加单元MAC 138等均为条带状布局,存储路由单元136为条带状布局。可编程逻辑块LAB/CLB 133、存储块BRAM134、乘法单元DSP 135、乘累加单元MAC 138、存储路由单元136等根据需求在第一可编程门阵列组件1中,以如图2的条带状任意重复组合,并通过可编程路由网络建立可编程互连,具体组合方式,本申请并不加以限制。在本实施例中,设置第一接口模块11与功能模块13的形状契合,同样为条带状布局,以嵌入功能模块13之间,第一接口模块11基于功能模块13的尺寸在条带状长度方向上随功能模块13进行延伸和容量扩展。在一具体实施例中,设置接口路由单元137与功能模块13的形状契合,同样为条带状,以嵌入功能模块13之间,接口路由单元137基于功能模块13的尺寸在条带状长度方向上随第一接口模块11进行延伸以支持第一接口模块11的容量扩展;以此能够形成功能模块13与第一存储阵列组件2之间的大容量存储访问互连,互连密度远大于通过FPGA内部IO电路和/或对外IO接口与外部大容量存储器的互连,实现存算一体的堆叠芯片的高宽带、低功耗存储访问。
本实施例的存算一体的堆叠芯片,设计了接口路由单元137,能够大幅度提高总线的位宽,并且接口路由单元137直接连接至三维异质集成键合结构,通过三维异质集成互连结构与第一存储阵列组件2连接,能够实现大容量存储阵列的访问。
本实施例中,在第一可编程门阵列组件1上设置第一接口模块11实现与第一存储阵列组件2的存储访问,与传统技术中第一可编程门阵列组件1通过内部IO电路和对外IO接口与大容量外部存储器连接的方式不同,本实施例的存算一体的堆叠芯片能够节省第一可编程门阵列组件1的IO资源,提供远高于通过IO的外部存储互连密度,提高了存储访问带宽,降低了存储访问功耗。
在一实施例中,还可以在第一可编程门阵列组件1上设置全局总线,例如NOC AXIAHB等,可以实现第一可编程门阵列组件1上可编程逻辑跨区域存储访问。具体的,全局总线可以设置在第一接口模块11的附近,或者还可以设置在其它存储访问关连位置处,具体不做限定。
在一实施例中,如图2所示,第一可编程门阵列组件1中还可以设置专用集成电路阵列单元139,专用集成电路阵列单元139包括专用集成电路实现的硬核运算/处理单元(Processing Element),例如乘加计算阵列、乘法计算阵列、脉动处理器阵列、哈希计算阵列、多种编码器阵列、机器学习的专用层阵列、检索功能阵列、图像/视频处理阵列以及CPU和MCU等硬核运算/处理单元的一种或多种任意组合。与功能模块13在第一可编程门阵列组件1中的布局和互连相似,专用集成电路阵列单元139在第一可编程门阵列组件1中,为条带状布局,以嵌入功能模块13之间,尺寸在条带状长度方向上随功能模块13进行延伸和容量扩展,并广泛互连在可编程路由网络上,成为功能模块13的硬核运算/处理扩展电路。专用集成电路阵列单元139具备有限的可编程性或不具备可编程性,应用于特定需求的计算/处理加速,较具备任意可编程性的功能模块13的计算/处理密度大很多,显著增加存算一体的堆叠芯片计算/处理密度。
在一实施例中,结合具体应用需求,对专用集成电路阵列单元139的需求较高时,结合第一存储阵列组件2对第一可编程门阵列组件1的大容量存储跨芯片扩展方式,进行专用集成电路阵列单元139的跨芯片扩展:1.设计专用集成电路阵列单元139包括专用集成电路实现的硬核运算/处理单元,例如乘加计算阵列、乘法计算阵列、脉动处理器阵列、哈希计算阵列、多种编码器阵列、机器学习的专用层阵列、检索功能阵列、图像/视频处理阵列以及CPU和MCU等硬核运算/处理单元的一种或多种任意组合;2.第一可编程门阵列组件1上设计运算/处理接口模块,通过三维异质集成,与专用集成电路阵列单元139中的运算/处理单元建立高密度跨芯片互连;3.第一可编程门阵列组件1上设计运算/处理接口路由单元,建立可编程路由网络与运算/处理接口模块之间的片内金属层高密度互连。由此实现第一可编程门阵列组件1上的功能模块13,对集成电路阵列单元139上的运算/处理单元,基于高密度三维异质集成的调度,运算/处理单元的计算输入和计算结果,通过基于高密度三维异质集成的存储访问,映射至第一存储阵列组件2上的大容量存储阵列中。
在一实施例中,则存算一体的堆叠芯片进一步包括:存储控制单元113,存储控制单元113用于控制第一可编程门阵列组件1对第一存储阵列组件2的存储与访问。具体的,存储控制单元113可以设置于第一接口模块11上;或者第一可编程门阵列组件1上第一接口模块11附近;或者存储控制单元113设置于第一存储阵列组件2上。本实施例的存算一体的堆叠芯片,能够避免通过物理IO接口互连,进而节省IO资源,提供远高于IO接口的互连密度,提高了存储访问带宽,降低了存储访问功耗。实现了第一可编程门阵列组件1内部信号到第一存储阵列组件2的高密度、近距离互连。
在一优选实施例中,将存储控制单元113设置在第一接口模块11上。由于可编程门阵列组件访问存储阵列组件均需要通过第一接口模块11,这对数据流有利。在一优选实施例中,将存储控制单元113设置于第一可编程门阵列组件1上,由于可编程门阵列组件的工艺性能优于存储阵列组件,以此可以获得更高的密度和速度。在一优先实施例中,将存储控制单元113设置在第一接口模块11附近,能继承可编程门阵列组件的工艺性能,以获得更高的密度和速度,还能降低接口模块11的面积,减少三维异质集成的互连区域的面积开销,存储控制单元113还可以和功能模块13的可编程特性结合,使存储控制单元113的部分功能和/或参数可编程。在一优选实施例中,将存储控制单元113设置于存储阵列组件上,由于存储阵列组件工艺比可编程门阵列组件单位面积便宜,可以降低实现成本,并相对提高可编程门阵列组件密度。
在一实施例中,存算一体的堆叠芯片还包括:物理层114,物理层114用于当第一可编程门阵列组件1与第一存储阵列组件2的内核电压不同时,实现第一可编程门阵列组件1与第一存储阵列组件2之间三维异质集成互连的电平转换。在一实施例中,如图1所示,物理层114可以设置在第一接口模块11上。在另一实施例中,物理层114还可以设计在第一可编程门阵列组件1上,通常在第一接口模块11上或附近,以继承第一可编程门阵列组件1的工艺性能,获得更高的密度和速度;物理层114可以设计在第一存储阵列组件2上,通常在第一接口模块11的垂直投影区域上或附近,以节省第一可编程门阵列组件1的面积,提高第一可编程门阵列组件1的计算/处理密度。
本申请中,第一可编程门阵列组件1与第一存储阵列组件2跨芯片三维异质集成互连的物理及电气参数遵循半导体制程工艺特征,较传统PCB或2.5D封装,第一可编程门阵列组件1与第一存储阵列组件2的互连数量(存储访问带宽)提高4~2个数量级。较传统PCB或2.5D封装,实现第一可编程门阵列组件1与第一存储阵列组件2的直接互连,不经过IO接口和/或IO电路,使得互连距离更近,互连分布参数更低(尤其是互连线的对参考地分布电容更低),存储访问的功耗开销显著降低。形成第一可编程门阵列组件1与第一存储阵列组件2的近存存储访问架构,实现第一可编程门阵列组件1上的功能模块13就近存储访问,避免传统共享总线的存储访问冲突和效率降低;节省了传统技术中用于互连第一可编程门阵列组件1与外部大容量存储器件的IO开销。
在本申请的一实施例中,如图3,以存储控制单元设置于第一接口模块上为例进行说明。具体的,存储控制单元H21设置于第一接口模块H17上。第一存储阵列组件2上包括存储单元G13,第二键合引出区域G14设置在存储单元G13上,存储控制单元H21与第一键合引出区域H19连接,第一键合引出区域H19与第一存储阵列组件2上的第二键合引出区域G14连接。
进一步的,第一可编程门阵列组件1上设置有可编程逻辑单元K23,可编程逻辑单元K23通过接口路由单元H22连接存储控制单元H21。可编程逻辑单元K23引出逻辑信号,存储控制单元H21基于逻辑信号控制第一可编程门阵列组件1对第一存储阵列组件2进行存储访问。
本申请中,第一可编程门阵列组件1与第一存储阵列组件2的数量以及位置可以根据需求进行设置,如图4所示,图4为本发明存算一体的堆叠芯片的第二实施例的结构示意图。与上述图1所示的第一实施例相比,区别在于,本实施例的存算一体的堆叠芯片还包括:第二可编程门阵列组件3。第二可编程门阵列组件3设置于第一可编程门阵列组件1远离第一存储阵列组件2的一侧。具体的,第二可编程门阵列组件3包括第二接口模块31,且第二接口模块31包括第三键合引出区域32。本实施例中,第一接口模块11还包括第四键合引出区域12,第三键合引出区域32与第四键合引出区域12键合连接,以将第二可编程门阵列组件3与第二可编程门阵列组件1键合在一起。
本实施例的存算一体的堆叠芯片,设置有两层可编程门阵列组件,也即第二可编程门阵列组件3与第一可编程门阵列组件1,并且第二可编程门阵列组件3与第一可编程门阵列组件1通过第三键合引出区域32以及第四键合引出区域12键合连接。本实施例中,第三键合引出区域32即为第二可编程门阵列组件3的三维异质互连资源,也即第二可编程门阵列组件3直接通过互连资源与第一接口模块11连接,进而通过第一可编程门阵列组件1中的互连资源(第一键合引出区域111)实现与第一存储阵列组件2互连,实现存储访问,避免利用第二可编程门阵列组件3的IO接口与第一存储阵列组件2互连,进而实现高带宽、低功耗的目的,并且具有可编程资源密度高,分布参数低,存储访问速度快的优点。
存算一体的堆叠芯片中,相邻组件之间通过三维异质集成互连,逐层建立芯片内高密度金属层互连,存算一体的堆叠芯片中的构成组件被层叠设计和封装在同一个存算一体的堆叠芯片内,无需现有技术中的IO电路所提供的驱动、外部电平升压(输出时)、外部电平降压(输入时)、三态控制器、静电防护ESD和浪涌保护电路等功能,不用通过现有技术的IO接口和/或IO电路互连,而直接建立跨组件高密度金属层互连。因此减少可编程门阵列组件IO结构的使用,增加可编程门阵列组件和存储阵列组件的互连密度和互连速度;同时,三维异质集成互连因不通过传统IO结构,且互连距离较短,降低了芯片之间的通讯功耗;进而提高了存算一体的堆叠芯片的集成度以及可编程门阵列组件和存储阵列组件互连频率,并降低了互连功耗。由此可编程门阵列组件上广泛互连可编程资源的可编程路由网络跨芯片延伸至存储芯片上的大容量存储阵列,并形成广泛互连,实现可编程资源以高带宽、可编程的方式,对存储芯片上的大容量存储阵列的三维异质集成的存储访问。多层芯片同时兼具外部存储器的大容量,以及类似可编程门阵列组件上通过可编程路由网络互连存储块BRAM(现有技术,容量小)的,大位宽、高带宽的关键优势。从根本上突破了现有技术可编程门阵列芯片扩展大规模存储器的IO数量瓶颈、访存带宽瓶颈和访存功耗瓶颈。
相对于图1所示的第一实施例,本实施例的存算一体的堆叠芯片能够进一步提高计算密度,有利于更复杂的可重构计算。结合本实施例的存算一体的堆叠芯片,可以根据需求设置更多可编程门阵列组件,以提高存算一体的堆叠芯片中的可编程门阵列组件的密度。
需要说明的是,第二可编程门阵列组件3还可以与第一可编程门阵列组件1不同,其可以按照实际需要设置不同的功能模块。例如,在一实施例中,第一可编程门阵列组件1的功能模块包括可编程功能模块,可编程功能模块包括但不限于可编程逻辑块LAB/CLB、存储块BRAM、乘法单元DSP和乘累加单元MAC的任意组合;第二可编程门阵列组件3的功能模块可以部分/全部包括专用集成电路阵列单元,专用集成电路阵列单元包括但不限于乘加计算阵列、乘法计算阵列、脉动处理器阵列、哈希计算阵列、多种编码器阵列、机器学习的专用层阵列、检索功能阵列、图像/视频处理阵列以及CPU和MCU等硬核运算/处理单元的一种或多种任意组合。
在本实施例中,第一可编程门阵列组件1以及第二可编程门阵列组件3共用同一存储控制单元113访问第一存储阵列组件2的同一存储单元。具体的,本实施例中,存储控制单元113可以设置于第一接口模块11上或附近;存储控制单元113还可以设置于第二接口模块31上或附近;或者,存储控制单元113还可以设置于第一存储阵列组件2上。
具体的,在一实施例中,第一可编程门阵列组件1还包括:第一可编程逻辑单元,第一可编程逻辑单元连接存储控制单元113,第一可编程逻辑单元引出第一逻辑信号。第二可编程门阵列组件3还包括:第二可编程逻辑单元,第二可编程逻辑单元连接存储控制单元113,第二可编程逻辑单元引出第二逻辑信号。存储控制单元113基于第一逻辑信号以及第二逻辑信号选择第一可编程门阵列组件1访问第一存储阵列组件2或者选择第二可编程门阵列组件3访问第一存储阵列组件2。
具体的,如图5所示,以存储控制单元H21设置在第一接口模块H17上为例进行说明。第一存储阵列组件2上包括存储单元G13,第二键合引出区域G14设置在存储单元G13上,第一键合引出区域H19设置在第一接口模块H17上,且第一键合引出区域H19与第二键合引出区域G14键合连接。存储控制单元H21设置在第一接口模块H17上,且存储控制单元H21与第一键合引出区域H19连接。第一接口模块H17上还设置有第四键合引出区域H24,第四键合引出区域H24与存储控制单元H21连接。第二接口模块I27上设置有第三键合引出区域I28,第三键合引出区域I28与第四键合引出区域H24连接。进一步的,本实施例中,第一可编程门阵列组件1上还包括第一可编程逻辑单元H23,第一可编程逻辑单元H23连接存储控制单元H21。第二可编程门阵列组件321上还包括第二可编程逻辑单元I32,第二可编程逻辑单元I32,连接第三键合引出区域I28。
例如,在一实施例中,在第一可编程门阵列组件1需要访问第一存储阵列组件2时,第一可编程逻辑单元H23引出第一逻辑信号至存储控制单元H21,此时,存储控制单元H21基于第一逻辑信号控制第一可编程门阵列组件1通过第一键合引出区域H19、第二键合引出区域G14访问第一存储阵列组件2上的存储单元G13。在第二可编程门阵列组件3需要访问第一存储阵列组件2时,第二可编程逻辑单元I32引出第二逻辑信号至存储控制单元H21。此时,存储控制单元H21基于第二逻辑信号控制第二可编程门阵列组件3通过第三键合引出区域I28、第四键合引出区域H24访问第一存储阵列组件2上的存储单元G13。以此实现存储控制单元基于第一逻辑信号以及第二逻辑信号选择第一可编程门阵列组件1访问第一存储阵列组件2或者第二可编程门阵列组件3访问第一存储阵列组件2。
本实施例中,仅设计一个存储控制单元H21,存储控制单元H21可以位于第一接口模块H17上或附近,还可以位于第二接口模块I27上或附近,还可以位于第一存储阵列组件2上,具体不做限定。第一存储阵列组件2上的存储单元G13,通过第二键合引出区域G14和第一键合引出区域H19全部连接到存储控制单元H21,存储控制单元H21可直接连接两组存储访问接口(例如图5中的H19、H24),多组可编程门阵列组件通过该接口共享存储单元G13的存储访问。
在一实施例中,第一可编程逻辑单元H23以及第二可编程逻辑单元I32包括可编程逻辑块、存储块、乘法单元、乘累加单元和硬核运算/处理单元等的任意组合。第一可编程逻辑单元H23引出第一逻辑信号,第二可编程逻辑单元I32引出第二逻辑信号。由存储控制单元H21根据第一逻辑信号以及第二逻辑信号,将存储控制单元H21的存储访问接口切换到第一键合引出区域H19和第二键合引出区域G14键合的方向,或者切换到第四键合引出区域H24和第三键合引出区域I28键合的方向,由第一可编程逻辑单元H23以及第二可编程逻辑单元I32分时使用,实现了共享存储访问。
需要说明的是,本实施例中,第三键合引出区域I28与接口路由单元I30连接。并且接口路由单元I30将第二可编程逻辑单元I32连接至第四键合引出区域H24。
本实施例中,共用一个存储控制单元H21,占用面积小。
在另一实施例中,第一可编程门阵列组件1以及第二可编程门阵列组件3分别利用独立的存储控制单元访问第一存储阵列组件2的不同的存储单元。具体地,存算一体的堆叠芯片包括第一存储控制单元以及第二存储控制单元,第一可编程门阵列组件1利用第一存储控制单元访问第一存储阵列组件2的存储单元,第二可编程门阵列组件3利用第二存储控制单元访问第一存储阵列组件2的存储单元。
在本实施例中,第二存储控制单元设置于第二接口模块31上或附近,第一存储控制单元设置于第一接口模块11上或附近。在本实施例中,第一可编程门阵列组件1还包括:第一可编程逻辑单元,第一可编程逻辑单元连接第一存储控制单元,第一可编程逻辑单元引出第一逻辑信号;第二可编程门阵列组件3还包括:第二可编程逻辑单元,第二可编程逻辑单元连接第二存储控制单元,第二可编程逻辑单元引出第二逻辑信号。
响应于第一存储控制单元以及第二存储控制单元均控制第一存储阵列组件2的所有存储单元,且第一可编程门阵列组件1以及第二可编程门阵列组件3同时访问同一存储单元时,第一存储控制单元基于第一逻辑信号控制第一可编程门阵列组件1在第一时间访问存储单元;第二存储控制单元基于第二逻辑信号控制第二可编程门阵列组件3在第二时间访问存储单元。响应于第一存储控制单元以及第二存储控制单元分别控制第一存储阵列组件的不同存储单元,第一存储控制单元以及第二存储控制单元同时控制第一可编程门阵列组件1以及第二可编程门阵列组件3访问第一存储阵列组件2的不同存储单元。
具体的,本实施例中,若第一存储控制单元以及第二存储控制单元均控制第一存储阵列组件2的所有存储单元时,若第一可编程门阵列组件1以及第二可编程门阵列组件3同时访问同一存储单元时,第一存储控制单元以及第二存储控制单元分别控制第一可编程门阵列组件1以及第二可编程门阵列组件3访问该存储单元。具体的,第一存储控制单元基于第一逻辑信号控制第一可编程门阵列组件1在第一时间访问存储单元,第二存储控制单元基于第二逻辑信号控制第二可编程门阵列组件3在第二时间访问存储单元,实现不同可编程门阵列对同一个存储单元的分时访问,即消除访问冲突。
具体的,第一可编程门阵列组件1可包含存储单元的仲裁逻辑,基于第一逻辑信号以及第二逻辑信号,选择被第一存储控制单元或者第二存储控制单元访问。当第一可编程门阵列组件1的第一存储控制单元和第二可编程门阵列组件3的第二存储控制单元分别同时访问第一存储阵列组件2的同一存储单元的相同区域时,第一可编程门阵列组件1中的存储单元的仲裁逻辑,基于第一逻辑信号以及第二逻辑信号,分时建立第一可编程门阵列组件1的第一存储控制单元或第二可编程门阵列组件3的第二存储控制单元访问。第一可编程门阵列组件1中的存储单元的仲裁逻辑还可以设置在第一存储阵列组件2或第二可编程门阵列组件3上。也即,基于仲裁逻辑选择第一可编程门阵列组件1和第二可编程门阵列组件3分时访问第一存储阵列组件2。
在另一实施例中,在第一存储控制单元以及第二存储控制单元分别控制第一存储阵列组件的不同存储单元时,第一存储控制单元以及第二存储控制单元同时控制第一可编程门阵列组件1以及第二可编程门阵列组件3访问第一存储阵列组件2的不同存储单元。
具体的,当第一可编程门阵列组件1的第一存储控制单元和第二可编程门阵列组件3的第二存储控制单元分别同时访问第一存储阵列组件2的不同存储单元时,由于各自存储控制单元独立,第一可编程门阵列组件1中的存储单元中的仲裁逻辑,基于第一逻辑信号以及第二逻辑信号,可以同时建立第一可编程门阵列组件1的第一存储控制单元和第二可编程门阵列组件3的第二存储控制单元对第一存储阵列组件2的存储单元的访问。
本实施例中,每个逻辑组件有独立存储访问接口,访存带宽最高,访问存储阵列的具体单元不同时,可以同时访问;写入存储阵列的共享区域,具体单元相同时出现冲突,需要仲裁和分时访问。具体的,在第一存储控制单元以及第二存储控制单元均控制第一存储阵列组件2的所有存储单元时,若同时访问同一存储单元时,则需要分时访问。在第一存储控制单元以及第二存储控制单元控制的存储单元不同时,则不需要分时访问。
在本实施例中,第二存储控制单元设置于第二接口模块31上或附近,第一存储控制单元设置于第一接口模块11上或附近。在本实施例中,第一存储控制单元基于第一逻辑信号控制第一可编程门阵列组件1访问第一存储阵列组件2的部分存储单元;第二存储控制单元基于第二逻辑信号控制第二可编程门阵列组件3访问第一存储阵列组件2的其余部分存储单元;第二可编程门阵列组件1访问第一存储阵列组件2的存储单元与第一可编程门阵列组件3访问区域不重叠。第一可编程逻辑单元利用第一存储控制单元,和第二可编程逻辑单元利用第二存储控制单元,独立同时访问各自对应的第一存储阵列组件2上不同存储单元。
本实施例中,每个逻辑组件有独立存储访问接口,访存带宽最高,访问切分第一存储阵列组件2给不同可编程逻辑单元利用存储控制单元组合;实现了不同可编程逻辑单元的并发存储访问,并无需因仲裁和分时访问而降低存储访问效率。
具体的,请参见图6,第一存储阵列组件2上包括存储单元G13,其中,存储单元G13上设置有两个第二键合引出区域,分别为第二键合引出区域G14以及第二键合引出区域G12。其中,第二键合引出区域G14连接到位于第一可编程门阵列组件1上的第一接口模块H17上的第一键合引出区域H19。第一可编程门阵列组件1的第一接口模块H17上设置有第一存储控制单元H20,第一存储控制单元H20用于控制第一可编程门阵列组件1访问第一存储阵列组件2。具体的,第一存储控制单元H20连接第一键合引出区域H19。第一可编程门阵列组件1上设置有第一可编程逻辑单元H23,第一可编程逻辑单元H23通过接口路由单元H22连接至第一存储控制单元H20。在第一可编程门阵列组件1访问第一存储阵列组件2时,第一可编程逻辑单元H23引出第一逻辑信号至第一存储控制单元H20,第一存储控制单元H20基于第一逻辑信号控制第一可编程门阵列组件1通过第一键合引出区域H19、第二键合引出区域G14访问第一存储阵列组件2的部分存储单元单元G13。
另外,第二键合引出区域G12连接到第一接口模块H17上的第一键合引出区域H18上,第一键合引出区域H18与第二可编程门阵列组件3上的第三键合引出区域I28连接。第二可编程门阵列组件3还包括第二可编程逻辑单元I32,第二可编程逻辑单元I32通过接口路由单元I31连接位于第二可编程门阵列组件3的第二接口模块I27上的第二存储控制单元I29。在第二可编程门阵列组件3访问第一存储阵列组件2时,第二可编程逻辑单元I32引出第二逻辑信号至第二存储控制单元I29,第二存储控制单元I29基于第二逻辑信号控制第二可编程门阵列组件3通过第三键合引出区域I28、第一键合引出区域H18、第二键合引出区域G14访问第一存储阵列组件2的其余部分存储单元单元G13。
通过图6所示的连接方式实现第一可编程门阵列组件1以及第二可编程门阵列组件3对第一存储阵列组件2的独立存储访问。可以理解的,可编程门阵列组件还可以为3层、4层具体不做限定。
需要说明的是,本申请的第一可编程门阵列组件1以及第二可编程门阵列组件3可以为FPGA(现场可编程门阵列)或者eFPGA(非易失性现场可编程门阵列)。在一优选实施例中,第一可编程门阵列组件1以及第二可编程门阵列组件3为FPGA(现场可编程门阵列)或eFPGA(嵌入式现场可编程门阵列)。
本实施例的存算一体的堆叠芯片中,第二可编程门阵列组件3对第一存储阵列组件2的存储访问不经过IO接口和/或IO电路,使得互连距离更近,互连分布参数更低、存储访问的功耗开销显著降低。芯片制造过程中,可以同时生产第二可编程门阵列组件3以及第一可编程门阵列组件1,并且在将第二可编程门阵列组件3与第一可编程门阵列组件1键合后再与第一存储阵列组件2键合,能够降低工艺复杂度,节省成本。但是第二可编程门阵列组件3对第一存储阵列组件2的存储访问需要经过第一接口模块11以及第二接口模块31,会造成轻微面积损失。
本申请还提出另一实施例,该实施例中,多个可编程门阵列组件对至少一个存储阵列组件,通过混合使用图5和图6方法设计复用或独立存储控制单元,实现混合存储访问。在同一个存算一体的堆叠芯片中,部分区域的可编程逻辑单元,使用图5所示复用存储控制单元实现存储访问;部分区域的可编程逻辑单元使用图6所示独立存储控制单元。
本申请还提出另一实施例,该实施例中,第二可编程门阵列组件3设置于第一存储阵列组件2远离第一可编程门阵列组件1的一侧。也即第一存储阵列组件2设置于第二可编程门阵列组件3以及第一可编程门阵列组件1之间。其中,第一存储阵列组件2包括第四键合引出区域,第四键合引出区域与第三键合引出区域构成三维异质集成互连。本实施例中,第二可编程门阵列组件3以及第一可编程门阵列组件1均能够实现与第一存储阵列组件2的直接互连,增加可编程处理密度,并有利于更大的存储访问带宽。
本实施例中,第一可编程门阵列组件1对第一存储阵列组件2的存储访问只需要经过第一接口模块11,且第二可编程门阵列组件3对第一存储阵列组件2的存储访问只需要经过第二接口模块31。这种结构使得第二可编程门阵列组件3与第一存储阵列组件2之间的互连距离更近,能够进一步降低存储访问功耗。但是这种结构的存算一体的堆叠芯片在制备过程中,需要先将第二可编程门阵列组件3与第一存储阵列组件2进行键合,再与第一可编程门阵列组件1进行键合。
请参见图7,为本发明存算一体的堆叠芯片的第三实施例的结构示意图,与上述图1所示的第一实施例相比,区别在于,本实施例的存算一体的堆叠芯片还包括:第二存储阵列组件4。第二存储阵列组件4设置于第一存储阵列组件2远离第一可编程门阵列组件1的一侧,第二存储阵列组件4设置有第三键合引出区域41。本实施例中,第一存储阵列组件2还包括第四键合引出区域12,第三键合引出区域41与第四键合引出区域12构成三维异质集成互连。
本实施例中,集成更多的存储阵列组件,有利于增加存储密度,并实现更大的存储访问带宽。本实施例中,集成更多的存储阵列组件,有利于增加存储密度,将多个存储阵列组件统一生产和测试构成标准产品后,与逻辑组件集成,有利于降低成本。
在一实施例中,第一可编程门阵列组件1共用同一存储控制单元访问第一存储阵列组件2和第二存储阵列组件4。具体的,在第一可编程门阵列组件1共用同一存储控制单元访问第一存储阵列组件2和第二存储阵列组件4,为了避免访问冲突,存储控制单元可以分时选择性的选择第一可编程门阵列组件1访问第一存储阵列组件2或者第二存储阵列组件4。
具体请参见8,本实施例中,存算一体的堆叠芯片还包括存储控制单元H21,存储控制单元H21设置于第一接口模块H17上。本实施例中,第一接口模块H17包括两个第一键合引出区域,分别为第一键合引出区域H19以及第一键合引出区域H18。第一存储阵列组件2上设置多个存储单元G13,存储单元G13上有两个第二键合引出区域,分别为第二键合引出区域G12以及第二键合引出区域G14。第二存储阵列组件4上设置有多个存储单元F01,存储单元F01上设置有第三键合引出区域I28。
具体的,第一键合引出区域H18连接第二键合引出区域G14。存储控制单元H21连接第一键合引出区域H18。以此,存储控制单元H21可以通过第一键合引出区域H18、第二键合引出区域G14控制第一可编程门阵列组件1访问第一存储阵列组件2。
第一键合引出区域H19连接第二键合引出区域G12,第二键合引出区域G12连接第三键合引出区域I28。以此,存储控制单元H21可以通过第一键合引出区域H19、第二键合引出区域G12、第三键合引出区域I28控制第一可编程门阵列组件1访问第二存储阵列组件4。需要说明的是,第二键合引出区域G12不连接存储单元G13。
本实施例中,第一可编程门阵列组件1还包括可编程逻辑单元K23,可编程逻辑单元K23通过接口路由单元H22连接存储控制单元H21,可编程逻辑单元K23引出逻辑信号。存储控制单元H21基于逻辑信号分时选择性的控制第一可编程门阵列组件1访问第一存储阵列组件2,或者控制第一可编程门阵列组件1访问第二存储阵列组件4。具体的,在存储控制单元H21基于逻辑信号,在第一时间控制第一可编程门阵列组件1访问第一存储阵列组件2,在第二时间控制第一可编程门阵列组件1访问第二存储阵列组件4。
在一实施例中,第一可编程门阵列组件1分别利用两个不同的存储控制单元访问第一存储阵列组件2和第二存储阵列组件4。具体的,在第一可编程门阵列组件1分别利用两个不同的存储控制单元访问第一存储阵列组件2和第二存储阵列组件4,由于不存在访问冲突,存储控制单元可以同时控制第一可编程门阵列组件1访问第一存储阵列组件2,并控制第一可编程门阵列组件1访问第二存储阵列组件4。具体的,第一存储控制单元控制第一可编程门阵列组件1访问第一存储阵列组件2,第二存储控制单元控制第一可编程门阵列组件1访问第二存储阵列组件4。
具体请参见图9,本实施例中,存算一体的堆叠芯片还包括第一存储控制单元H20以及第二存储控制单元I29,第一存储控制单元H20以及第二存储控制单元I29设置于第一接口模块H17上。本实施例中,第一接口模块H17包括两个第一键合引出区域,分别为第一键合引出区域H19以及第一键合引出区域H18。第一存储阵列组件2上设置多个存储单元G13,存储单元G13上有两个第二键合引出区域,分别为第二键合引出区域G12以及第二键合引出区域G14。第二存储阵列组件4上设置有多个存储单元F01,存储单元F01上设置有第三键合引出区域I28。
本实施例中,第一存储控制单元H20连接第一键合引出区域H18,第一键合引出区域H18连接第二键合引出区域G14。以此,第一存储控制单元H18可以通过第一键合引出区域H18、第二键合引出区域G14控制第一可编程门阵列组件1访问第一存储阵列组件2。
进一步的,第二存储控制单元I29连接第一键合引出区域H19,第一键合引出区域H19连接第二键合引出区域G12,第二键合引出区域G12连接第三键合引出区域I28。以此,第二存储控制单元I29可以通过第一键合引出区域H19、第二键合引出区域G12、第三键合引出区域I28控制第一可编程门阵列组件1访问第二存储阵列组件4。需要说明的是,第二键合引出区域G12不连接存储单元G13。
本实施例中,第一可编程门阵列组件1还包括:可编程逻辑单元K23,可编程逻辑单元K23连接第一存储控制单元H20和第二存储控制单元I29,可编程逻辑单元K23引出逻辑信号。具体的,可编程逻辑单元K23通过接口路由单元H22分别连接第一存储控制单元H20和第二存储控制单元I29。本实施例中,第一存储控制单元H20基于逻辑信号控制第一可编程门阵列组件1访问第一存储阵列组件2,第二存储控制单元I29同时基于逻辑信号控制第一可编程门阵列组件1访问第二存储阵列组件4。
本申请还提出另一实施例,该实施例中,多个存储阵列组件对至少一个可编程门阵列组件,通过混合使用图8和图9方法设计复用或独立存储控制单元,实现混合存储访问。在同一个存算一体的堆叠芯片中,部分区域的可编程逻辑单元,使用图8所示复用存储控制单元实现存储访问;部分区域的可编程逻辑单元使用图9所示独立存储控制单元实现存储访问。
在另一实施例中,如图10所示,第二存储阵列组件4还可以设置于第一可编程门阵列组件1远离第一存储阵列组件2的一侧。本实施例中,第一接口模块11还包括第四键合引出区域12,第三键合引出区域41与第四键合引出区域12构成三维异质集成互连。
本实施例中,集成更多的存储阵列组件,有利于增加存储密度。并且由于第一存储阵列组件2与第二存储阵列组件4直接与第一可编程门阵列组件1连接,减少三维异质集成中专,互连距离更近,存储访问距离短,分布参数小,存储访问频率和功耗最优。
在一实施例中,第一可编程门阵列组件1共用同一存储控制单元访问第一存储阵列组件2和第二存储阵列组件4。具体的,在第一可编程门阵列组件1共用同一存储控制单元访问第一存储阵列组件2和第二存储阵列组件4,为了避免访问冲突,存储控制单元可以分时选择性的选择第一可编程门阵列组件1访问第一存储阵列组件2或者第二存储阵列组件4。
具体请参见11,本实施例中,存算一体的堆叠芯片还包括存储控制单元H21,存储控制单元H21设置于第一接口模块H17上。本实施例中,第一接口模块H17包括两个第一键合引出区域,分别为第一键合引出区域H19以及第一键合引出区域H18。第一存储阵列组件2上设置多个存储单元G13,存储单元G13上有第二键合引出区域G14。第二存储阵列组件4上设置有多个存储单元F01,存储单元F01上设置有第三键合引出区域I28。
具体的,第一键合引出区域H18连接第二键合引出区域G14。存储控制单元H21连接第一键合引出区域H18。以此,存储控制单元H21可以通过第一键合引出区域H18、第二键合引出区域G14控制第一可编程门阵列组件1访问第一存储阵列组件2。
存储控制单元H21可以通过第一键合引出区域H19,第一键合引出区域H19连接第三键合引出区域I28。以此,存储控制单元H21可以通过第一键合引出区域H19、第三键合引出区域I28控制第一可编程门阵列组件1访问第二存储阵列组件4。
本实施例中,第一可编程门阵列组件1还包括可编程逻辑单元K23,可编程逻辑单元K23通过接口路由单元H22连接存储控制单元H21,可编程逻辑单元K23引出逻辑信号。存储控制单元H21基于逻辑信号分时选择性的控制第一可编程门阵列组件1访问第一存储阵列组件2,或者控制第一可编程门阵列组件1访问第二存储阵列组件4。具体的,在存储控制单元H21基于逻辑信号,在第一时间控制第一可编程门阵列组件1访问第一存储阵列组件2,在第二时间控制第一可编程门阵列组件1访问第二存储阵列组件4
在一实施例中,第一可编程门阵列组件1分别利用两个不同的存储控制单元访问第一存储阵列组件2和第二存储阵列组件4。具体的,在第一可编程门阵列组件1分别利用两个不同的存储控制单元访问第一存储阵列组件2和第二存储阵列组件4,由于不存在访问冲突,存储控制单元可以同时控制第一可编程门阵列组件1访问第一存储阵列组件2,并控制第一可编程门阵列组件1访问第二存储阵列组件4。具体的,第一存储控制单元控制第一可编程门阵列组件1访问第一存储阵列组件2,第二存储控制单元控制第一可编程门阵列组件1访问第二存储阵列组件4。
具体请参见图12,本实施例中,存算一体的堆叠芯片还包括第一存储控制单元H20以及第二存储控制单元I29,第一存储控制单元H20以及第二存储控制单元I29设置于第一接口模块H17上。本实施例中,第一接口模块H17包括两个第一键合引出区域,分别为第一键合引出区域H19以及第一键合引出区域H18。第一存储阵列组件2上设置多个存储单元G13,存储单元G13上有第二键合引出区域G14。第二存储阵列组件4上设置有多个存储单元F01,存储单元F01上设置有第三键合引出区域I28。
本实施例中,第一存储控制单元H20连接第一键合引出区域H18,第一键合引出区域H18连接第二键合引出区域G14。以此,第一存储控制单元H18可以通过第一键合引出区域H18、第二键合引出区域G14控制第一可编程门阵列组件1访问第一存储阵列组件2。
进一步的,第二存储控制单元I29连接第一键合引出区域H19,第一键合引出区域H19连接第三键合引出区域I28。以此,第二存储控制单元I29可以通过第一键合引出区域H19、第三键合引出区域I28控制第一可编程门阵列组件1访问第二存储阵列组件4。
本实施例中,第一可编程门阵列组件1还包括:可编程逻辑单元K23,可编程逻辑单元K23连接第一存储控制单元H20和第二存储控制单元I29,可编程逻辑单元K23引出逻辑信号。具体的,可编程逻辑单元K23通过接口路由单元H22分别连接第一存储控制单元H20和第二存储控制单元I29。本实施例中,第一存储控制单元H20基于逻辑信号控制第一可编程门阵列组件1访问第一存储阵列组件2,第二存储控制单元I29同时基于逻辑信号控制第一可编程门阵列组件1访问第二存储阵列组件4。
本申请还提出另一实施例,该实施例中,多个存储阵列组件对至少一个可编程门阵列组件,通过混合使用图11和图12方法设计复用或独立存储控制单元,实现混合存储访问。在同一个存算一体的堆叠芯片中,部分区域的可编程逻辑单元,使用图11所示复用存储控制单元实现存储访问;部分区域的可编程逻辑单元使用图12所示独立存储控制单元实现存储访问。
本申请中,存储阵列组件可以是多层芯片,通过三维异质集成键合的组合;专用集成电路阵列组件可以设置乘加计算阵列、乘法计算阵列、脉动处理器阵列、哈希计算阵列、多种编码器阵列、机器学习的专用层阵列、检索功能阵列、图像/视频处理阵列以及CPU和MCU等硬核运算/处理单元的一种或多种任意组合,用于与编程门阵列组件组合使用,提高存算一体的堆叠芯片的处理密度。
具体的,组件可以为晶粒(die或者chip)、晶圆(wafer)中至少一种,但不以此为限,也可以是本领域技术人员所能想到的任何替换。其中,晶圆(wafer)是指制作硅半导体电路所用的硅晶片,芯片或晶粒(chip or die)是指将上述制作有半导体电路的晶圆进行分割后的硅晶片。例如,本申请的存储阵列组件可以为存储阵列晶粒(DRAM die或者DRAMchip)、存储阵列晶圆(DRAM wafer)。
基于与方法同样的发明构思,本发明实施例还提供了一种三维异质集成的存算一体的堆叠芯片结构。该存算一体的堆叠芯片上设有层次化堆叠组件,通过三维异质集成互连,这些组件可以为上文任一组件。在该存算一体的堆叠芯片进行制备时,还可以,直接以晶圆(wafer)为单位进行制备,以及进行三维异质集成。
在存算一体的堆叠芯片进行制备时,还可以,部分以晶圆(wafer)为单位进行制备,并及进行三维异质集成,具体有两种方法:先将部分晶圆层进行三维异质集成后,形成中间产品,再将其余晶圆层与中间产品进行上述迭代,直至完成制备;或先将部分晶圆层进行三维异质集成后,形成中间产品,后将中间产品切割成晶粒(die),与其它组件的晶粒进行晶粒对晶粒的三维异质集成,完成制备。
具体的,图4所述多层可编程门阵列组件与至少一层存储阵列组件组成存算一体的堆叠芯片的制备过程有两种方法:将多层可编程门阵列组件以晶圆为单位,进行三维异质集成,形成中间产品,以提高互连密度,将中间产品,再与至少一层存储阵列组件形成的中间产品,进行三维异质集成,得到存算一体的堆叠芯片;或者,将多层可编程门阵列组件以晶圆为单位,进行三维异质集成,形成中间产品,将中间产品切割成晶粒并测试后,再与至少一层存储阵列组件形成的切割测试后的中间产品,进行晶粒对晶粒的集成,得到存算一体的堆叠芯片,因为成品来源于切割和测试后的组件的三维异质集成,良率得到显著提高。
同样的,图7所述多层存储阵列组件与至少一层可编程门阵列组件组成存算一体的堆叠芯片的制备过程有两种方法:将多层存储阵列组件以晶圆为单位,进行三维异质集成,形成中间产品,以提高互连密度,将中间产品,再与至少一层可编程门阵列组件形成的中间产品,进行三维异质集成,得到存算一体的堆叠芯片;或者,将多层存储阵列组件以晶圆为单位,进行三维异质集成,形成中间产品,将中间产品切割成晶粒并测试后,再与至少一层可编程门阵列组件形成的切割测试后的中间产品,进行晶粒对晶粒的集成,得到存算一体的堆叠芯片,因为成品来源于切割和测试后的组件的三维异质集成,良率得到显著提高。
存算一体的堆叠芯片的可编程门阵列组件和存储阵列组件的层次数量和层次顺序,取决于应用场景、工程需求以及生产成本和生产良率的复杂博弈,所得最优结果不单一。不同层次数量和层次顺序的不同目标产品,所需生产制备工艺也是多样化的,并且对存储控制器的设计和复用设计存在有明显差异。
可编程门阵列组件中,可编程功能模块与可编程路由网络的广泛互连,参见图13,可编程门阵列组件基于现场可编程逻辑门阵列(Field-ProgrammableGateArray,FPGA/Embedded Field-Programmable Gate Array,eFPGA)技术的扩展,可编程门阵列组件包括可编程逻辑块11A和可编程路由网络11B(interconnect);可编程逻辑块11A通过路由网络11B而彼此互联而被配置为若干可编程功能模块,且可编程路由网络11B的至少一部分可扩展至接口路由单元,进而通过三维异质集成,跨层次互连大容量存储阵列,形成大容量、高带宽、可编程存储访问。
三维异质集成是一种层叠芯片互连键合的技术,例如混合键合(Hybrid Bonding)工艺等。通过在已制备的芯片(例如可编程门阵列组件或存储阵列组件)基础上,利用后道工序(BEOL)制造的三维异质集成键合层,实现芯片之间信号的高密度互连,制备得到存算一体的堆叠芯片。
具体以图14为例说明。图14中,存算一体的堆叠芯片包含功能组件210、功能组件220和功能组件230,功能组件210、功能组件220和功能组件230可以为可编程门阵列组件和/或存储阵列组件。功能组件210、功能组件220和功能组件230均包含顶层金属层、内部金属层有源层和衬底,其中,顶层金属层和内部金属层用于组件内信号互连;有源层用于实现晶体管,组成模块功能;衬底用于保护模块及提供机械支撑等。功能组件210和功能组件220上接近顶层金属层一面,通过后道工序制造三维异质集成键合层,并互连,形成面对面的互连结构;功能组件220上接近衬底一面和功能组件230上接近顶层金属层一面,通过后道工序制造三维异质集成键合层,并互连,形成背对面(或面对背)的互连结构。功能组件210、功能组件220和功能组件230之间,可以任意通过三维异质集成建立跨组件信号互连。区别于功能组件210、功能组件220和功能组件230的内核电压是否相同,对应两种互连技术。
当功能组件210和功能组件230的内核电压相同时,以功能组件210中的功能电路1,需要与功能组件230中的功能电路10建立跨组件互连为例:功能电路1在功能组件210中内部金属层的引出信号,通过功能组件210的顶层金属,连接功能组件210与功能组件220之间的面对面三维异质集成键合结构,进而与功能组件220的顶层金属互连;互连信号,通过功能组件220的内部金属层,以及贯穿功能组件220的有源层和减薄衬底的硅通孔(TSV),互连至功能组件220与功能组件230之间的背对面三维异质集成键合结构,进而互连至功能组件230的顶层金属层;互连信号通过功能组件230的内部金属层,实现跨组件互连功能组件230中的功能电路10。
当功能组件210和功能组件230的内核电压不同时候,以功能组件中的功能电路2,需要与功能组件230中的功能电路10建立跨组件互连为例:在功能组件210中设计电平转换电路2,电平转换电路2与功能电路2在功能组件210中互连;电平转换电路2将功能电路2的互连信号转换成匹配功能组件230的内核电压后,使用前述方法跨组件互连至功能组件230中的功能电路20。并且,电平转换电路2也可以通过三维异质集成互连,被转移设计到功能模块230或功能模块220中。
本申请提供的存算一体的堆叠芯片中,可编程门阵列组件以及专用集成电路阵列组件对存储阵列组件的存储访问不经过IO接口和/或IO电路,使得互连距离更近,存储访问的功耗开销显著降低。并且通过三维异质集成键合的方式实现了高宽带、低功耗的可编程存储一体结构。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种存算一体的堆叠芯片,其特征在于,包括:
第一可编程门阵列组件,所述第一可编程门阵列组件包括第一接口模块,所述第一接口模块嵌入于所述第一可编程门阵列组件内,所述第一接口模块包括第一键合引出区域;
第二可编程门阵列组件,所述第二可编程门阵列组件包括第二接口模块,所述第二接口模块嵌入于所述第二可编程门阵列组件内,所述第二接口模块包括第三键合引出区域;
第一存储阵列组件,设置有第二键合引出区域;
所述第一键合引出区域、所述第二键合引出区域、所述第三键合引出区域键合连接,以将所述第一可编程门阵列组件、所述第二可编程门阵列组件以及所述第一存储阵列组件上的互连信号连接在一起。
2.根据权利要求1所述的存算一体的堆叠芯片,其特征在于,所述第二可编程门阵列组件设置于所述第一可编程门阵列组件远离所述第一存储阵列组件的一侧;
所述第一接口模块还包括:第四键合引出区域,所述第四键合引出区域、所述第三键合引出区域键合连接,所述第一键合引出区域以及所述第二键合引出区域键合连接,以将所述第一可编程门阵列组件、所述第二可编程门阵列组件以及所述第一存储阵列组件上的互连信号连接在一起。
3.根据权利要求1所述的存算一体的堆叠芯片,其特征在于,所述第二可编程门阵列组件设置于所述第一存储阵列组件远离所述第一可编程门阵列组件的一侧;
所述第一存储阵列组件还包括:第四键合引出区域,所述第四键合引出区域、所述第三键合引出区域键合连接,所述第一键合引出区域以及所述第二键合引出区域键合连接,以将所述第一可编程门阵列组件、所述第二可编程门阵列组件以及所述第一存储阵列组件上的互连信号连接在一起。
4.根据权利要求1所述的存算一体的堆叠芯片,其特征在于,所述第二可编程门阵列组件的数量至少为2。
5.根据权利要求2或3所述的存算一体的堆叠芯片,其特征在于,所述存算一体的堆叠芯片还包括:
存储控制单元,所述存储控制单元设置于所述第一接口模块,或所述第二接口模块上;
所述第一可编程门阵列组件以及所述第二可编程门阵列组件共用同一所述存储控制单元访问所述第一存储阵列组件的同一存储单元。
6.根据权利要求5所述的存算一体的堆叠芯片,其特征在于,所述第一可编程门阵列组件还包括:
第一可编程逻辑单元,连接所述存储控制单元,所述第一可编程逻辑单元引出第一逻辑信号;
所述第二可编程门阵列组件还包括:
第二可编程逻辑单元,连接所述存储控制单元,所述第二可编程逻辑单元引出第二逻辑信号;
所述存储控制单元基于所述第一逻辑信号以及所述第二逻辑信号选择所述第一可编程门阵列组件访问所述第一存储阵列组件或者所述第二可编程门阵列组件访问所述第一存储阵列组件。
7.根据权利要求2或3所述的存算一体的堆叠芯片,其特征在于,所述存算一体的堆叠芯片还包括:
第一存储控制单元以及第二存储控制单元;
所述第一存储控制单元设置于所述第一接口模块上,所述第二存储控制单元设置于所述第二接口模块上;
所述第一可编程门阵列组件利用所述第一存储控制单元访问所述第一存储阵列组件的存储单元;
所述第二可编程门阵列组件利用所述第二存储控制单元访问所述第一存储阵列组件的存储单元。
8.根据权利要求7所述的存算一体的堆叠芯片,其特征在于,所述第一可编程门阵列组件还包括:
第一可编程逻辑单元,连接所述第一存储控制单元,所述第一可编程逻辑单元引出第一逻辑信号;
所述第二可编程门阵列组件还包括:
第二可编程逻辑单元,连接所述第二存储控制单元,所述第二可编程逻辑单元引出第二逻辑信号;
响应于所述第一存储控制单元以及所述第二存储控制单元均控制所述第一存储阵列组件的所有存储单元,且所述第一可编程门阵列组件以及所述第二可编程门阵列组件同时访问同一所述存储单元时,所述第一存储控制单元基于所述第一逻辑信号控制所述第一可编程门阵列组件在第一时间访问所述存储单元;所述第二存储控制单元基于所述第二逻辑信号控制所述第二可编程门阵列组件在第二时间访问所述存储单元;
响应于所述第一存储控制单元以及所述第二存储控制单元分别控制所述第一存储阵列组件的不同存储单元,所述第一存储控制单元以及所述第二存储控制单元同时控制所述第一可编程门阵列组件以及所述第二可编程门阵列组件访问所述第一存储阵列组件的不同存储单元。
9.根据权利要求1所述的存算一体的堆叠芯片,其特征在于,所述第一可编程门阵列组件包括多个功能模块,所述功能模块通过内部金属层连接至接口路由单元,所述第一接口模块通过内部金属层与所述接口路由单元互连。
10.根据权利要求9所述的存算一体的堆叠芯片,其特征在于,所述第一可编程门阵列组件包括:可编程路由网络,所述多个功能模块通过内部金属层与所述可编程路由网络互连,并通过所述可编程路由网络连接至所述接口路由单元。
CN202111028372.1A 2021-09-02 2021-09-02 一种存算一体的堆叠芯片 Pending CN113722268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111028372.1A CN113722268A (zh) 2021-09-02 2021-09-02 一种存算一体的堆叠芯片

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111028372.1A CN113722268A (zh) 2021-09-02 2021-09-02 一种存算一体的堆叠芯片

Publications (1)

Publication Number Publication Date
CN113722268A true CN113722268A (zh) 2021-11-30

Family

ID=78681118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111028372.1A Pending CN113722268A (zh) 2021-09-02 2021-09-02 一种存算一体的堆叠芯片

Country Status (1)

Country Link
CN (1) CN113722268A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149700A (zh) * 2023-10-27 2023-12-01 北京算能科技有限公司 数据处理芯片及其制造方法、数据处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149700A (zh) * 2023-10-27 2023-12-01 北京算能科技有限公司 数据处理芯片及其制造方法、数据处理系统
CN117149700B (zh) * 2023-10-27 2024-02-09 北京算能科技有限公司 数据处理芯片及其制造方法、数据处理系统

Similar Documents

Publication Publication Date Title
US20210398949A1 (en) Memory device including modular memory units and modular circuit units for concurrent memory operations
TWI767489B (zh) 含晶圓級記憶體電路之高容量記憶體模組
US20100140750A1 (en) Parallel Plane Memory and Processor Coupling in a 3-D Micro-Architectural System
CN111492477A (zh) 具有高密度z轴互连的3d计算电路
US11756951B2 (en) Layout design methodology for stacked devices
WO2023030051A1 (zh) 一种堆叠芯片
US20230051480A1 (en) Signal routing between memory die and logic die for mode based operations
US20130061004A1 (en) Memory/logic conjugate system
CN113722268A (zh) 一种存算一体的堆叠芯片
CN113626373A (zh) 一种集成芯片
CN216118778U (zh) 一种堆叠芯片
CN113793632B (zh) 非易失可编程芯片
WO2023030054A1 (zh) 一种计算器件、计算系统及计算方法
CN216118777U (zh) 一种集成芯片
CN113626372B (zh) 一种存算一体的集成芯片
CN108595748B (zh) 一种反熔丝fpga可编程逻辑阵列的三维拓扑结构
CN113656346A (zh) 一种三维芯片及计算系统
EP3912161A1 (en) Centralized placement of command and address swapping in memory devices
US7539034B2 (en) Memory configured on a common substrate
CN112446475A (zh) 神经网络智能芯片及其形成方法
CN113745197A (zh) 一种三维异质集成的可编程阵列芯片结构和电子器件
CN118155685A (zh) 存储器装置及其操作方法、存储器系统、计算机系统
CN112447202A (zh) 神经网络智能芯片及其形成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination