CN107346230A

CN107346230A - 基于封装内查找表的处理器

Info

Publication number: CN107346230A
Application number: CN201710309814.7A
Authority: CN
Inventors: 张国飙
Original assignee: Hangzhou Haicun Information Technology Co Ltd
Current assignee: Hangzhou Haicun Information Technology Co Ltd
Priority date: 2016-05-04
Filing date: 2017-05-04
Publication date: 2017-11-14
Also published as: US20170322906A1

Abstract

本发明提出一种用于计算一数学函数、基于封装内查找表（IP‑LUT）的处理器。它含有一逻辑芯片和一存储芯片。存储芯片含有一查找表电路（LUT），LUT存储的数据与该数学函数相关。逻辑芯片含有一算术逻辑电路（ALC），ALC对函数相关数据进行算术运算。存储芯片和逻辑芯片位于同一封装中。

Description

基于封装内查找表的处理器

技术领域

本发明涉及集成电路领域，更确切地说，涉及处理器。

背景技术

传统处理器采用基于逻辑的计算（logic-based computation，简称为LBC），它主要通过逻辑电路（如与非门等）来计算。逻辑电路适合实现算术运算（如加法、减法和乘法），但对于非算术函数（如初等函数、特殊函数等）无能为力。非算术函数的高速高效实现面临巨大的挑战。

在传统处理器中，仅少量基本非算术函数（如基本代数函数、基本超越函数）能通过硬件直接实现，这些函数被称为内置函数（built-in functions）。内置函数一般通过算术运算和查找表（LUT）的组合来实现。实现内置函数的例子很多，例如：美国专利US 5,954,787（发明人：Eun；授权日：1999年9月21日）披露了一种利用LUT实现正弦/余弦（sine/cosine）函数的方法；美国专利US 9,207,910（发明人：Azadet；授权日：2015年12月8日）披露了一种利用LUT实现幂函数的方法。

图1A具体描述了内置函数的一种实现方法。传统处理器00X通常含有逻辑电路100X和存储电路200X。逻辑电路100X含有算术逻辑单元（ALU），它用于实现算术运算。存储电路200X含有查找表电路（LUT）。为了达到足够的计算精度，需将代表内置函数的多项式展开到足够高的阶数。这时，LUT 200X存储多项式系数，ALU 100X计算相应的多项式。由于ALU100X和LUT 200X并肩排列在同一平面上（均形成在衬底00S中），这种集成是一种二维集成。

二维集成对处理器的制造工艺要求较高。存储电路200X由存储晶体管构成，逻辑电路100X由逻辑晶体管构成。熟悉本专业的人士都知道，存储晶体管和逻辑晶体管的性能指标有很大不同。比如说，存储晶体管更注重降低漏电流，而逻辑晶体管更注重增加导通电流。在同一衬底上00S的同一表面上同时形成高性能的存储晶体管和逻辑晶体管对于制造工艺来说是一种挑战。

二维集成还会限制计算密度和计算复杂度的进一步发展。计算正向更高的计算密度和更大的计算复杂度发展。计算密度是指单位芯片面积的计算能力（如每秒的浮点数运算次数），它是平行计算的一个重要指标。计算复杂度是指内置函数的种类和数量，它是科学计算的一个重要指标。由于采用二维集成，LUT 200X的存在将增加传统处理器00X的芯片面积，降低其计算密度，这对平行计算不利。同时，在传统处理器00X的设计过程中，由于ALU100X是传统处理器00X的核心部件并占用了大部分芯片面积，故LUT 200X能利用的芯片面积有限。因此，传统处理器00X仅支持少量内置函数。图1B列出英特尔公司的Itanium处理器（IA-64）能实现的所有内置超越函数（参考Harrison等所著《The Computation ofTranscendental Functions on the IA-64 Architecture》, Intel Technical Journal,Q4, 1999年）。IA-64处理器共支持7种超越函数，每种超越函数使用了相对较小的LUT（从0到24kb），并需要进行相对较多的泰勒级数（5阶到22阶）计算。

发明内容

本发明的主要目的是推动科学计算的变革。

本发明的另一目的是提供一种能实现更高计算复杂度的处理器。

本发明的另一目的是提供一种能实现更高计算密度的处理器。

本发明的另一目的是提供一种具有更多内置函数的处理器。

本发明的另一目的是高速高效地计算非算术函数。

为了实现这些以及别的目的，本发明提出一种基于封装内查找表（in-packageLUT，简称为IP-LUT）的处理器（IP-LUT处理器）。IP-LUT处理器含有至少一逻辑芯片和一存储芯片。其中，逻辑芯片含有至少一算术逻辑电路（arithmetic logic circuit，简称为ALC），故逻辑芯片又被称为ALC芯片；存储芯片含有至少一查找表电路（ look-up table，简称为LUT），故存储芯片又被称为LUT芯片。ALC芯片和LUT芯片位于同一封装中，它们之间通过芯片间连接进行电耦合。由于与ALC位于同一封装中，LUT又被称为封装内查找表电路（IP-LUT）。IP-LUT存储与一函数相关的数据，ALC对该函数相关数据进行算术运算。

IP-LUT处理器采用“基于存储的计算”（memory-based computation，简称为MBC），它主要通过查表来实现计算。IP-LUT处理器中IP-LUT的存储容量远高于传统处理器的LUT。虽然大多数MBC仍需要进行算术运算，通过使用较大的IP-LUT作为计算的出发点，MBC仅需使用较少的多项式展开（如泰勒级数展开）。在MBC中，大部分计算通过IP-LUT完成，少部分计算通过ALC实现。

这种将ALC芯片和LUT芯片相互堆叠在同一封装的集成方式被称为2.5维集成。2.5维集成能提高计算密度和计算复杂度。采用传统的二维集成，传统处理器00X的面积是ALU100X和LUT 200X之和。采用2.5维集成后，LUT从边上移到顶上，IP-LUT处理器变小，计算密度加强。此外，传统处理器00X中LUT 200X的总容量小于100kb，而IP-LUT处理器中IP-LUT的总容量可达到100Gb；单个IP-LUT处理器就可支持上万个内置函数（包括多种复杂数学函数），远多于传统处理器00X。此外，由于ALC芯片和LUT芯片为不同芯片，构成ALC的逻辑晶体管和构成LUT的存储晶体管分别在不同半导体衬底上形成，它们的制造工艺可分别优化。

相应地，本发明提出一种基于封装内查找表（IP-LUT）的处理器(300)，其特征在于含有：一存储芯片(200)，该存储芯片(200)含有至少一查找表电路(170)，该查找表电路(170)存储的数据与一数学函数相关；一逻辑芯片(100)，该逻辑芯片(100)含有至少一算术逻辑电路(180)，该算术逻辑电路(180)对该查找表电路(170)存储的数据进行算术运算；多个将该存储芯片(200)和该逻辑芯片(100)耦合的芯片间连接(160)；该存储芯片(200)和该逻辑芯片(100)位于同一封装(130)内。

附图说明

图1A是一传统处理器的透视图（现有技术）；图1B列出英特尔Itanium（IA-64）处理器支持的所有超越函数（现有技术）。

图2A是一种典型IP-LUT处理器的简要电路框图；图2B是该IP-LUT处理器的透视图。

图3A-图3C是三种IP-LUT处理器的截面图。

图4A是一种实现一数学函数的IP-LUT处理器之简要电路框图；图4B是一种实现一单精度数学函数的IP-LUT处理器之电路框图；图4C列出实现各种精度数学函数所需的查找表容量和泰勒级数展开项。

图5是一种实现复合函数的IP-LUT处理器之电路框图。

注意到，这些附图仅是概要图，它们不按比例绘图。为了显眼和方便起见，图中的部分尺寸和结构可能做了放大或缩小。在不同实施例中，数字后面的字母后缀表示同一类结构的不同实例；相同的数字前缀表示相同或类似的结构。“/”表示“和” 或“或”的关系。在本发明中，“查找表”和“查找表电路”均被缩写为LUT。根据上下文，LUT代表查找表或查找表电路。

具体实施方式

图2A是一种典型的、基于封装内查找表（in-package LUT，简称为IP-LUT）的处理器（IP-LUT处理器）300的简要电路框图；图2B是该IP-LUT处理器300的透视图。IP-LUT处理器300有一个或多个输入150、以及一个或多个输出190。IP-LUT处理器300含有一逻辑芯片100和一存储芯片200。逻辑芯片100形成在第一衬底100S上，它含有至少一算术逻辑电路（ALC）180，故逻辑芯片100又被称为ALC芯片。存储芯片200形成在第二衬底200S上，它含有至少一查找表电路（LUT）170，故存储芯片200又被称为LUT芯片。ALC芯片100和LUT芯片200位于同一封装中，它们之间通过芯片间连接160电耦合。由于与ALC 180位于同一封装中，LUT 170又被称为封装内查找表电路（IP-LUT）。IP-LUT 170用于存储函数相关数据，ALC180对函数相关数据进行算术运算。在本实施例中，LUT芯片200堆叠在ALC芯片 100上方，IP-LUT 170与ALC 180至少部分重叠。由于它们处于不同芯片中，在说明书附图中，IP-LUT170用虚线表示，ALC 180用实线表示。

IP-LUT 170可采用RAM和/或ROM。RAM包括SRAM和DRAM等。ROM包括mask ROM、OTP、EPROM、EEPROM和闪存等。闪存可以分为NOR或NAND，NAND还可以分为横向NAND和纵向NAND（vertical NAND）。另一方面，ALC 180可以含有加法器、乘法器、和/或乘加器，它可以用于实现整数运算、定点数运算、或浮点数运算。

IP-LUT处理器300采用“基于存储的计算”（MBC），它主要通过查表来实现计算。IP-LUT处理器300中IP-LUT 170的存储容量远高于传统处理器00X的LUT 200X。虽然大多数MBC仍需要进行算术运算，通过使用较大的IP-LUT 170作为计算的出发点，MBC仅需使用较少的多项式展开（如泰勒级数展开）。在MBC中，大部分计算通过IP-LUT 170完成，少部分计算通过ALC 180实现。

图3A-图3C是三种IP-LUT处理器300的截面图。它们均为一种多芯片封装（multi-chip package，简称为MCP）。其中，图3A中的IP-LUT处理器300含有两个分离芯片：ALC芯片100和LUT芯片200。芯片100、200堆叠在封装衬底110上并位于同一封装130中。微焊点（micro-bump）116为芯片100、200提供电耦合，它起芯片间连接160的作用。在本实施例中，LUT芯片200堆叠在ALC芯片100上；同时，LUT芯片200被翻转，它与ALC芯片100面对面地堆叠在一起。在其它实施例中，ALC芯片100也可堆叠在LUT芯片200上，同时也可不被翻转。

图3B中的IP-LUT处理器300含有ALC芯片100、LUT芯片200和硅插板（interposer）120。硅插板120含有多个穿透硅片通道（TSV）118，它使ALC芯片100和LUT芯片200之间的电耦合更为容易，设计时有更多自由度，同时散热更为良好。此实施例还含有多个微焊点116，它与TSV 118构成芯片间连接160。

图3C中的IP-LUT处理器300含有一ALC芯片100和至少两个LUT芯片200A、200B。这些芯片100、200A和200B是分离的，并位于同一封装130中。其中，LUT芯片200B堆叠在LUT芯片200A之上，LUT芯片200A又堆叠在ALC芯片100之上。芯片100、200A、200B之间通过TSV 118和微焊点116耦合。很明显，图3C比图3A具有更大的IP-LUT 170。类似地，在此实施例中，TSV118和微焊点116构成芯片间连接160。

这种将ALC芯片100和LUT芯片200相互堆叠在同一封装的集成方式被称为2.5维集成。2.5维集成能提高计算密度和计算复杂度。采用传统的二维集成，传统处理器00X的面积是LUT 200X和ALU 100X之和。采用2.5维集成后，LUT从边上移到顶上，IP-LUT处理器300的面积变小，计算密度加强。此外，传统处理器00X中LUT的总容量小于100kb，而IP-LUT处理器300中LUT的总容量可达到100Gb；单个IP-LUT处理器300就可支持上万个内置函数（包括多种复杂数学函数），远多于传统处理器00X。此外，2.5维集成还能提高IP-LUT 170和ALC 180之间的数据传输带宽。由于IP-LUT 170和ALC 180距离较近且芯片间连接160数量较多，它们之间的数据传输带宽远高于传统处理器00X中LUT 200X和ALU 100X之间的带宽。最后，2.5维集成对制造工艺角度也有益处。由于ALC芯片100和LUT芯片200为不同芯片，构成ALC芯片100的逻辑晶体管和构成LUT芯片200的存储晶体管分别形成在不同衬底（100S、200S）上，它们的制造工艺可分别优化。

图4A表示一种实现一数学函数Y=f(X)的典型IP-LUT处理器300。其逻辑芯片100含有一预处理电路180R和至少一后处理电路180T，其存储芯片200含有至少一IP-LUT 170，它存储该数学函数的相关数据。预处理电路180R将函数的自变量X 150转换为IP-LUT 170的地址A 160A；后处理器180T将从IP-LUT 170中读出的数据D 160D转换为函数值Y的输出190。在该实施例中，预处理电路180R和后处理电路180T形成在逻辑芯片100中。在其他实施例中，至少一部分预处理电路180R和/或后处理电路180T也可以形成在存储芯片200中。自变量X的一部分R可以在被预处理电路180R处理之前送至后处理电路180T作为后端处理的一个输入，也可以在被预处理电路180R处理之后（即地址A的一部分）送至后处理器180T。

图4B表示一种采用function-by-LUT法实现单精度数学函数Y=f(X)的IP-LUT处理器300。IP-LUT 170含有两个LUT 170Q、170R，其容量均为2Mb（16位输入、32位输出），并分别存储函数值D1=f(A)和函数的一阶导数值D2=f’(A)。ALC 180含有预处理电路180R（主要含有一地址缓冲区）和后处理电路180T（含有一加法器180A和一乘法器180M）。芯片间连接160在IP-LUT 170和ALC 180之间传输数据。在计算函数时，该IP-LUT处理器300的输入为32位自变量X 150（x₃₁… x₀）；预处理电路180R将其前16位（x₃₁… x₁₆）提取出来作为LUT 170Q、170R的16位地址输入A，再将其后16位（x₁₅… x₀）提取出来作为16位地址余量R送到后处理电路180T；后处理电路180T通过多项式插值计算32位输出值Y 190。在本实施例中，多项式插值是一阶泰勒级数：Y(X)=D1+D2*R=f(A)+f’(A)*R。很明显，采用更高阶的多项式插值（如更高阶的泰勒级数）能进一步提高计算精度。

在实现内置函数时，将LUT和多项式插值结合起来可以用较小的LUT实现较高的计算精度。假如仅用LUT（无多项式插值）来实现上述的单精度函数（32位输入、32位输出），LUT的容量需要达到2³²*32=128Gb。用这么大的LUT来实现一个函数是不现实的。通过多项式插值，LUT的容量可极大地降低。在上述实施例中，在采用一阶泰勒级数后，LUT只需4Mb（函数值LUT需要2Mb、一阶导数值LUT需要2Mb）。这比仅用LUT的方式（128Gb）少很多。

图4C列出实现各种精度数学函数所需的查找表容量和泰勒级数展开项。该实施例采用定义域缩小法并将查找表的容量限制在Mb级（参考Harrison等所著《The Computationof Transcendental Functions on the IA-64 Architecture》, Intel TechnicalJournal, Q4, 1999年）。半精度（16位）计算使用的IP-LUT 170容量为2¹⁶×16=1Mb，这时不需要计算任何泰勒级数；单精度（32位）计算使用的IP-LUT 170容量为2¹⁶×32×2=4Mb，这时需要计算1阶泰勒级数；双精度（64位）计算使用的IP-LUT 170容量为2¹⁶×64×3=12Mb，这时需要计算2阶泰勒级数；扩展双精度（80位）计算使用的IP-LUT 170的容量为2¹⁶×80×4=20Mb，这时需要计算3阶泰勒级数。作为一个比较，为实现同样的双精度（64位）计算，英特尔的Itanium处理器需要计算多达22阶泰勒级数。

除了初等函数以外，图4A-图4B中的实施例还能实现各种高等函数，如特殊函数等。特殊函数在数学分析、泛函分析、物理研究、工程应用中有着举足轻重的地位。许多特殊函数是微分方程的解或基本函数的积分。特殊函数的例子包括伽玛函数、贝塔函数、贝塞尔函数、勒让德函数、椭圆函数、Lame函数、Mathieu函数、黎曼泽塔函数、菲涅耳积分等。IP-LUT处理器300的出现将简化特殊函数的计算，助推其在科学计算中的应用。

图5表示一种采用function-by-LUT法实现一复合函数的IP-LUT处理器300，它用于实现复合函数Y=exp[K*log(X)]=X^K。其IP-LUT 170含有两个LUT 170S、170T，它们分别存储Log()和Exp()的函数值。其ALC 180含有一乘法器180M。其芯片间连接包括160s和160t等。在运算过程中，输入变量X被用作LUT 170S的地址150；LUT 170S的输出Log(X) 160s在乘法器180M处与幂参数K相乘；乘积160t作为地址送到LUT 170T中；LUT 170T的输出190为Y=X^K。

应该了解，在不远离本发明的精神和范围的前提下，可以对本发明的形式和细节进行改动，这并不妨碍它们应用本发明的精神。例如说，处理器可以是中央处理器（CPU）、数字信号处理器（DSP）、图像处理器（GPU）、网络安全处理器、加密/解密处理器、编码/解码处理器、神经网络处理器、人工智能（AI）处理器等。这些处理器可以用在消费电子产品（如个人电脑、游戏机、智能手机等）中，也能用在工作站和服务器中。因此，除了根据附加的权利要求书的精神，本发明不应受到任何限制。

Claims

1.一种基于封装内查找表（IP-LUT）的处理器(300)，其特征在于含有：

一存储芯片(200)，该存储芯片(200)含有至少一查找表电路(170)，该查找表电路(170)存储的数据与一数学函数相关；

一逻辑芯片(100)，该逻辑芯片(100)含有至少一算术逻辑电路(180)，该算术逻辑电路(180)对该查找表电路(170)存储的数据进行算术运算；

多个将该存储芯片(200)和该逻辑芯片(100)耦合的芯片间连接(160)；

该存储芯片(200)和该逻辑芯片(100)位于同一封装(130)内。

2.根据权利要求1所述的处理器 (300)，其特征还在于：该存储芯片(200)和该逻辑芯片(100)垂直堆叠。

3.根据权利要求1所述的处理器 (300)，其特征还在于：所述查找表电路(170)为RAM或ROM。

4.根据权利要求1所述的处理器 (300)，其特征还在于：所述查找表电路(170)存储的数据包括该数学函数的函数值、和/或该数学函数的导数值。

5.根据权利要求1所述的处理器 (300)，其特征还在于：所述数学函数包括复合函数、和/或特殊函数。

6.根据权利要求1所述的处理器 (300)，其特征还在于：所述算术逻辑电路(180)含有加法器、乘法器、和/或乘加器。

7.根据权利要求1所述的处理器 (300)，其特征还在于：所述算术逻辑电路(180)实现整数运算、定点数运算、或浮点数运算。

8.根据权利要求1所述的处理器 (300)，其特征还在于：所述算术逻辑电路(180)含有预处理电路(180R)、和/或后处理电路(180T)。

9.根据权利要求1所述的处理器 (300)，其特征还在于：所述芯片间连接(160)含有微焊点（micro-bump）(116)、和/或穿透硅片通道（TSV）(118)。

10.根据权利要求1所述的处理器 (300)，其特征还在于含有：存储查找表的第一和第二存储芯片(200A、200B)。