CN107346149A

CN107346149A - 基于背面查找表的处理器

Info

Publication number: CN107346149A
Application number: CN201710309818.5A
Authority: CN
Inventors: 张国飙
Original assignee: Hangzhou Haicun Information Technology Co Ltd
Current assignee: Hangzhou Haicun Information Technology Co Ltd
Priority date: 2016-05-04
Filing date: 2017-05-04
Publication date: 2017-11-14
Anticipated expiration: 2037-05-04
Also published as: US20170322770A1; CN107346149B

Abstract

本发明提出一种用于计算一数学函数、基于背面查找表（BS‑LUT）的处理器。它含有一查找表电路（LUT）和一算术逻辑电路（ALC）。LUT位于处理器衬底的背面，其存储的数据与该数学函数相关。ALC位于处理器衬底的正面，它对该函数相关数据进行算术运算。LUT与ALC通过多个穿透硅片通道（TSV）电耦合。

Description

基于背面查找表的处理器

技术领域

本发明涉及集成电路领域，更确切地说，涉及用于处理器。

背景技术

传统处理器采用基于逻辑的计算（logic-based computation，简称为LBC），它主要通过逻辑电路（如与非门等）来计算。逻辑电路适合实现算术运算（如加法、减法和乘法），但对于非算术函数（如初等函数、特殊函数等）无能为力。非算术函数的高速高效实现面临巨大的挑战。

在传统处理器中，仅少量基本非算术函数（如基本代数函数、基本超越函数）能通过硬件直接实现，这些函数被称为内置函数（built-in functions）。内置函数一般通过算术运算和查找表（LUT）的组合来实现。实现内置函数的例子很多，例如：美国专利US 5,954,787（发明人：Eun；授权日：1999年9月21日）披露了一种利用LUT实现正弦/余弦（sine/cosine）函数的方法；美国专利US 9,207,910（发明人：Azadet；授权日：2015年12月8日）披露了一种利用LUT实现幂函数的方法。

图1A具体描述了内置函数的一种实现方法。传统处理器00X通常含有逻辑电路100X和存储电路200X。逻辑电路100X含有算术逻辑单元（ALU），它用于实现算术运算。存储电路200X含有查找表电路（LUT）。为了达到足够的计算精度，需将代表内置函数的多项式展开到足够高的阶数。这时，LUT 200X存储多项式系数，ALU 100X计算相应的多项式。由于ALU100X和LUT 200X并肩排列在同一平面上（均形成在衬底00S中），这种集成是一种二维集成。

二维集成对处理器的制造工艺要求较高。存储电路200X由存储晶体管构成，逻辑电路100X由逻辑晶体管构成。熟悉本专业的人士都知道，存储晶体管和逻辑晶体管的性能指标有很大不同。比如说，存储晶体管更注重降低漏电流，而逻辑晶体管更注重增加导通电流。在同一衬底上00S的同一表面上同时形成高性能的存储晶体管和逻辑晶体管对于制造工艺来说是一种挑战。

二维集成还会限制计算密度和计算复杂度的进一步发展。计算正向更高的计算密度和更大的计算复杂度发展。计算密度是指单位芯片面积的计算能力（如每秒的浮点数运算次数），它是平行计算的一个重要指标。计算复杂度是指内置函数的种类和数量，它是科学计算的一个重要指标。由于采用二维集成，LUT 200X的存在将增加传统处理器00X的芯片面积，降低其计算密度，这对平行计算不利。同时，在传统处理器00X的设计过程中，由于ALU100X是传统处理器00X的核心部件并占用了大部分芯片面积，故LUT 200X能利用的芯片面积有限。因此，传统处理器00X仅支持少量内置函数。图1B列出英特尔公司的Itanium处理器（IA-64）能实现的所有内置超越函数（参考Harrison等所著《The Computation ofTranscendental Functions on the IA-64 Architecture》, Intel Technical Journal,Q4, 1999年）。IA-64处理器共支持7种超越函数，每种超越函数使用了相对较小的LUT（从0到24kb），并需要进行相对较多的泰勒级数（5阶到22阶）计算。

发明内容

本发明的主要目的是推动科学计算的变革。

本发明的另一目的是提供一种能实现更高计算复杂度的处理器。

本发明的另一目的是提供一种能实现更高计算密度的处理器。

本发明的另一目的是提供一种具有更多内置函数的处理器。

本发明的另一目的是高速高效地计算非算术函数。

为了实现这些以及别的目的，本发明提出一种基于背面查找表（backside LUT，简称为BS-LUT）的处理器（BS-LUT处理器）。BS-LUT处理器芯片含有一逻辑电路和一存储电路。其中，逻辑电路含有至少一算术逻辑电路（arithmetic logic circuit，简称为ALC）；存储电路含有至少一查找表（ look-up table，简称为LUT）。ALC和LUT分别形成在处理器衬底的正反两面，它们之间通过穿透硅片通道（TSV）进行电耦合。由于位于衬底背面，LUT又被称为背面查找表电路（BS-LUT）。BS-LUT存储与一函数相关的数据，ALC对该函数相关数据进行算术运算。

BS-LUT处理器采用“基于存储的计算”（memory-based computation，简称为MBC），它主要通过查表来实现计算。BS-LUT处理器中BS-LUT的存储容量远高于传统处理器的LUT。虽然大多数MBC仍需要进行算术运算，通过使用较大的BS-LUT作为计算的出发点，MBC仅需使用较少的多项式展开（如泰勒级数展开）。在MBC中，大部分计算通过BS-LUT完成，少部分计算通过ALC实现。

这种将ALC和LUT形成衬底正反两面的集成方式被称为双面集成。双面集成能提高计算密度和计算复杂度。采用传统的二维集成，传统处理器00X的面积是ALU 100X和LUT200X之和。采用双面集成后，LUT从边上移到衬底背面，BS-LUT处理器变小，计算密度加强。此外，传统处理器00X中LUT 200X的总容量小于100kb，而BS-LUT处理器中BS-LUT的总容量可达到100Gb；单个BS-LUT处理器就可支持上万个内置函数（包括多种复杂数学函数），远多于传统处理器00X。此外，由于构成ALC的逻辑晶体管和构成LUT的存储晶体管分别形成在衬底的不同表面上，它们的制造工艺可分别优化。

相应地，本发明提出一种基于背面查找表（BS-LUT）处理器(300)，其特征在于含有：一半导体衬底(0S)，该半导体衬底(0S)含有一正面(0F)和一背面(0B)；该衬底背面(0B)含有至少一查找表电路(170)，该查找表电路(170)存储的数据与一数学函数相关；该衬底正面(0F)含有至少一算术逻辑电路(180)，该算术逻辑电路(180)对该查找表(170)存储的数据进行算术运算；多个穿透该半导体衬底(0S)、并将该查找表(170)和该算术逻辑电路(180)电耦合的穿透硅片通道（TSV）(160)。

附图说明

图1A是一传统处理器的透视图（现有技术）；图1B列出英特尔Itanium（IA-64）处理器支持的所有超越函数（现有技术）。

图2A是一种典型BS-LUT处理器的简要电路框图；图2B是其正面透视图；图2C是其背面透视图。

图3A是一种BS-LUT处理器的截面图；图3B是其正面电路布局图；图3C是其背面电路布局图。

图4A是一种实现一数学函数的BS-LUT处理器之简要电路框图；图4B是一种实现一单精度数学函数的BS-LUT处理器之电路框图；图4C列出实现各种精度数学函数所需的查找表容量和泰勒级数展开项。

图5是一种实现复合函数的BS-LUT处理器之电路框图。

注意到，这些附图仅是概要图，它们不按比例绘图。为了显眼和方便起见，图中的部分尺寸和结构可能做了放大或缩小。在不同实施例中，数字后面的字母后缀表示同一类结构的不同实例；相同的数字前缀表示相同或类似的结构。“/”表示“和” 或“或”的关系。在本发明中，“查找表”和“查找表电路”均被缩写为LUT。根据上下文，LUT代表查找表或查找表电路。

具体实施方式

图2A是一种典型的、基于背面查找表（backside LUT，简称为BS-LUT）的处理器（BS-LUT处理器）300的简要电路框图；图2B是其正面透视图；图2C是其背面透视图。BS-LUT处理器300有一个或多个输入150、以及一个或多个输出190。BS-LUT处理器300形成在一半导体衬底0S上，该衬底0S含有正面0F（+z方向）和背面0B（-z方向）。BS-LUT处理器芯片300含有一逻辑电路100和一存储电路200。其中，逻辑电路100含有至少一算术逻辑电路（arithmetic logic circuit，简称为ALC）180，它形成在衬底0S的正面0F；存储电路200含有至少一查找表（ look-up table，简称为LUT）170，它形成在衬底0S的背面0B。ALC 180和LUT 170通过穿透硅片通道（TSV）160进行电耦合。由于位于衬底背面，LUT 170又被称为背面查找表电路（BS-LUT）。BS-LUT 170用于存储函数相关数据，ALC 180对函数相关数据进行算术运算。由于BS-LUT 170与ALC 180处于不同表面上，在说明书附图中，BS-LUT 170用虚线表示，ALC 180用实线表示。

图3A是BS-LUT处理器300的截面图；图3B是其正面电路布局图；图3C是其背面电路布局图。BS-LUT处理器300含有多个穿透衬底0S的穿透硅片通道（TSV）160a-160f…（图3A）。BS-LUT处理器300的正面0F含有ALC 180，包括ALC构件180a-180d…（图3B）。这些ALC构件180a-180d分别与TSV 160a-160d耦合。BS-LUT处理器300的背面0B含有BS-LUT 170，包括LUT阵列170a-170f…（图3C）。在本说明书中，一LUT阵列是所有共享了至少一条地址线的存储元之集合（包括其周边电路）。LUT阵列170a-170f分别与TSV 160a-160d耦合。ALC 180通过TSV 160a-160f从BS-LUT 170中读取数据，并进行算术运算。

BS-LUT 170可采用RAM和/或ROM。RAM包括SRAM和DRAM等。ROM包括mask ROM、OTP、EPROM、EEPROM和闪存等。闪存可以分为NOR或NAND，NAND还可以分为横向NAND和纵向NAND（vertical NAND）。另一方面，ALC 180可以含有加法器、乘法器、和/或乘加器，它可以用于实现整数运算、定点数运算、或浮点数运算。

BS-LUT处理器300采用“基于存储的计算”（MBC），它主要通过查表来实现计算。BS-LUT处理器300中BS-LUT 170的存储容量远高于传统处理器00X的LUT 200X。虽然大多数MBC仍需要进行算术运算，通过使用较大的BS-LUT 170作为计算的出发点，MBC仅需使用较少的多项式展开（如泰勒级数展开）。在MBC中，大部分计算通过BS-LUT 170完成，少部分计算通过ALC 180实现。

这种将ALC 180和LUT 170形成衬底0S正反两面的集成方式被称为双面集成。双面集成能提高计算密度和计算复杂度。采用传统的二维集成，传统处理器00X的面积是LUT200X和ALU 100X之和。采用双面集成后，LUT从边上移到衬底背面，BS-LUT处理器300的面积变小，计算密度加强。此外，传统处理器00X中LUT的总容量小于100kb，而BS-LUT处理器300中LUT的总容量可达到100Gb；单个BS-LUT处理器300就可支持上万个内置函数（包括多种复杂数学函数），远多于传统处理器00X。此外，双面集成还能提高BS-LUT 170和ALC 180之间的数据传输带宽。由于BS-LUT 170和ALC 180距离较近且TSV 160数量较多，它们之间的数据传输带宽远高于传统处理器00X中LUT 200X和ALU 100X之间的带宽。最后，双面集成对制造工艺角度也有益处。由于构成ALC 180的逻辑晶体管和构成LUT 170的存储晶体管分别形成在衬底0S的不同表面（0F、0B）上，它们的制造工艺可分别优化。

图4A表示一种实现一数学函数Y=f(X)的典型BS-LUT处理器300。其逻辑芯片100含有一预处理电路180R和至少一后处理电路180T，其存储芯片200含有至少一BS-LUT 170，它存储该数学函数的相关数据。预处理电路180R将函数的自变量X 150转换为BS-LUT 170的地址A 160A；后处理器180T将从BS-LUT 170中读出的数据D 160D转换为函数值Y的输出190。在该实施例中，预处理电路180R和后处理电路180T形成在逻辑芯片100中。在其他实施例中，至少一部分预处理电路180R和/或后处理电路180T也可以形成在存储芯片200中。自变量X的一部分R可以在被预处理电路180R处理之前送至后处理电路180T作为后端处理的一个输入，也可以在被预处理电路180R处理之后（即地址A的一部分）送至后处理器180T。

图4B表示一种采用function-by-LUT法实现单精度数学函数Y=f(X)的BS-LUT处理器300。BS-LUT 170含有两个LUT 170Q、170R，其容量均为2Mb（16位输入、32位输出），并分别存储函数值D1=f(A)和函数的一阶导数值D2=f’(A)。ALC 180含有预处理电路180R（主要含有一地址缓冲区）和后处理电路180T（含有一加法器180A和一乘法器180M）。芯片间连接160在BS-LUT 170和ALC 180之间传输数据。在计算函数时，该BS-LUT处理器300的输入为32位自变量X 150（x₃₁… x₀）；预处理电路180R将其前16位（x₃₁… x₁₆）提取出来作为LUT 170Q、170R的16位地址输入A，再将其后16位（x₁₅… x₀）提取出来作为16位地址余量R送到后处理电路180T；后处理电路180T通过多项式插值计算32位输出值Y 190。在本实施例中，多项式插值是一阶泰勒级数：Y(X)=D1+D2*R=f(A)+f’(A)*R。很明显，采用更高阶的多项式插值（如更高阶的泰勒级数）能进一步提高计算精度。

在实现内置函数时，将LUT和多项式插值结合起来可以用较小的LUT实现较高的计算精度。假如仅用LUT（无多项式插值）来实现上述的单精度函数（32位输入、32位输出），LUT的容量需要达到2³²*32=128Gb。用这么大的LUT来实现一个函数是不现实的。通过多项式插值，LUT的容量可极大地降低。在上述实施例中，在采用一阶泰勒级数后，LUT只需4Mb（函数值LUT需要2Mb、一阶导数值LUT需要2Mb）。这比仅用LUT的方式（128Gb）少很多。

图4C列出实现各种精度数学函数所需的查找表容量和泰勒级数展开项。该实施例采用定义域缩小法并将查找表的容量限制在Mb级（参考Harrison等所著《The Computationof Transcendental Functions on the IA-64 Architecture》, Intel TechnicalJournal, Q4, 1999年）。半精度（16位）计算使用的BS-LUT 170容量为2¹⁶×16=1Mb，这时不需要计算任何泰勒级数；单精度（32位）计算使用的BS-LUT 170容量为2¹⁶×32×2=4Mb，这时需要计算1阶泰勒级数；双精度（64位）计算使用的BS-LUT 170容量为2¹⁶×64×3=12Mb，这时需要计算2阶泰勒级数；扩展双精度（80位）计算使用的BS-LUT 170的容量为2¹⁶×80×4=20Mb，这时需要计算3阶泰勒级数。作为一个比较，为实现同样的双精度（64位）计算，英特尔的Itanium处理器需要计算多达22阶泰勒级数。

除了初等函数以外，图4A-图4B中的实施例还能实现各种高等函数，如特殊函数等。特殊函数在数学分析、泛函分析、物理研究、工程应用中有着举足轻重的地位。许多特殊函数是微分方程的解或基本函数的积分。特殊函数的例子包括伽玛函数、贝塔函数、贝塞尔函数、勒让德函数、椭圆函数、Lame函数、Mathieu函数、黎曼泽塔函数、菲涅耳积分等。BS-LUT处理器300的出现将简化特殊函数的计算，助推其在科学计算中的应用。

图5表示一种采用function-by-LUT法实现一复合函数的BS-LUT处理器300，它用于实现复合函数Y=exp[K*log(X)]=X^K。其BS-LUT 170含有两个LUT 170S、170T，它们分别存储Log()和Exp()的函数值。其ALC 180含有一乘法器180M。其TSV 160传输160s和160t等。在运算过程中，输入变量X被用作LUT 170S的地址150；LUT 170S的输出Log(X) 160s在乘法器180M处与幂参数K相乘；乘积160t作为地址送到LUT 170T中；LUT 170T的输出190为Y=X^K。

应该了解，在不远离本发明的精神和范围的前提下，可以对本发明的形式和细节进行改动，这并不妨碍它们应用本发明的精神。例如说，处理器可以是中央处理器（CPU）、数字信号处理器（DSP）、图像处理器（GPU）、网络安全处理器、加密/解密处理器、编码/解码处理器、神经网络处理器、人工智能（AI）处理器等。这些处理器可以用在消费电子产品（如个人电脑、游戏机、智能手机等）中，也能用在工作站和服务器中。因此，除了根据附加的权利要求书的精神，本发明不应受到任何限制。

Claims

1.一种基于背面查找表（BS-LUT）的处理器(300)，其特征在于含有：

一半导体衬底(0S)，该半导体衬底(0S)含有一正面(0F)和一背面(0B)；

该衬底背面(0B)含有至少一查找表电路(170)，该查找表电路(170)存储的数据与一数学函数相关；

该衬底正面(0F)含有至少一算术逻辑电路(180)，该算术逻辑电路(180)对该查找表(170)存储的数据进行算术运算；

多个穿透该半导体衬底(0S)、并将该查找表(170)和该算术逻辑电路(180)电耦合的穿透硅片通道（TSV）(160)。

2.根据权利要求1所述的处理器(300)，其特征还在于：所述查找表(170)为RAM。

3.根据权利要求1所述的处理器(300)，其特征还在于：所述查找表(170)为ROM。

4.根据权利要求1所述的处理器(300)，其特征还在于：所述查找表(170)含有晶体管。

5.根据权利要求1所述的处理器(300)，其特征还在于：所述与该数学函数相关的数据包括该数学函数的函数值。

6.根据权利要求1所述的处理器(300)，其特征还在于：所述与该数学函数相关的数据包括该数学函数的导数值。

7.根据权利要求1所述的处理器(300)，其特征还在于：所述数学函数包括复合函数。

8.根据权利要求1所述的处理器(300)，其特征还在于：所述数学函数包括特殊函数。

9.根据权利要求1所述的处理器(300)，其特征还在于：所述算术逻辑电路(180)含有加法器、乘法器、和/或乘加器。

10.根据权利要求1所述的处理器(300)，其特征还在于：所述算术逻辑电路(180)实现整数运算、定点数运算、或浮点数运算。