CN107346149A - 基于背面查找表的处理器 - Google Patents

基于背面查找表的处理器 Download PDF

Info

Publication number
CN107346149A
CN107346149A CN201710309818.5A CN201710309818A CN107346149A CN 107346149 A CN107346149 A CN 107346149A CN 201710309818 A CN201710309818 A CN 201710309818A CN 107346149 A CN107346149 A CN 107346149A
Authority
CN
China
Prior art keywords
lut
processor
function
arithmetic
look
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710309818.5A
Other languages
English (en)
Other versions
CN107346149B (zh
Inventor
张国飙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Haicun Information Technology Co Ltd
Original Assignee
Hangzhou Haicun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Haicun Information Technology Co Ltd filed Critical Hangzhou Haicun Information Technology Co Ltd
Publication of CN107346149A publication Critical patent/CN107346149A/zh
Application granted granted Critical
Publication of CN107346149B publication Critical patent/CN107346149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/02Digital function generators
    • G06F1/03Digital function generators working, at least partly, by table look-up
    • G06F1/035Reduction of table size
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/483Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers
    • G06F7/487Multiplying; Dividing
    • G06F7/4876Multiplying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/02Digital function generators
    • G06F1/03Digital function generators working, at least partly, by table look-up
    • G06F1/035Reduction of table size
    • G06F1/0356Reduction of table size by using two or more smaller tables, e.g. addressed by parts of the argument
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/483Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers

Abstract

本发明提出一种用于计算一数学函数、基于背面查找表(BS‑LUT)的处理器。它含有一查找表电路(LUT)和一算术逻辑电路(ALC)。LUT位于处理器衬底的背面,其存储的数据与该数学函数相关。ALC位于处理器衬底的正面,它对该函数相关数据进行算术运算。LUT与ALC通过多个穿透硅片通道(TSV)电耦合。

Description

基于背面查找表的处理器
技术领域
本发明涉及集成电路领域,更确切地说,涉及用于处理器。
背景技术
传统处理器采用基于逻辑的计算(logic-based computation,简称为LBC),它主要通过逻辑电路(如与非门等)来计算。逻辑电路适合实现算术运算(如加法、减法和乘法),但对于非算术函数(如初等函数、特殊函数等)无能为力。非算术函数的高速高效实现面临巨大的挑战。
在传统处理器中,仅少量基本非算术函数(如基本代数函数、基本超越函数)能通过硬件直接实现,这些函数被称为内置函数(built-in functions)。内置函数一般通过算术运算和查找表(LUT)的组合来实现。实现内置函数的例子很多,例如:美国专利US 5,954,787(发明人:Eun;授权日:1999年9月21日)披露了一种利用LUT实现正弦/余弦(sine/cosine)函数的方法;美国专利US 9,207,910(发明人:Azadet;授权日:2015年12月8日)披露了一种利用LUT实现幂函数的方法。
图1A具体描述了内置函数的一种实现方法。传统处理器00X通常含有逻辑电路100X和存储电路200X。逻辑电路100X含有算术逻辑单元(ALU),它用于实现算术运算。存储电路200X含有查找表电路(LUT)。为了达到足够的计算精度,需将代表内置函数的多项式展开到足够高的阶数。这时,LUT 200X存储多项式系数,ALU 100X计算相应的多项式。由于ALU100X和LUT 200X并肩排列在同一平面上(均形成在衬底00S中),这种集成是一种二维集成。
二维集成对处理器的制造工艺要求较高。存储电路200X由存储晶体管构成,逻辑电路100X由逻辑晶体管构成。熟悉本专业的人士都知道,存储晶体管和逻辑晶体管的性能指标有很大不同。比如说,存储晶体管更注重降低漏电流,而逻辑晶体管更注重增加导通电流。在同一衬底上00S的同一表面上同时形成高性能的存储晶体管和逻辑晶体管对于制造工艺来说是一种挑战。
二维集成还会限制计算密度和计算复杂度的进一步发展。计算正向更高的计算密度和更大的计算复杂度发展。计算密度是指单位芯片面积的计算能力(如每秒的浮点数运算次数),它是平行计算的一个重要指标。计算复杂度是指内置函数的种类和数量,它是科学计算的一个重要指标。由于采用二维集成,LUT 200X的存在将增加传统处理器00X的芯片面积,降低其计算密度,这对平行计算不利。同时,在传统处理器00X的设计过程中,由于ALU100X是传统处理器00X的核心部件并占用了大部分芯片面积,故LUT 200X能利用的芯片面积有限。因此,传统处理器00X仅支持少量内置函数。图1B列出英特尔公司的Itanium处理器(IA-64)能实现的所有内置超越函数(参考Harrison等所著《The Computation ofTranscendental Functions on the IA-64 Architecture》, Intel Technical Journal,Q4, 1999年)。IA-64处理器共支持7种超越函数,每种超越函数使用了相对较小的LUT(从0到24kb),并需要进行相对较多的泰勒级数(5阶到22阶)计算。
发明内容
本发明的主要目的是推动科学计算的变革。
本发明的另一目的是提供一种能实现更高计算复杂度的处理器。
本发明的另一目的是提供一种能实现更高计算密度的处理器。
本发明的另一目的是提供一种具有更多内置函数的处理器。
本发明的另一目的是高速高效地计算非算术函数。
为了实现这些以及别的目的,本发明提出一种基于背面查找表(backside LUT,简称为BS-LUT)的处理器(BS-LUT处理器)。BS-LUT处理器芯片含有一逻辑电路和一存储电路。其中,逻辑电路含有至少一算术逻辑电路(arithmetic logic circuit,简称为ALC);存储电路含有至少一查找表( look-up table,简称为LUT)。ALC和LUT分别形成在处理器衬底的正反两面,它们之间通过穿透硅片通道(TSV)进行电耦合。由于位于衬底背面,LUT又被称为背面查找表电路(BS-LUT)。BS-LUT存储与一函数相关的数据,ALC对该函数相关数据进行算术运算。
BS-LUT处理器采用“基于存储的计算”(memory-based computation,简称为MBC),它主要通过查表来实现计算。BS-LUT处理器中BS-LUT的存储容量远高于传统处理器的LUT。虽然大多数MBC仍需要进行算术运算,通过使用较大的BS-LUT作为计算的出发点,MBC仅需使用较少的多项式展开(如泰勒级数展开)。在MBC中,大部分计算通过BS-LUT完成,少部分计算通过ALC实现。
这种将ALC和LUT形成衬底正反两面的集成方式被称为双面集成。双面集成能提高计算密度和计算复杂度。采用传统的二维集成,传统处理器00X的面积是ALU 100X和LUT200X之和。采用双面集成后,LUT从边上移到衬底背面,BS-LUT处理器变小,计算密度加强。此外,传统处理器00X中LUT 200X的总容量小于100kb,而BS-LUT处理器中BS-LUT的总容量可达到100Gb;单个BS-LUT处理器就可支持上万个内置函数(包括多种复杂数学函数),远多于传统处理器00X。此外,由于构成ALC的逻辑晶体管和构成LUT的存储晶体管分别形成在衬底的不同表面上,它们的制造工艺可分别优化。
相应地,本发明提出一种基于背面查找表(BS-LUT)处理器(300),其特征在于含有:一半导体衬底(0S),该半导体衬底(0S)含有一正面(0F)和一背面(0B);该衬底背面(0B)含有至少一查找表电路(170),该查找表电路(170)存储的数据与一数学函数相关;该衬底正面(0F)含有至少一算术逻辑电路(180),该算术逻辑电路(180)对该查找表(170)存储的数据进行算术运算;多个穿透该半导体衬底(0S)、并将该查找表(170)和该算术逻辑电路(180)电耦合的穿透硅片通道(TSV)(160)。
附图说明
图1A是一传统处理器的透视图(现有技术);图1B列出英特尔Itanium(IA-64)处理器支持的所有超越函数(现有技术)。
图2A是一种典型BS-LUT处理器的简要电路框图;图2B是其正面透视图;图2C是其背面透视图。
图3A是一种BS-LUT处理器的截面图;图3B是其正面电路布局图;图3C是其背面电路布局图。
图4A是一种实现一数学函数的BS-LUT处理器之简要电路框图;图4B是一种实现一单精度数学函数的BS-LUT处理器之电路框图;图4C列出实现各种精度数学函数所需的查找表容量和泰勒级数展开项。
图5是一种实现复合函数的BS-LUT处理器之电路框图。
注意到,这些附图仅是概要图,它们不按比例绘图。为了显眼和方便起见,图中的部分尺寸和结构可能做了放大或缩小。在不同实施例中,数字后面的字母后缀表示同一类结构的不同实例;相同的数字前缀表示相同或类似的结构。“/”表示“和” 或“或”的关系。在本发明中,“查找表”和“查找表电路”均被缩写为LUT。根据上下文,LUT代表查找表或查找表电路。
具体实施方式
图2A是一种典型的、基于背面查找表(backside LUT,简称为BS-LUT)的处理器(BS-LUT处理器)300的简要电路框图;图2B是其正面透视图;图2C是其背面透视图。BS-LUT处理器300有一个或多个输入150、以及一个或多个输出190。BS-LUT处理器300形成在一半导体衬底0S上,该衬底0S含有正面0F(+z方向)和背面0B(-z方向)。BS-LUT处理器芯片300含有一逻辑电路100和一存储电路200。其中,逻辑电路100含有至少一算术逻辑电路(arithmetic logic circuit,简称为ALC)180,它形成在衬底0S的正面0F;存储电路200含有至少一查找表( look-up table,简称为LUT)170,它形成在衬底0S的背面0B。ALC 180和LUT 170通过穿透硅片通道(TSV)160进行电耦合。由于位于衬底背面,LUT 170又被称为背面查找表电路(BS-LUT)。BS-LUT 170用于存储函数相关数据,ALC 180对函数相关数据进行算术运算。由于BS-LUT 170与ALC 180处于不同表面上,在说明书附图中,BS-LUT 170用虚线表示,ALC 180用实线表示。
图3A是BS-LUT处理器300的截面图;图3B是其正面电路布局图;图3C是其背面电路布局图。BS-LUT处理器300含有多个穿透衬底0S的穿透硅片通道(TSV)160a-160f…(图3A)。BS-LUT处理器300的正面0F含有ALC 180,包括ALC构件180a-180d…(图3B)。这些ALC构件180a-180d分别与TSV 160a-160d耦合。BS-LUT处理器300的背面0B含有BS-LUT 170,包括LUT阵列170a-170f…(图3C)。在本说明书中,一LUT阵列是所有共享了至少一条地址线的存储元之集合(包括其周边电路)。LUT阵列170a-170f分别与TSV 160a-160d耦合。ALC 180通过TSV 160a-160f从BS-LUT 170中读取数据,并进行算术运算。
BS-LUT 170可采用RAM和/或ROM。RAM包括SRAM和DRAM等。ROM包括mask ROM、OTP、EPROM、EEPROM和闪存等。闪存可以分为NOR或NAND,NAND还可以分为横向NAND和纵向NAND(vertical NAND)。另一方面,ALC 180可以含有加法器、乘法器、和/或乘加器,它可以用于实现整数运算、定点数运算、或浮点数运算。
BS-LUT处理器300采用“基于存储的计算”(MBC),它主要通过查表来实现计算。BS-LUT处理器300中BS-LUT 170的存储容量远高于传统处理器00X的LUT 200X。虽然大多数MBC仍需要进行算术运算,通过使用较大的BS-LUT 170作为计算的出发点,MBC仅需使用较少的多项式展开(如泰勒级数展开)。在MBC中,大部分计算通过BS-LUT 170完成,少部分计算通过ALC 180实现。
这种将ALC 180和LUT 170形成衬底0S正反两面的集成方式被称为双面集成。双面集成能提高计算密度和计算复杂度。采用传统的二维集成,传统处理器00X的面积是LUT200X和ALU 100X之和。采用双面集成后,LUT从边上移到衬底背面,BS-LUT处理器300的面积变小,计算密度加强。此外,传统处理器00X中LUT的总容量小于100kb,而BS-LUT处理器300中LUT的总容量可达到100Gb;单个BS-LUT处理器300就可支持上万个内置函数(包括多种复杂数学函数),远多于传统处理器00X。此外,双面集成还能提高BS-LUT 170和ALC 180之间的数据传输带宽。由于BS-LUT 170和ALC 180距离较近且TSV 160数量较多,它们之间的数据传输带宽远高于传统处理器00X中LUT 200X和ALU 100X之间的带宽。最后,双面集成对制造工艺角度也有益处。由于构成ALC 180的逻辑晶体管和构成LUT 170的存储晶体管分别形成在衬底0S的不同表面(0F、0B)上,它们的制造工艺可分别优化。
图4A表示一种实现一数学函数Y=f(X)的典型BS-LUT处理器300。其逻辑芯片100含有一预处理电路180R和至少一后处理电路180T,其存储芯片200含有至少一BS-LUT 170,它存储该数学函数的相关数据。预处理电路180R将函数的自变量X 150转换为BS-LUT 170的地址A 160A;后处理器180T将从BS-LUT 170中读出的数据D 160D转换为函数值Y的输出190。在该实施例中,预处理电路180R和后处理电路180T形成在逻辑芯片100中。在其他实施例中,至少一部分预处理电路180R和/或后处理电路180T也可以形成在存储芯片200中。自变量X的一部分R可以在被预处理电路180R处理之前送至后处理电路180T作为后端处理的一个输入,也可以在被预处理电路180R处理之后(即地址A的一部分)送至后处理器180T。
图4B表示一种采用function-by-LUT法实现单精度数学函数Y=f(X)的BS-LUT处理器300。BS-LUT 170含有两个LUT 170Q、170R,其容量均为2Mb(16位输入、32位输出),并分别存储函数值D1=f(A)和函数的一阶导数值D2=f’(A)。ALC 180含有预处理电路180R(主要含有一地址缓冲区)和后处理电路180T(含有一加法器180A和一乘法器180M)。芯片间连接160在BS-LUT 170和ALC 180之间传输数据。在计算函数时,该BS-LUT处理器300的输入为32位自变量X 150(x31… x0);预处理电路180R将其前16位(x31… x16)提取出来作为LUT 170Q、170R的16位地址输入A,再将其后16位(x15… x0)提取出来作为16位地址余量R送到后处理电路180T;后处理电路180T通过多项式插值计算32位输出值Y 190。在本实施例中,多项式插值是一阶泰勒级数:Y(X)=D1+D2*R=f(A)+f’(A)*R。很明显,采用更高阶的多项式插值(如更高阶的泰勒级数)能进一步提高计算精度。
在实现内置函数时,将LUT和多项式插值结合起来可以用较小的LUT实现较高的计算精度。假如仅用LUT(无多项式插值)来实现上述的单精度函数(32位输入、32位输出),LUT的容量需要达到232*32=128Gb。用这么大的LUT来实现一个函数是不现实的。通过多项式插值,LUT的容量可极大地降低。在上述实施例中,在采用一阶泰勒级数后,LUT只需4Mb(函数值LUT需要2Mb、一阶导数值LUT需要2Mb)。这比仅用LUT的方式(128Gb)少很多。
图4C列出实现各种精度数学函数所需的查找表容量和泰勒级数展开项。该实施例采用定义域缩小法并将查找表的容量限制在Mb级(参考Harrison等所著《The Computationof Transcendental Functions on the IA-64 Architecture》, Intel TechnicalJournal, Q4, 1999年)。半精度(16位)计算使用的BS-LUT 170容量为216×16=1Mb,这时不需要计算任何泰勒级数;单精度(32位)计算使用的BS-LUT 170容量为216×32×2=4Mb,这时需要计算1阶泰勒级数;双精度(64位)计算使用的BS-LUT 170容量为216×64×3=12Mb,这时需要计算2阶泰勒级数;扩展双精度(80位)计算使用的BS-LUT 170的容量为216×80×4=20Mb,这时需要计算3阶泰勒级数。作为一个比较,为实现同样的双精度(64位)计算,英特尔的Itanium处理器需要计算多达22阶泰勒级数。
除了初等函数以外,图4A-图4B中的实施例还能实现各种高等函数,如特殊函数等。特殊函数在数学分析、泛函分析、物理研究、工程应用中有着举足轻重的地位。许多特殊函数是微分方程的解或基本函数的积分。特殊函数的例子包括伽玛函数、贝塔函数、贝塞尔函数、勒让德函数、椭圆函数、Lame函数、Mathieu函数、黎曼泽塔函数、菲涅耳积分等。BS-LUT处理器300的出现将简化特殊函数的计算,助推其在科学计算中的应用。
图5表示一种采用function-by-LUT法实现一复合函数的BS-LUT处理器300,它用于实现复合函数Y=exp[K*log(X)]=XK。其BS-LUT 170含有两个LUT 170S、170T,它们分别存储Log()和Exp()的函数值。其ALC 180含有一乘法器180M。其TSV 160传输160s和160t等。在运算过程中,输入变量X被用作LUT 170S的地址150;LUT 170S的输出Log(X) 160s在乘法器180M处与幂参数K相乘;乘积160t作为地址送到LUT 170T中;LUT 170T的输出190为Y=XK
应该了解,在不远离本发明的精神和范围的前提下,可以对本发明的形式和细节进行改动,这并不妨碍它们应用本发明的精神。例如说,处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、图像处理器(GPU)、网络安全处理器、加密/解密处理器、编码/解码处理器、神经网络处理器、人工智能(AI)处理器等。这些处理器可以用在消费电子产品(如个人电脑、游戏机、智能手机等)中,也能用在工作站和服务器中。因此,除了根据附加的权利要求书的精神,本发明不应受到任何限制。

Claims (10)

1.一种基于背面查找表(BS-LUT)的处理器(300),其特征在于含有:
一半导体衬底(0S),该半导体衬底(0S)含有一正面(0F)和一背面(0B);
该衬底背面(0B)含有至少一查找表电路(170),该查找表电路(170)存储的数据与一数学函数相关;
该衬底正面(0F)含有至少一算术逻辑电路(180),该算术逻辑电路(180)对该查找表(170)存储的数据进行算术运算;
多个穿透该半导体衬底(0S)、并将该查找表(170)和该算术逻辑电路(180)电耦合的穿透硅片通道(TSV)(160)。
2.根据权利要求1所述的处理器(300),其特征还在于:所述查找表(170)为RAM。
3.根据权利要求1所述的处理器(300),其特征还在于:所述查找表(170)为ROM。
4.根据权利要求1所述的处理器(300),其特征还在于:所述查找表(170)含有晶体管。
5.根据权利要求1所述的处理器(300),其特征还在于:所述与该数学函数相关的数据包括该数学函数的函数值。
6.根据权利要求1所述的处理器(300),其特征还在于:所述与该数学函数相关的数据包括该数学函数的导数值。
7.根据权利要求1所述的处理器(300),其特征还在于:所述数学函数包括复合函数。
8.根据权利要求1所述的处理器(300),其特征还在于:所述数学函数包括特殊函数。
9.根据权利要求1所述的处理器(300),其特征还在于:所述算术逻辑电路(180)含有加法器、乘法器、和/或乘加器。
10.根据权利要求1所述的处理器(300),其特征还在于:所述算术逻辑电路(180)实现整数运算、定点数运算、或浮点数运算。
CN201710309818.5A 2016-05-04 2017-05-04 基于背面查找表的处理器 Active CN107346149B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201610294268X 2016-05-04
CN201610294268 2016-05-04
CN2017103024463 2017-05-03
CN201710302446 2017-05-03

Publications (2)

Publication Number Publication Date
CN107346149A true CN107346149A (zh) 2017-11-14
CN107346149B CN107346149B (zh) 2020-10-27

Family

ID=60243978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710309818.5A Active CN107346149B (zh) 2016-05-04 2017-05-04 基于背面查找表的处理器

Country Status (2)

Country Link
US (1) US20170322770A1 (zh)
CN (1) CN107346149B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326191A (zh) * 2018-12-13 2020-06-23 杭州海存信息技术有限公司 含有三维纵向存储阵列的处理器
CN111435460A (zh) * 2019-01-13 2020-07-21 杭州海存信息技术有限公司 神经网络处理器封装

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11527523B2 (en) * 2018-12-10 2022-12-13 HangZhou HaiCun Information Technology Co., Ltd. Discrete three-dimensional processor
US10445067B2 (en) * 2016-05-06 2019-10-15 HangZhou HaiCun Information Technology Co., Ltd. Configurable processor with in-package look-up table
CN113918506A (zh) * 2018-12-10 2022-01-11 杭州海存信息技术有限公司 分离的三维处理器
US11296068B2 (en) * 2018-12-10 2022-04-05 HangZhou HaiCun Information Technology Co., Ltd. Discrete three-dimensional processor

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580678A (zh) * 2013-11-04 2014-02-12 复旦大学 一种基于fgpa的高性能查找表电路
US20140159247A1 (en) * 2012-12-06 2014-06-12 Texas Instruments Incorporated 3D Semiconductor Interposer for Heterogeneous Integration of Standard Memory and Split-Architecture Processor
US20140222883A1 (en) * 2011-12-21 2014-08-07 Jose-Alejandro Pineiro Math circuit for estimating a transcendental function
CN104170060A (zh) * 2011-12-28 2014-11-26 英特尔公司 背侧体硅mems
CN104637862A (zh) * 2013-11-14 2015-05-20 盛美半导体设备(上海)有限公司 半导体结构形成方法
CN104795354A (zh) * 2014-01-17 2015-07-22 中芯国际集成电路制造(上海)有限公司 一种芯片的集成方法
US20150364401A1 (en) * 2013-12-30 2015-12-17 International Business Machines Corporation Double-sided segmented line architecture in 3d integration

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140222883A1 (en) * 2011-12-21 2014-08-07 Jose-Alejandro Pineiro Math circuit for estimating a transcendental function
CN104170060A (zh) * 2011-12-28 2014-11-26 英特尔公司 背侧体硅mems
US20140159247A1 (en) * 2012-12-06 2014-06-12 Texas Instruments Incorporated 3D Semiconductor Interposer for Heterogeneous Integration of Standard Memory and Split-Architecture Processor
CN103580678A (zh) * 2013-11-04 2014-02-12 复旦大学 一种基于fgpa的高性能查找表电路
CN104637862A (zh) * 2013-11-14 2015-05-20 盛美半导体设备(上海)有限公司 半导体结构形成方法
US20150364401A1 (en) * 2013-12-30 2015-12-17 International Business Machines Corporation Double-sided segmented line architecture in 3d integration
CN104795354A (zh) * 2014-01-17 2015-07-22 中芯国际集成电路制造(上海)有限公司 一种芯片的集成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111326191A (zh) * 2018-12-13 2020-06-23 杭州海存信息技术有限公司 含有三维纵向存储阵列的处理器
CN111435460A (zh) * 2019-01-13 2020-07-21 杭州海存信息技术有限公司 神经网络处理器封装

Also Published As

Publication number Publication date
US20170322770A1 (en) 2017-11-09
CN107346149B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN107346149A (zh) 基于背面查找表的处理器
CN107346148A (zh) 基于背面查找表的仿真处理器
Wang et al. 14.2 A compute SRAM with bit-serial integer/floating-point operations for programmable in-memory vector acceleration
CN107346232A (zh) 基于背面查找表的可编程处理器
Marr et al. Scaling energy per operation via an asynchronous pipeline
CN107346230A (zh) 基于封装内查找表的处理器
CN107346352A (zh) 基于封装内查找表的仿真处理器
CN107346231A (zh) 基于封装内查找表的可编程处理器
Dorojevets et al. Towards 32-bit energy-efficient superconductor RQL processors: The cell-level design and analysis of key processing and on-chip storage units
Meher et al. Low-Latency, Low-Area, and Scalable Systolic-Like Modular Multipliers for $ GF (2^{m}) $ Based on Irreducible All-One Polynomials
Jafarzadehpour et al. New energy‐efficient hybrid wide‐operand adder architecture
Mishra et al. Low power and area efficient implementation of BCD adder on FPGA
Ibrahim et al. Optimized structures of hybrid ripple carry and hierarchical carry lookahead adders
Kim et al. A 1-16b reconfigurable 80kb 7t sram-based digital near-memory computing macro for processing neural networks
Kwon et al. A 1ynm 1.25 v 8gb 16gb/s/pin gddr6-based accelerator-in-memory supporting 1tflops mac operation and various activation functions for deep learning application
Thakur et al. Design and analysis of high-speed parallel prefix adder for digital circuit design applications
Bansal et al. Comparison between conventional fast multipliers and improved fast multipliers using PTL Logic
Patel et al. Area–delay and energy efficient multi‐operand binary tree adder
Li et al. Toward energy-efficient sparse matrix-vector multiplication with near STT-MRAM computing architecture
Singh et al. Cidan-xe: Computing in dram with artificial neurons
Raghul et al. Design and Implementation of Approximate Truncated adder using kogge stone adder for low power applications
Harika et al. Analysis of different multiplication algorithms & FPGA implementation
Lee et al. A 2x2 Bit Multiplier Using Hybrid 13T Full Adder with Vedic Mathematics Method
Ghamkhari et al. A New Low Power Schema for Stream Processors Front-End with Power-Aware DA-Based FIR Filters by Investigation of Image Transitions Sparsity
US20230385624A1 (en) Computing in memory with artificial neurons

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant