CN110462641A

CN110462641A - 具有三维堆叠的神经网络加速器瓦片架构

Info

Publication number: CN110462641A
Application number: CN201880019410.7A
Authority: CN
Inventors: 安德烈亚斯·格奥尔格·诺瓦特济克; 奥利维尔·泰马姆; 拉维·纳拉亚纳斯瓦米; 乌代·库马尔·达萨里
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-06-16
Filing date: 2018-05-11
Publication date: 2019-11-15
Also published as: EP3822866A1; KR20190117712A; US20180365553A1; TWI771180B; TW201905769A; EP3822866B1; US20220147793A1; JP2020521194A; US11948060B2; TWI741187B; EP3574452A1; JP7058281B2; EP3574452B1; KR102385350B1; WO2018231395A1; TW202201287A; US9928460B1

Abstract

一种三维神经网络加速器，包括：第一神经网络加速器瓦片，其包括第一传输线圈；以及第二神经网络加速器瓦片，其包括第二传输线圈，其中，第一神经网络加速器瓦片与第二神经网络加速器瓦片相邻并垂直对齐，并且其中第一传输线圈被配置为经由电感耦合与第二传输线圈无线通信。

Description

具有三维堆叠的神经网络加速器瓦片架构

技术领域

本说明书通常涉及在硬件中加速神经网络计算。

背景技术

神经网络是采用一个或多个非线性单元的层对于所接收的输入来预测输出的机器学习模型。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一个层，即下一个隐藏层或输出层的输入。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。

发明内容

通常，本说明书中描述的主题的一个创新性方案可以在三维神经网络加速器中具体实施，该三维神经网络加速器包括：具有第一传输线圈的第一神经网络加速器瓦片；以及具有第二传输线圈的第二神经网络加速器瓦片，其中，第一神经网络加速器瓦片与第二神经网络加速器瓦片相邻并垂直对齐，其中，第一传输线圈被配置为经由电感耦合建立与第二传输线圈的无线通信，以及其中，第一神经网络加速器瓦片和第二神经网络加速器瓦片被配置为通过以下来执行神经网络的计算：通过所建立的无线通信形成静态互连系统，该静态互连系统包括提供不间断数据流的通信机制。

这些和其他实施方式可以各自可选地包括以下特征中的一个或多个：第一神经网络加速器瓦片被包括在第一神经网络加速器芯片上的第一瓦片阵列中，以及其中，第二神经网络加速器瓦片被包括在第二神经网络加速器芯片上的第二瓦片阵列中；第一传输线圈被进一步配置为通过近场无线通信在第一神经网络加速器瓦片与第二神经网络加速器瓦片之间提供数字逻辑互连；第一传输线圈进一步包括ThruChip接口(TCI)接收器和TCI发射器，其中，TCI接收器被配置为从第二传输线圈接收无线通信，以及其中，TCI发射器被配置为向第二传输线圈发射无线通信；第一神经网络加速器瓦片进一步包括处理元件和环形总线，其中，处理元件、第一传输线圈、TCI接收器、以及TCI发射器通过环形总线可通信地连接；处理元件包括用于在硬件中执行神经网络计算的电路；第一传输线圈被进一步配置为建立与第二传输线圈的TCI连接，以形成垂直环形总线；第一神经网络加速器瓦片进一步包括短路平面，以防止来自其他传输线圈的干扰；第一神经网络加速器瓦片相对于第二神经网络加速器瓦片旋转180度；以及第一神经网络加速器瓦片和第二神经网络加速器瓦片被相同定向。

可以实现本说明书所描述的主题的特定实施例，从而实现以下优点的一个或多个。三维堆叠神经网络加速器具有增加的片上存储器(on-chip memory)容量，例如以容纳更大的模型。与其他三维堆叠解决方案相比附加的优点包括成本更低、带宽更高、结构更紧凑、可扩展性增加。

在附图和以下描述中给出本说明书所描述的主题的一个或多个实施方式的细节。根据说明书、附图和权利要求，本主题的其他潜在特征、方案和优点将变得显而易见。

附图说明

图1A-图1C是示例神经网络加速器瓦片的方框图。

图2说明具有两个神经网络加速器芯片的示例三维堆叠神经网络加速器。

图3说明具有两个神经网络加速器芯片的另一个示例三维堆叠神经网络加速器。

图4说明具有两个神经网络加速器芯片的又一个示例三维堆叠神经网络加速器。

图5说明具有用于中带宽设计的垂直环形总线实施方式的示例三维堆叠神经网络加速器。

各个附图中相同的附图标记和名称指示相同的元件。

具体实施方式

在机器人、物联网领域以及使用机器学习算法的其他领域中，技术正在快速发展。例如，面部识别和用户偏好确定技术使用诸如神经网络的机器学习技术来增加结果准确性。可以使用通用图形处理单元、现场可编程门阵列、专用芯片和其他类似硬件来进行神经网络计算。随着神经网络模型的大小和复杂性的增加，它们需要更多的计算资源来执行。为了处理计算资源的增加，可以采用大规模硬件神经网络加速器。

这里描述的是用于神经网络加速器的架构。神经网络加速器是被配置为加速神经网络的计算，即，使用神经网络处理输入以生成输出的硬件计算系统。神经网络加速器可通过堆叠神经网络晶片(芯片)来制造，每个堆叠神经网络晶片包括互连神经网络加速器瓦片阵列。在一些实施方式中，神经网络芯片上的阵列内的每个神经网络瓦片经由平面环形总线嵌入可通信地耦合到另一个神经网络瓦片。一旦切割，就可将神经网络芯片三维堆叠，以形成神经网络加速器。在堆叠时，一个神经网络芯片上的瓦片阵列内的至少一个神经网络瓦片可以无线地可通信地链接到在第一芯片正上方或正下方堆叠的另一个神经网络芯片上的相应神经网络瓦片。链接的神经网络瓦片形成静态互连系统。在一些实施方式中，通过相应神经网络加速器瓦片将所形成的静态互连系统组织为线性处理序列。通过线性序列的处理时间的线性流水线在称为非核心的特殊控制器中开始和结束。该非核心是功能块的集合，其可以处理到主机的输入/输出(I/O)、接口到片外存储器、连接到I/O装置、和/或进行同步、协调、和缓冲功能。

可通过晶圆级堆叠来制造神经网络加速器，其中晶圆被堆叠在另一个晶圆之上并粘合在一起。晶圆是半导体材料(例如，硅、氮化镓等)的薄片，它通常是圆形的，并且直径可以在300或450毫米之间。每个晶圆具有一系列晶片(或芯片)，每个晶片包括神经网络加速器瓦片阵列。当晶圆堆叠并粘合时，晶片(及它们的瓦片)对齐。在堆叠时，不同芯片上的神经网络加速器瓦片可通过无线通信(即，使用TCI技术的电感耦合)或诸如通过硅通孔(TSV)的通过垂直互连可通信地相互耦合。然后将堆叠的晶圆切割成晶片堆叠，该晶片堆叠是神经网络加速器。

每个神经网络加速器瓦片是自包含的(self-contained)并且可以独立执行多层神经网络的一部分所需的计算。神经网络加速器瓦片包括处理元件(或处理器、处理器核)、存储器、以及耦合到传输线圈的环形总线。传输线圈可以被配置为电感地通信到在正上方或正下方堆叠的相邻瓦片的传输线圈。处理元件被配置为进行在硬件中处理神经网络计算所需的计算。例如，处理元件可以进行在硬件中的一个或多个神经网络构建块计算，例如，矩阵乘法、激活函数的计算、池化(pooling)、softmax、或逻辑回归计算等。包括在神经网络加速器瓦片中的处理元件的示例架构在美国专利申请No.15/335,769中进行了描述，该申请通过引用并入本文。

在神经网络加速器的制造期间，神经网络加速器芯片/晶片以允许通过嵌入式神经网络瓦片在芯片之间进行无线通信的方式堆叠。神经网络加速器瓦片通过嵌入式传输线圈实现堆叠瓦片之间的无线通信来支持这种三维扩缩。在一些实施方式中，堆叠瓦片之间的无线通信基于ThruChip无线互连技术(在Dave Ditzel于2014年8月11日发表的“Low-Cost 3D Chip Stacking with ThruChip Wireless Connections”中更详细地描述了ThruChip无线互连技术)。例如，传输线圈可以是提供TCI的一对环路。在一些实施方式中，传输线圈通过在神经网络加速器瓦片的逻辑和/或存储器区域之上的常规金属氧化物半导体(conventional metal–oxide–semiconductor，CMOS)工艺来构造。当神经网络加速器瓦片堆叠到其他瓦片上时(即，将相应的晶片/芯片被堆叠)，TCI(线圈)允许将数据发送到相应神经网络加速器瓦片之上或之下的神经网络加速器瓦片和/或从相应神经网络加速器瓦片之上或之下的神经网络加速器瓦片接收数据。在一些实施方式中，如图2和图3所示，阵列中的至少一个瓦片站点被配置为从在正上方或正下方堆叠的神经网络芯片上的相应瓦片站点接收无线传输，并且另一个瓦片站点被配置为将无线传输发送到同一神经网络芯片上的相应瓦片站点。在一些实施方式中，如图4所示，阵列中的一个瓦片站点被配置为从在正上方或正下方堆叠的神经网络芯片上的相应瓦片站点接收无线传输和向在正上方或正下方堆叠的神经网络芯片上的相应瓦片站点发送无线传输两者。

神经网络加速器芯片还包括：非核心内的其他片上电路，诸如I/O接口电路，以将数据耦合进和出瓦片阵列、时钟分配电路，以向瓦片的处理元件以及其他界面和控制功能提供时钟信号等。例如，接口可以是主机。可以在三维堆栈中的所有芯片上复制这种接口，或者可将接口委托给采用经由TCI耦合到三维堆栈的不同处理节点的第二芯片。

神经网络加速器芯片可以根据通过静态互连系统形成的序列在每个瓦片之间路由数据。例如，可以在静态互连系统中的一个计算瓦片接收数据，进行处理，然后将瓦片的输出发送到静态互连系统内的序列中的下一个瓦片并由其接收。然后，下一个瓦片处理所接收的输入。由序列中的每个瓦片重复该过程。

图1A是示例神经网络加速器瓦片100的方框图。示例性瓦片100包括处理元件110、环形总线120、传输线圈130、TCI接收器142和TCI发射器140。可以在类似神经网络加速器的阵列内的晶圆上制造神经网络加速器瓦片100。神经网络加速器阵列可包括在晶圆上的已制造晶片中。瓦片处理器元件(或(一个或多个)处理器核心)110可包括用于进行计算和控制功能的功能单元、存储器、数据路径和控制逻辑。在一些实施方式中，在神经网络加速器瓦片100的处理元件110(即，逻辑和/或存储器区域)上方制造传输线圈130，以最大化区域节省。

环形总线120表示诸如处理元件110、传输线圈130、TCI接收器142和TCI发射器140的瓦片100组件的互连以及在相同晶片内(即，相同瓦片阵列内)制造的其他神经网络加速器之间的互连。在一些实施方式中，环形总线120是相应神经网络芯片上的平面嵌入式环形总线的一部分，其连接阵列内的瓦片，以在定向二分图中形成哈密顿电路，其中每个处理瓦片由一个输入和一个输出顶点表示，并且其中处理单元是将输入连接到输出的边缘。对于环形总线120，可能的多路复用器配置可通过将某些输出连接到某些输入的多个边缘来表示。在一些实施方式中，为了促进作为平面嵌入的一部分的瓦片的线性系列，环形总线120在一侧进入瓦片100并在相对侧离开瓦片100。

如上所述，瓦片100是单独的计算单元，其可包括在神经网络加速器芯片上的类似瓦片的阵列内。在一些实施方式中，瓦片100可通信地耦合到一个或多个相邻瓦片，它们可以堆叠以在三维堆叠神经网络加速器内形成静态互连系统。采用堆叠瓦片以跨越三维堆叠神经网络加速器来分配神经网络的计算。例如，每个瓦片100与一个或多个相邻瓦片(即，在上方或下方并且无线连接的瓦片，或者在通过平面环形总线连接的神经网络芯片上的相同瓦片阵列内的瓦片)通信，以形成静态互连系统。可将互连系统配置为使得处理瓦片是包含三维堆栈的计算资源的一个或多个诸如环形总线120的环形总线的一部分。这种配置允许有效地利用三维芯片堆栈中的瓦片，并且如果应用需要，则提供将计算资源重新组织成多个环的灵活性。

传输线圈130嵌入在瓦片100中并提供TCI连接，TCI连接由相应的TCI接收器142接收并由相应的TCI发射器140发射。传输线圈130采用使用磁场的电感耦合来启用其他瓦片100的传输线圈130之间的近场无线通信，其他瓦片100例如在相应瓦片的上方或下方三维地堆叠。启动的近场无线通信提供三维堆叠的神经网络加速器芯片之间的数字逻辑互连。在一些实施方式中，瓦片100可以采用所建立的近场无线通信来与三维堆栈中的瓦片100上方或下方的相邻瓦片通信。如图1A所示，传输线圈130可以相互偏移，使得在堆叠两个瓦片时，相应的传输线圈不会干扰其他线圈之间的传输。传输线圈130、TCI接收器142和TCI发射器140一起形成TCI。这种TCI相对于瓦片100小，使得TCI连接所需的面积小于可比较的TSV所需的面积。例如，在特征尺寸小于20纳米(nm)的现代工艺节点中，可实现超过50千兆比特/秒(Gb/s)的带宽。实际速度遵从于诸如功率和串行器/解串器(SERDES)逻辑的复杂性的工程考虑。例如，TCI线圈尺寸取决于堆叠芯片的厚度。对于在一侧的为3倍于2.6微米(mm)，或者约8mm的线圈尺寸而言，目前的减薄技术已经演示了2.6微米(mm)的晶片厚度。更保守的晶片厚度为4mm，线圈尺寸约为12mm。

例如，瓦片可以是1×1mm的量级并具有大约6000TCI的空间。高带宽设计的瓦片100可包括覆盖该瓦片区域大部分的多个TCI(传输线圈130、TCI接收器142和TCI发射器140)。例如，一组TCI可以以20Gb/sec操作，并需要大约50个TCI来从环形总线120发送数据，还需要另外50个TCI为环形总线120接收数据。

具有中带宽设计的瓦片包括覆盖瓦片区域较小部分的多个TCI。例如，晶片厚度可以增加到大约15mm，且瓦片100可包括大约20-30个TCI。在这种示例中，传输线圈130可具有45mm的边长并产生大约400个可能的TCI站点。可将TCI放置在1×1mm瓦片边缘一半的线性行中，其中TCI发射器140和TCI接收器142都靠近瓦片的接口侧并以小于10Gb/秒的速度运行。图4中描绘了示例中带宽设计配置。

在一些实施方式中，瓦片100包括平面环形总线的部分120。平面环形总线可通信地耦合神经网络芯片上的阵列中的每个瓦片。环形总线具有大约2000条从一个瓦片到下一个瓦片(即点对点)的、且每个承载从0.25到0.5千兆位/秒(Gb/s)之间的带宽的线路。环形总线宽度是构成环形总线的线路数量。例如，芯片上的每个瓦片在大约2000条线路上发送数据，并具有从前一个瓦片进入的大约2000条线路的另一集合。

在这种实施方式中，用于瓦片100的TCI的信令速率可以在20到40Gb/s之间。在一些实施方式中，TCI可以以高速率运行以节省功率，因为由于恒定电流开关，发射器获得与实际数据速率无关的恒定的功率量。线圈尺寸是单独的晶片厚度的函数。瓦片100可以减薄到2.6到10微米之间。这对应于12至30微米的TCI线圈边缘长度，或者是芯片到芯片距离的三倍。

对于高带宽设计，可以使用上限厚度范围(10mm)的瓦片厚度、快速信令速率和低复用率。对于高带宽设计的一些实施方式，瓦片100上的TCI可以以环形总线速率发射或接收数据，但不能两者兼可。在这种实施方式中，带宽假设可以使用更大数量的TCI(每个瓦片可用大约6000个TCI)，使得在一个瓦片上有足够的空间用于足够的TCI来发射或接收等同于一个环形总线连接的带宽。在图2和图3中描绘了示例高带宽设计配置。

图1B是瓦片100的抽象表示的方框图。图1B中瓦片100的抽象表示包括处理元件110以及由圆150表示的TCI集合。用于瓦片100的TCI 150的集合包括图1A中的传输线圈130、TCI接收器142和TCI发射器140。

图1C是瓦片100的另一抽象表示的方框图。图1C中瓦片100的抽象表示包括处理元件110、两个由圆150表示的TCI的集合、以及多路复用器160。用于瓦片100的TCI 150的集合包括被分为两个独立集合的图1A中的传输线圈130、TCI接收器142和TCI发射器140。多路复用器160管理哪个TCI集合正在发射以及哪个TCI集合正在接收并且例如由配置寄存器静态地控制。如上所述，用于一个瓦片的可能的TCI站点的数量可以相当大(大约6000)，因此两个圆中的每一个圆表示被配置为发射器或接收器的TCI集合(与图1B的符号一致)。图1B和图1C中的抽象表示在图2至图5中使用。

图2说明了具有两个神经网络加速器芯片220和222的示例三维堆叠神经网络加速器200。描绘了两个芯片的堆栈；但是，可以使用任何数量的芯片(层)。神经网络加速器芯片220和222包括神经网络加速器瓦片100，神经网络加速器瓦片100包括一个TCI集合(如图1B所示)。在所描绘的示例中，神经网络加速器芯片220和222以相同的定向放置在彼此之上，使得用于每个相应神经网络加速器芯片220和222的环形总线(240，242)平行且在同一方向上行进。TCI数据连接232使用如上所述的电感耦合通过相邻的瓦片100提供加速器芯片220与222之间的通信。交叉点230是TCI数据连接232用于在网络加速器芯片220与222之间路由环形总线240和242的地方。通过将环形总线240和242接合到包含两个网络加速器芯片220和222的所有瓦片100的一个环来创建交叉点230。所述一个环可通信地耦合两个神经网络加速器芯片220和222的瓦片100。在所描绘的示例中，示出单个TCI数据连接对232；但是，在神经网络加速器芯片220与222之间可以形成任意数量的TCI数据连接对232。可以参与垂直数据交换的每个瓦片对具有连接这些瓦片(交叉点230)的两个线路集合，这可能需要两倍的线路数量(即4000而不是2000)。

图3说明了具有两个神经网络加速器芯片320和322的示例三维堆叠神经网络加速器300。描绘了两个芯片的堆栈；但是，可以使用任何数量的芯片(层)。神经网络加速器芯片320和322包括神经网络加速器瓦片100，神经网络加速器瓦片100包括一个TCI集合(如图1B所示)。在所描绘的示例中，神经网络加速器芯片320和322放置在彼此之上，但是定向相对于彼此旋转了180度。与图1类似，TCI数据连接332使用电感耦合通过相邻的瓦片100提供加速器芯片320与322之间的通信。

在所描绘的示例中，通过平面环形总线340和342嵌入上的一些小约束(例如，避免旋转对称布局)，旋转的神经网络加速器芯片320和322使得相应的环形总线340和342在交叉站点330处以相反的方向行进。所公开设计中TCI站点的位置中的约束允许TCI的垂直对准，即使在堆叠时两个芯片旋转180度时也是如此。此外，图3所描绘的布局减轻了如图2所描绘的一个芯片在交叉站点330有两个环形总线线路的集合，以在另一个芯片不使用任何线路时承载数据流量。这种配置可以降低布线成本，这个成本可能超过实现环形总线交叉的多路复用器的成本。此外，图3中的布局可以降低路由开销。在所描绘的示例中，示出单个TCI数据连接对332；但是，在神经网络加速器芯片320与322之间可以形成任意数量的TCI数据连接对332。这种设计允许形成多个独立的环，这在某些应用中可能是需要的。

图4说明了具有两个神经网络加速器芯片420和422的示例三维堆叠神经网络加速器400。描绘了两个芯片的堆栈；但是，可以使用任何数量的芯片(层)。神经网络加速器芯片420和422包括神经网络加速器瓦片100，神经网络加速器瓦片100包括两个TCI集合(如图1C所示)。在所描绘的示例中，神经网络加速器芯片420和422放置在彼此之上并以相同的定向堆叠。在相邻瓦片100对中的TCI集合之间建立TCI数据连接432，并使用如上所述的电感耦合通过两个相邻瓦片100在加速器芯片420和422之间提供通信。通过在瓦片100中采用两个TCI集合，将交叉定位到仅一个瓦片站点。这种配置可以减轻对长线路来跨越整个瓦片的需要。相反，所描绘的加速器400可以采用瓦片配置中的对称性破坏比特，其控制多路复用器并管理哪个TCI集合正在发射以及哪个TCI集合正在接收。在所描绘的示例中，示出了使用单个瓦片对来形成TCI数据连接432；但是，可以使用在神经网络加速器芯片420与422之间形成的任何数量的TCI数据连接对432。

图5示出具有用于高带宽设计的垂直环形总线实施方式的示例三维堆叠神经网络加速器500。所描绘的示例示出了三个堆叠神经网络加速器芯片510、520和530，其中在芯片之间具有TCI连接542和544。TCI连接542在芯片510上的瓦片站点512与芯片520上的瓦片站点524之间。TCI连接544在芯片520上的瓦片站点522与芯片530上的瓦片站点532之间。在所描绘的示例情况下，每个瓦片站点512、522、524和532形成一个垂直环形总线，该垂直环形总线将共享相同的瓦片位置的所有堆叠芯片上的所有瓦片互连(即，每列瓦片连接为一个环)。每个堆叠芯片510、520和530相对于堆叠中的前一个芯片旋转90度。环形总线连接形成穿过堆栈的双线螺旋。顶部(或底部)反射环形总线以关闭环。在一些实施方式中，将两个处理瓦片组合到该列的一个虚拟瓦片中，使得在上行路径中遍历至少一个处理瓦片，而在下行路径中遍历另一个处理瓦片。为了独立于堆栈中的芯片数量来控制环中瓦片的数量，构成一个垂直螺旋的虚拟瓦片可以群组更大数量(偶数)的瓦片处理器。在所描绘的示例中，底层510可包括到主机和/或环形总线控制器的接口，而构成堆栈其余部分的芯片是纯瓦片阵列。这种布置提供额外的基于TCI的垂直总线，其可用于同时向所有瓦片广播控制信号，避免与在跨越芯片的所有路径上行进线路相关联的延迟。在一些实施方式中，在控制器瓦片510上可将环接合在一起，以创建有更多瓦片的更长的环。这种配置提供了对于瓦片比率动态改变控制器。在所描绘的示例中，采用短路平面518、528和538来防止来自TCI线圈的干扰到达下一个芯片之外。在一些实施方式中，短路平面518、528和538是实心金属平面或致密网格，其可用于缩短TCI的范围而不会在整个制造过程中强加显著的成本增加。

虽然本说明书包含很多具体的实施方式细节，但是这些不应解释为对任何发明或可要求保护的范围的限制，而是解释为针对特定发明的特定实施例的特征的描述。在独立实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何适当的子组合在多个实施例中实现。此外，虽然可将上面的特征描述为以某些组合起作用甚至一开始就这样声明，但是在某些情况下可以从组合中切除来自所要求保护的组合的一个或多个特征，并且所要求保护的组合可以涉及子组合或子组合的变化。

类似地，虽然在附图中以特定的顺序描绘操作，但是这不应理解为要求以所示的特定顺序或按顺序进行这些操作，或者进行所有示出的操作，以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应理解为在所有实施例中都需要这种分离，并且应当理解，所述程序组件和系统通常可以在单个软件产品中集成在一起或者打包成多个软件产品。

已经描述了本主题的特定实施例。其他实施例落入以下权利要求的范围。例如，权利要求中记载的动作可以按照不同的顺序进行并仍然实现期望的结果。作为一个示例，附图中所描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

在以下示例中概括了进一步的实施方式：

示例1：一种三维神经网络加速器，包括：第一神经网络加速器瓦片，其包括第一传输线圈；以及第二神经网络加速器瓦片，其包括第二传输线圈，其中，第一神经网络加速器瓦片与第二神经网络加速器瓦片相邻并垂直对齐，其中，第一传输线圈被配置为经由电感耦合建立与第二传输线圈的无线通信，以及其中，第一神经网络加速器瓦片和第二神经网络加速器瓦片被配置为通过以下来执行神经网络的计算：通过所建立的无线通信形成静态互连系统，该静态互连系统包括提供不间断数据流的通信机制。

示例2：示例1的三维神经网络加速器，其中，第一神经网络加速器瓦片被包括在第一神经网络加速器芯片上的第一瓦片阵列中，以及其中，第二神经网络加速器瓦片被包括在第二神经网络加速器芯片上的第二瓦片阵列中。

示例3：示例1或示例2的三维神经网络加速器，其中，第一传输线圈被进一步配置为通过近场无线通信在第一神经网络加速器瓦片与第二神经网络加速器瓦片之间提供数字逻辑互连。

示例4：示例1至3中的一项的三维神经网络加速器，其中，第一传输线圈进一步包括ThruChip接口(TCI)接收器和TCI发射器，其中，TCI接收器被配置为从第二传输线圈接收无线通信，以及其中，TCI发射器被配置为向第二传输线圈发射无线通信。

示例5：示例4的三维神经网络加速器，其中，第一神经网络加速器瓦片进一步包括处理元件和环形总线，其中，处理元件、第一传输线圈、TCI接收器、以及TCI发射器通过环形总线可通信地连接。

示例6：示例5的三维神经网络加速器，其中，处理元件包括用于在硬件中执行神经网络计算的电路。

示例7：示例1至6中的一项的三维神经网络加速器，其中，第一传输线圈被进一步配置为建立与第二传输线圈的ThruChip接口(TCI)连接，以形成垂直环形总线。

示例8：示例1至7中的一项的三维神经网络加速器，其中，第一神经网络加速器瓦片进一步包括短路平面，以防止来自其他传输线圈的干扰。

示例9：示例1至8中的一项的三维神经网络加速器，其中，第一神经网络加速器瓦片相对于第二神经网络加速器瓦片旋转180度。

示例10：示例1至9中的一项的三维神经网络加速器，其中，第一神经网络加速器瓦片和第二神经网络加速器瓦片被相同定向。

示例11：一种用于制造神经网络加速器的方法，该方法包括：将第一神经网络加速器瓦片堆叠为与第二神经网络加速器瓦片相邻并垂直对齐，其中，第一神经网络加速器瓦片包括第一传输线圈，其中，第二神经网络加速器瓦片包括第二传输线圈，其中，第一传输线圈被配置为经由电感耦合与第二传输线圈无线通信，以及其中，第一神经网络加速器瓦片和第二神经网络加速器瓦片被配置为通过以下来执行神经网络的计算：通过无线通信形成静态互连系统，该静态互连系统包括提供不间断数据流的通信机制。

示例12：示例11的方法，其中，第一神经网络加速器瓦片被包括在第一神经网络加速器芯片上的第一瓦片阵列中，以及其中，第二神经网络加速器瓦片被包括在第二神经网络加速器芯片上的第二瓦片阵列中。

示例13：示例11或12的方法，其中，第一传输线圈被进一步配置为通过近场无线通信在第一神经网络加速器瓦片与第二神经网络加速器瓦片之间提供数字逻辑互连。

示例14：示例11至13的方法，其中，第一传输线圈进一步包括ThruChip接口(TCI)接收器和TCI发射器，其中，TCI接收器被配置为从第二传输线圈接收无线通信，以及其中，TCI发射器被配置为向第二传输线圈发射无线通信。

示例15：示例14的方法，其中，第一神经网络加速器瓦片进一步包括处理元件和环形总线，其中，处理元件、第一传输线圈、TCI接收器、以及TCI发射器通过环形总线可通信地连接。

示例16：示例15的方法，其中，处理元件包括用于在硬件中执行神经网络计算的电路。

示例17：示例11至16中的一项的方法，其中，第一传输线圈被进一步配置为建立与第二传输线圈的ThruChip接口(TCI)连接，以形成垂直环形总线。

示例18：示例17的方法，其中，第二神经网络加速器瓦片相对于第一神经网络加速器瓦片旋转90度，并且其中垂直环形总线形成穿过堆栈的双线螺旋。

示例19：示例11至18中的一项的方法，其中，第一神经网络加速器瓦片进一步包括短路平面，以防止来自其他传输线圈的干扰。

示例20：示例11至19中的一项的方法，其中，第一神经网络加速器瓦片相对于第二神经网络加速器瓦片旋转180度。

Claims

1.一种三维神经网络加速器，包括：

第一神经网络加速器瓦片，所述第一神经网络加速器瓦片包括第一传输线圈；以及

第二神经网络加速器瓦片，所述第二神经网络加速器瓦片包括第二传输线圈，

其中，所述第一神经网络加速器瓦片与所述第二神经网络加速器瓦片相邻并垂直对齐，

其中，所述第一传输线圈被配置为经由电感耦合建立与所述第二传输线圈的无线通信，以及

其中，所述第一神经网络加速器瓦片和所述第二神经网络加速器瓦片被配置为通过以下来执行神经网络的计算：通过所建立的无线通信形成静态互连系统，所述静态互连系统包括提供不间断数据流的通信机制。

2.根据权利要求1所述的三维神经网络加速器，

其中，所述第一神经网络加速器瓦片被包括在第一神经网络加速器芯片上的第一瓦片阵列中，以及

其中，所述第二神经网络加速器瓦片被包括在第二神经网络加速器芯片上的第二瓦片阵列中。

3.根据权利要求1或2所述的三维神经网络加速器，其中，所述第一传输线圈被进一步配置为通过近场无线通信在所述第一神经网络加速器瓦片与所述第二神经网络加速器瓦片之间提供数字逻辑互连。

4.根据权利要求1至3中的任一项所述的三维神经网络加速器，

其中，所述第一传输线圈进一步包括ThruChip接口(TCI)接收器和TCI发射器，

其中，所述TCI接收器被配置为从所述第二传输线圈接收无线通信，以及

其中，所述TCI发射器被配置为向所述第二传输线圈发射无线通信。

5.根据权利要求4所述的三维神经网络加速器，其中，所述第一神经网络加速器瓦片进一步包括处理元件和环形总线，其中，所述处理元件、所述第一传输线圈、所述TCI接收器、以及所述TCI发射器通过所述环形总线可通信地连接。

6.根据权利要求5所述的三维神经网络加速器，其中，所述处理元件包括用于在硬件中执行神经网络计算的电路。

7.根据权利要求1至6中的任一项所述的三维神经网络加速器，其中，所述第一传输线圈被进一步配置为建立与所述第二传输线圈的ThruChip接口(TCI)连接，以形成垂直环形总线。

8.根据权利要求1至7中的任一项所述的三维神经网络加速器，其中，所述第一神经网络加速器瓦片进一步包括短路平面，以防止来自其他传输线圈的干扰。

9.根据权利要求1至8中的任一项所述的三维神经网络加速器，其中，所述第一神经网络加速器瓦片相对于所述第二神经网络加速器瓦片旋转180度。

10.根据权利要求1至9中的任一项所述的三维神经网络加速器，其中，所述第一神经网络加速器瓦片和所述第二神经网络加速器瓦片被相同定向。

11.一种用于制造神经网络加速器的方法，所述方法包括：

将第一神经网络加速器瓦片堆叠为与第二神经网络加速器瓦片相邻并垂直对齐，

其中，所述第一神经网络加速器瓦片包括第一传输线圈，

其中，所述第二神经网络加速器瓦片包括第二传输线圈，

其中，所述第一传输线圈被配置为经由电感耦合与所述第二传输线圈无线通信，以及

其中，所述第一神经网络加速器瓦片和所述第二神经网络加速器瓦片被配置为通过以下来执行神经网络的计算：通过无线通信形成静态互连系统，所述静态互连系统包括提供不间断数据流的通信机制。

12.根据权利要求11所述的方法，

13.根据权利要求11或12所述的方法，其中，所述第一传输线圈被进一步配置为通过近场无线通信在所述第一神经网络加速器瓦片与所述第二神经网络加速器瓦片之间提供数字逻辑互连。

14.根据权利要求11至13中的任一项所述的方法，

15.根据权利要求14所述的方法，其中，所述第一神经网络加速器瓦片进一步包括处理元件和环形总线，其中，所述处理元件、所述第一传输线圈、所述TCI接收器、以及所述TCI发射器通过所述环形总线可通信地连接。

16.根据权利要求15所述的方法，其中，所述处理元件包括用于在硬件中执行神经网络计算的电路。

17.根据权利要求11至16中的任一项所述的方法，其中，所述第一传输线圈被进一步配置为建立与所述第二传输线圈的ThruChip接口(TCI)连接，以形成垂直环形总线。

18.根据权利要求17所述的方法，其中，所述第二神经网络加速器瓦片相对于所述第一神经网络加速器瓦片旋转90度，并且其中所述垂直环形总线形成穿过堆栈的双线螺旋。

19.根据权利要求11至18中的任一项所述的方法，其中，所述第一神经网络加速器瓦片进一步包括短路平面，以防止来自其他传输线圈的干扰。

20.根据权利要求11至19中的任一项所述的方法，其中，所述第一神经网络加速器瓦片相对于所述第二神经网络加速器瓦片旋转180度。