CN107563952A

CN107563952A - 可编程二维图像处理器上的卷积神经网络

Info

Publication number: CN107563952A
Application number: CN201710532146.4A
Authority: CN
Inventors: O.沙查姆; D.帕特森; W.R.马克; A.梅克斯纳; D.F.芬切尔斯坦; J.R.雷德格雷夫
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-07-01
Filing date: 2017-07-03
Publication date: 2018-01-09
Anticipated expiration: 2037-07-03
Also published as: CN107563952B; DE102017113733A1; GB2564285B; JP2019522291A; US20210004633A1; EP3479302B1; GB201814094D0; JP6764954B2; WO2018005030A1; US20180005074A1; DE102017113733B4; US20180005075A1; GB2574940B; DE202017103694U1; GB2574940A; TW201802727A; GB2564285A; US10789505B2; US10546211B2; GB201907743D0

Abstract

描述了一种方法，其包括在具有执行通道阵列和二维移位寄存器的图像处理器上执行卷积神经网络层。二维移位寄存器为执行通道提供局部相应的寄存器空间。卷积神经网络的执行包括将三维图像数据块的图像数据的平面加载到二维移位寄存器。执行卷积神经网络还包括通过依次进行以下步骤来执行图像数据的平面与系数值阵列的二维卷积：在执行通道内同时相乘相应的像素和系数值以产生部分乘积的阵列；在执行通道内同时将部分乘积和保存在图像数据内不同模版的二维寄存器中的部分乘积的相应累积值求和；以及通过移位二维移位寄存器阵列内的内容来实现执行通道内的二维卷积的值的对齐。

Description

可编程二维图像处理器上的卷积神经网络

技术领域

本描述一般涉及图像处理，更具体地，涉及一种二维图像处理器上的卷积神经网络。

背景技术

图像处理通常包括处理组织成阵列的像素值。此处，在空间上组织的二维阵列捕获图像的二维性质(附加的维度可以包括时间(例如一系列二维图像)和数据类型(例如颜色))。在通常情况下，排列的像素值由相机提供，相机产生一幅静止图像或是一系列帧以捕获动态图像。传统的图像处理器通常落入两个极端之一。

第一个极端通过在通用处理器或类似通用处理器(general purpose-likeprocessor)(例如，具有向量指令增强的通用处理器)上执行软件程序来进行图像处理任务。尽管第一个极端通常提供了高度通用的应用软件开发平台，但其使用更细粒度的数据结构结合相关联的开销(overhead)(例如指令提取与解码、芯片上与芯片外的数据的处理、推测执行)，最终导致在程序代码的执行期间，每单元数据消耗更大量的能量。

第二个相反的极端将固定函数硬接线(hardwired)电路应用于更大的数据块。使用直接应用于定制设计电路的更大的(相对于细粒度的)数据块，大大降低了每单元数据的能耗。然而，使用定制设计的固定函数电路通常导致了该处理器所能执行的任务的有限集合。因此，第二个极端中缺乏(与第一个极端相关联的)广泛通用的编程环境。

提供高通用应用软件开发机会结合每单元数据的改善的能效的技术平台仍然是需要但缺乏的技术方案。

发明内容

描述了一种装置，其具有用于在图像处理器上执行卷积神经网络层的装置，该图像处理器具有执行通道阵列和二维移位寄存器。二维移位寄存器为执行通道提供局部相应的寄存器空间。用于执行卷积神经网络的装置包括将三维图像数据块的图像数据的平面加载到二维移位寄存器的装置。用于执行卷积神经网络的装置还包括用于通过依次进行以下步骤来执行图像数据的平面与系数值阵列的二维卷积的装置：在执行通道内同时相乘相应的像素和系数值以产生部分乘积的阵列；在执行通道内同时将部分乘积和保存在图像数据内不同模版的二维寄存器中的部分乘积的相应累积值求和；以及通过移位二维移位寄存器阵列内的内容来实现执行通道内的二维卷积的值的对齐。

附图说明

下面的描述和附图用于解释多种实施例。在图中：

图1示出了图像处理器硬件架构的实施例。

图2a、2b、2c、2d和2e描绘了把图像解析成线组，把线组解析表以及在具有重叠模板的表上执行的操作；

图3a示出了模板处理器的实施例；

图3b示出了指令格式的实施例；

图4示出了在模板处理器中的数据计算单元的实施例；

图5a、5b、5c、5d、5e、5f、5g、5h、5i、5j、5k描绘了使用二维移位阵列和执行通道(lane)阵列来确定一对具有重叠模板的邻近输出像素值；

图6示出了集成的执行通道阵列和二维移位阵列的单位单元的实施例；

图7描绘了3D卷积；

图8描绘了CNN层；

图9a描绘了使用图像系数平面的3D卷积；

图9b描绘了图像数据的两个3x3模板值和对应的系数集合的二维卷积；

图10a、10b、10c、10d、10e、10f、10g、10h、10i、10j描绘了使用图像平面及具有系数平面的系数集的CNN层的执行；

图11a、11b、11c、11d、11e、11f、11g、11h、11i、11j描绘了两个3x3 模版的二维卷积，其中图像处理器具有二维移位寄存器；

图12示出了第一个图像处理器CNN层配置；

图13示出了第二个图像处理器CNN层配置；

图14示出了第三个图像处理器CNN层配置；

图15涉及在图像处理器上复用多个CNN层。

图16示出了在图像处理器上执行CNN层的方法。

图17示出了计算系统。

具体实施方式

a.图像处理器的硬件结构及操作

图1描绘了以硬件实现的图像处理器的架构100的实施例。该图像处理器可以，例如，由编译器作为目标，该编译器在仿真环境里将为虚拟处理器写入的程序代码转化为实际上由硬件处理器执行的程序代码。如图1所示，架构100包括多个线缓冲器单元101_1到101_M(以下称为“线缓冲器”、 “线缓冲器单元”等)，多个线缓冲器单元101_1到101_M通过网络104(例如片上网络(NOC)，包括片上开关网络，片上环网，或者其他类型的网络) 互连到多个模板处理器单元102_1至102_N(以下称为“模板处理器”、“模板处理器单元”等)及对应的表生成器单元103_1至103_N(以下称为“表生成器”，“表生成器单元”等)。在实施例中，任何线缓冲器单元可以通过网络104连接到任何表生成器及对应的模板处理器。

在实施例中，程序代码被编译并被加载到对应的模板处理器102上，以执行早先由软件开发者定义的图像处理操作(程序代码还可以被加载到模板处理器的相关联的表生成器103上，例如，取决于设计与实现方式)。至少在某些情况下，图像处理器流水线可以通过将第一个流水线级的第一个内核程序加载到第一个模板处理器102_1中，将第二个流水线级的第二个内核程序加载到第二个模板处理器102_2中，等等来实现。在这种情形下，第一个内核执行流水线的第一级的函数，第二个内核执行流水线的第二级的函数，等等，并且安装附加的控制流程方法以将输出图像数据从流水线的一个级传送到流水线的下一级。

在其他配置中，图像处理器可以被实现为并行机，其具有操作相同内核程序代码的两个或更多个模板处理器102_1、102_2。例如，图像数据的高密度和高数据速率流可以通过在多个模板处理器上扩展帧来处理，这些模板处理器中的每个模板处理器执行相同的函数。

在其他配置中，基本上内核的任何有向非循环图(directed acyclic graph,DAG)可以通过以下配置步骤被加载到硬件处理器上：配置具有它们自己相应的程序代码的内核的相应的模板处理器，将合适的控制流程挂钩(hooks) 配置到硬件中以将输出图像从一个内核引导(direct)到DAG设计中的下一个内核的输入。

作为一般流程，图像数据的帧由宏I/O单元105接收，并逐个帧地传送到一个或多个线缓冲器单元101。特定的线缓冲器单元将其图像数据帧解析到更小的图像数据区域，称为“线组(line group)”，然后通过网络104将该线组传送到特定的表生成器。完整的或者“完全的”单个线组可以例如由帧中多个连续完整的行或列的数据构成(为了简明起见，本说明书将主要指连续的行)。表生成器还将图像数据的线组解析为更小的图像数据区域，称为 “表”，并把表呈现到其对应的模板处理器中。

在图像处理流水线或是具有单个输出的DAG流情况下，通常，输入帧被引导到相同的线缓冲单元101_1，线缓冲单元101_1将图像数据解析为线组，并将线组引导到表生成器103_1，表生成器103_1的对应的模板处理器 102_1执行流水线/DAG中第一个内核的代码。当模板处理器102_1在其所处理的线组上的完成操作时，表生成器103_1将输出线组发送到“下游”线缓冲器单元101_2中(在某些使用情况下，输出线组可以被发送回早先已经发送了输入线组的相同的线缓冲器单元101_1)。

然后一个或多个“消费者(consumer)”内核从下游线缓冲器单元101_2 接收由第一个模板处理器102_1生成的图像数据，该一个或多个“消费者” 内核代表在其自己的相应的其他表生成器和模板处理器(例如表生成器 103_2和模版处理器102_2)上执行的流水线/DAG中的下一级/操作。以这种方式，在第一个模板处理器上操作的“生产者”内核将它的输出数据转发到在第二个模板处理器上操作的“消费者”内核，其中消费者内核在生产者内核与整体流水线或DAG的设计一致之后执行下一个任务集。

模板处理器102被设计为在图像数据的多个重叠模板上同时操作。多个重叠模板和模板处理器的内部硬件处理容量有效地决定了表的大小。这里，在模板处理器102中，执行通道的阵列一致地操作以同时处理由多个重叠模板覆盖的图像数据表面区域。

如将在下面更详细描述的，在很多实施例中，图像数据的表被加载到在模板处理器单元102内的二维寄存器阵列结构中。表和二维寄存器阵列结构的使用被认为通过将大量的数据移到大量的寄存器空间里作为例如单个加载操作，以有效地提供能耗的改善，该单个加载操作通过在数据上直接执行处理任务，此后立即通过执行通道阵列来进行。此外，执行通道阵列以及对应的寄存器列的使用提供了易于编程/配置的不同的模板尺寸。

图2a到图2e示出了以下高级实施例：线缓冲器单元101的解析活动、表生成器单元103的更细粒度解析活动以及耦合到表生成器单元103的模版处理器102的模版处理活动。

图2a描绘了图像数据201的输入帧的实施例。图2a还描绘了三个重叠模版202(每个模版具有3像素x3像素的维度)的轮廓，模版处理器被设计在三个重叠模版202上操作。每个模版相应地为输出像素产生输出图像数据，该像素用实心黑色突出显示。简单起见，三个重叠模版202被描绘为仅在垂直方向重叠。有必要认识到，模版处理器实际上可以被设计为在垂直和水平方向上具有重叠模版。

因为垂直重叠模版202在模版处理器中，如图2a所示，在帧中存在大范围(wideband)的图像数据，单个模版处理器可以对该大范围(wide band) 的图像数据进行操作。正将在下文中更详细讨论的，在实施例中，模版处理器以在图像数据上从左到右的方式在其重叠模版内处理数据(然后以从顶部到底部的顺序针对下一组线重复该步骤)。因此，随着模版处理器继续推进它们的操作，实心黑色输出像素块的数目将水平向右增长(right-wise)。如上所述，线缓冲器单元101负责从进入(incoming)帧解析输入图像数据的线组，该帧足以让模版处理器操作达扩展数量的即将到来(upcoming)的周期。线组的示例性描绘被示出为阴影区域203。在实施例中，线缓冲器单元 101可包括向/从表生成器发送/接收线组的不同动态。例如，根据一种称为 “全组”的模式，图像数据的完整的全宽度线在线缓冲器单元和表生成器之间传递。根据被称为“虚拟高度”的第二种模式，线组最初通过全宽度行的子集被传递。剩余行之后顺序地以更小的(小于全宽度的)的段被传递。

输入图像数据的线组203已经被线缓冲器单元定义，并被传递到表生成器单元，表生成器单元进一步将线组解析为更精细的表，该表更精确地适用于模版处理器的硬件限制。更具体地，如下面进一步更详细描述的，在实施例中，每个模版处理器由二维移位寄存器阵列组成。二维移位寄存器阵列基本上将图像数据移位到执行通道的阵列“之下”，其中移位的模式使得每个执行通道对其自己相应模版内的数据进行操作(即，每个执行通道在其自己的信息的模版上处理以产生该模版的输出)。在实施例中，表是“填充”或另外加载到二维移位寄存器阵列中的输入图像数据的表面区域。

如将在下面更详细描述的，在各种实施例中，实际上有可以在任何周期中移位的二维寄存器数据的多个层。为了方便起见，本描述中的大部分将简单地使用术语“二维移位寄存器”等等来指代具有可以移位的二维寄存器数据的一个或多个这样的层的结构。

因此，如图2b所示，表生成器从线组203解析初始表204，并将其提供给模版处理器(这里，数据表对应于主要由附图标记204标识的5x5的阴影区域)。如图2c和2d所示，模版处理器通过有效地以从左到右的方式在表上移动重叠模版202来对输入图像数据的表进行操作。如图2d所示，可从表内的数据计算出的像素的数目的输出值(暗的3x3阵列中为9位)，像素的数目被用尽了(没有其他的像素位置可以具有从表内的信息确定的输出值)，像素的数目的输出值可从表内的数据计算(暗的3x3阵列中为9位)。为了简化，图像的边界区域被忽略。

如图2e所示，表生成器随后提供用于模板处理器的下一张表205以在模版处理器上继续操作。注意，当模板开始在下一张表上操作时，模版的初始位置是从第一张表的穷尽点向右边的下一个进度(progression)(如之前在图2d中描述的)。在新表205中，模版将仅仅继续向右边移动，此时模版处理器以与第一张表的处理相同的方式在新的表上进行操作。

注意，由于围绕输出像素位置的模版的边界区域，在第一张表204的数据和第二张表205的数据之间存在一些重叠。重叠可以通过表生成器重新发送重叠数据两次来简单地处理。在替代的实现方式中，为了将下一张表供给模版处理器，表处理器可以只继续将新的数据发送到模版处理器，并且模版处理器重新使用来自之前的表的重叠数据。

b.模版处理器的设计与操作

图3a示出了模板处理器单元架构300的实施例。如图3a所示，模版处理器包括数据计算单元301，标量处理器302和相关联的存储器303以及I/O 单元304。数据计算单元301包括执行通道阵列305、二维移位阵列结构306 以及与阵列的特定行或列相关联的分离的相应的随机存取存储器307。

I/O单元304负责将从表生成器接收到的“输入”表的数据加载到数据计算单元301，并将“输出”表的数据从模版处理器储存到表生成器。在实施例中，将表数据加载到数据计算单元301需要将接收到的表解析成图像数据的行/列，并将图像数据的行/列加载到二维移位寄存器结构306或执行通道阵列的行/列的相应的随机存取存储器307中(在下面更详细地描述)。如果表最初被加载到存储器307中，在适当的时候(例如，当加载指令刚好在表的数据上的操作之前时)，执行通道阵列305中的独立执行通道可能之后将表数据从随机存取存储器307加载到二维移位寄存器结构306中。在完成把表数据加载到寄存器结构306时(不论是直接从表生成器中还是从存储器 307中)，执行通道阵列305的执行通道对数据进行操作并且最终将完成的数据“写回”为直接返回到表生成器或进入随机存取存储器307的表。如果执行通道写回到随机存取存储器307中，I/O单元304从随机存取存储器307 中获取数据以形成输出表，该表之后被转发到表生成器。

标量处理器302包括程序控制器309，其从标量存储器303读取模版处理器的程序代码的指令，并将指令发布给执行通道阵列305中的执行通道。在实施例中，单个相同的指令被传播到阵列305内的所有执行通道，以影响来自数据计算单元301的类似单个指令多数据(single instruction multiple data， SIMD)的行为。在实施例中，从标量存储器303读取并被发布给执行通道阵列305的执行通道的指令的指令格式包括超长指令字(very-long-instruction-word, VLIW)类型格式，该格式每条指令包括多于一个的操作码。在另一实施例种，VLIW格式包括引导由每个执行通道的ALU执行的数学函数的ALU操作码(如下文所述，在实施例中可以指定多于一个传统的ALU操作)以及存储器操作码(其引导用于具体的执行通道或一组执行通道的存储器操作)。

术语“执行通道”指一组能够执行指令的一个或多个执行单元(例如，可以执行指令的逻辑电路)。然而，在各种实施例中，执行通道可以包括除了执行单元之外的更多类似处理器的功能。例如，除了一个或多个执行单元外，执行通道还可以包括解码接收到的指令的逻辑电路，或者是在更多类似于多指令多数据(multiple instruction multipledata，MIMD)设计的情况下，执行通道包括获取和解码指令的逻辑电路。相对于类似于MIMD的方法，尽管本文大量描述了集中式程序控制方法，但是可以在各种替代的实施例(例如，包括阵列305的每个执行通道内的程序代码和程序控制器)中实现一种更分布式的方法。

执行通道阵列305、程序控制器309以及二维移位寄存器结构306的组合为广泛的可编程功能提供广泛可适应的/可配置的硬件平台。例如，考虑到单独的执行通道能够执行广泛的功能并且能够容易地访问接近任何输出阵列位置的输入图像数据，应用软件开发者能够编程具有广泛不同功能性性能以及尺寸(例如模版大小)的内核。

除了作为用于由执行通道阵列305操作的图像数据的数据存储外，随机存取存储器307还可以保存一个或多个查找表。在各种实施例中，一个或多个标量查找表还可以在标量存储器303内被实例化。

标量查找表包含来自相同的查找表的相同索引的相同的数据值传递到执行通道阵列305内的每个执行通道。在各种实施例中，上述的VLIW指令格式被扩展到还包括标量操作码，该标量操作码将由标量处理器执行的查找表操作引导到标量查找表。指定用于与操作码一起使用的索引可以是立即操作数或者从其他数据存储位置获取。无论如何，在实施例中，从标量存储器内的标量查找表查找基本上包含，在相同时钟周期期间，将相同的数据值传播到执行通道阵列305内的所有执行通道。下面进一步提供关于查找表的使用和操作的附加细节。

图3b总结了上面讨论的(多个)VLIW指令字实施例。如图3b所示， VLIW指令字格式包括三个独立的指令的字段：1)由标量处理器执行的标量指令351；2)由执行通道阵列内的相应ALU以SIMD方式传播和执行的 ALU指令352；以及3)以部分SIMD方式传播和执行的存储器指令353(例如，如果沿着执行通道阵列中的相同行的执行通道共享相同的随机存取存储器，则来自每个不同行的一个执行通道实际上执行了该指令)(该存储器指令353的格式可包括操作码，该操作码识别每一行中的哪条执行通道执行该指令)。

还包括用于一个或多个立即操作数的字段354。指令351、352、353中哪一个指令使用哪个即使立即操作数信息可以以指令格式识别。指令351、 352、353中的每个指令还包括其自己相应的输入操作数与结果信息(例如 ALU操作的局部寄存器以及用于存储器存取指令的局部寄存器与存储器地址)。在实施例中，在执行通道阵列中的执行通道执行其他两个指令352、353 中的任一个之前，标量指令351由标量处理器执行。即VLIW字的执行包括执行标量指令351第周期、其后执行其他指令352、353的第二周期(注意，在各种实施例中，指令352和353可以并行执行)。

在实施例中，由标量处理器302包括发布给表生成器103的命令，以从加载表，或将表存储到数据计算单元301的存储器或2D移位寄存器306中。这里，表生成器的操作可以取决于线缓冲器单元101的操作或其他变量，该变量防止对表生成器103完成标量处理器302所发出的任何命令的周期数的预运行理解。因此，在实施例中，任何VLIW字还包括在其他两个指令字段 352、353的无操作(no-operation,NOOP)指令，该VLIW字的标量指令351对应于或另外导致的被发出到表单生成器103的命令。然后，程序代码进入指令字段352、353的NOOP指令的循环，直到表生成器完成其向/从数据计算单元的加载/存储。这里，当向表生成器生成器发出命令时，标量处理器可以设置互锁寄存器的位，在命令完成时，该表生成器复位该位。在NOOP 循环中，标量处理器监视了该联锁位的位。当标量处理器检测到表生成器已经完成它的命令时，正常执行再次开始。

图4示出了数据计算单元401的实施例；如图4所示，数据计算单元401 包含执行通道阵列405，其逻辑上位于二维移位寄存器阵列结构406“上分”。如上面所讨论的，在各种实施例中，由表生成器提供的图像数据表被加载到二维移位寄存器406中。然后，执行通道对来自寄存器结构406的表数据进行操作。

执行通道阵列405和移位寄存器结构406相对于彼此被固定在位置上。然而，移位寄存器阵列406中的数据以策略和协调的方式移位，以导致执行通道阵列中的每个执行通道处理数据中的不同的模板。因此，每个执行通道确定正在生成的输出表中不同像素的输出图像值。从图4的架构中可以清楚地看到，重叠模板不仅可以垂直布置，而且也可以水平布置，因为执行通道阵列405包括垂直相邻的执行通道以及水平相邻的执行通道。

数据计算单元401的一些值得注意的架构特征包括移位寄存器结构406，其比执行通道阵列405的尺寸更宽。也就是说，在执行通道阵列405 外部存在寄存器的“光晕(halo)”409。尽管光晕409被示出为存在于执行通道阵列的两侧上，但根据实现方式，光晕可以存在于执行通道阵列405的更少(一个)或更多(三或四个)侧上。光晕409为当数据移位在执行通道405 下方时溢出执行通道阵列405的边界的数据提供“溢出”空间。作为简单的情况，集中在执行通道阵列405的右边缘上的5x5的模板当模板的最左边的像素被处理时，需要将四个光晕寄存器的位置进一步移到右边。为便于绘图，图4示出了光晕右侧的寄存器只有水平移位连接，以及光晕底侧的寄存器只有垂直移位连接，在标称的实施例中，在任一侧(右侧、底侧)的寄存器应具有水平和垂直连接。

附加的溢出空间由随机存取存储器407提供，其耦合到阵列中的每一行和/或每一列，或者其中部分(例如随机存取存储器可以被分配到执行通道阵列的“区域”，该“区域“”跨越4条执行通道行式(row wise)和2条执行通道列式(column wise)。为了简单起见，应用程序的其余部分将主要参考基于行/或列的分配方案)。这里，如果执行通道的内核操作需要它处理二维移位寄存器阵列406外部的像素值(某些图像处理例程可能需要)，那么图像数据的平面能够进一步溢出，例如从光晕区域409进入随机存取存储器 407。例如，考虑6X6模板，其中硬件包含只有4个存储元件的光晕区域，位于执行通道阵列右边缘上的执行通道的右侧。在这种情况下，需要将数据进一步向右移位到偏离光晕409的右边缘，以完全处理模板。移出光晕区域 409之外的数据将会溢出到随机存取存储器407。随机存取存储器407的其他应用程序和图3的模板处理器将进一步在下面提供。

图5a到5k展示了在如上所述的在二维移位寄存器阵列内的图像数据被移位到执行通道阵列的“下方”的方式的工作示例。如图5a所示，在第一个阵列507中描绘了二维移位阵列的数据内容，并且执行通道阵列由帧505 描绘。此外，简单描绘了在执行通道阵列中的两个相邻的执行通道510。在这个简单的描绘510中，每个执行通道包含寄存器R1，其可以接受来自移位寄存器的数据，接受来自ALU输出的数据(例如，在周期之间表现为累加器)，或将输出数据写入到输出目的地。

在局部寄存器R2中，每个执行通道还具有可用的内容，该内容在二维移位寄存器中位于执行通道“下方”。因此，R1是执行通道的物理寄存器，而R2是二维移位寄存器阵列的物理寄存器。执行通道包括可以操作由R1 和/或R2提供的操作数的ALU。如下面将进一步更详细地描述的，在实施例中，移位寄存器实际上通过每个阵列位置的多个(“深度”)存储/寄存器元件来实现，但是移位活动仅限于存储元件的一个平面(例如:只有一个存储元件的平面可以在每个周期内移位)。图5a到5k描绘了这些较深的寄存器位置中的一个正用于存储来自相应的执行通道的结果X。为了便于说明，较深的结果寄存器被绘制在其对应寄存器R2的旁边而不是下方。

图5a到5k集中于两个模板的计算，两个模板的中心位置与在执行通道阵列505中描绘的一对执行通道位置511对齐。为了便于说明，该对执行通道510被绘制成水平相邻，实际上，根据下面的例子，它们是垂直相邻。

如最初在图5a中所示的，执行通道511以其中央模板位置为中心。图 5b示出了由两个执行通道511执行的目标代码。如图5b所示，两个执行通道511的程序代码导致移位寄存器阵列507中的数据下移一个位置，并右移一个位置。这将两个执行通道511都对齐到它们相应的模板的左上角。然后程序代码导致位于它们相应位置中(在R2中)的数据被加载到R1中。

如图5c所示，程序代码导致该对执行通道511将移位寄存器阵列507 内的数据向左移位一个单位，导致每个执行通道相应位置右边的值被移入每个执行通道的位置。然后在R1中的值(之前的值)与已经移入执行通道的位置(R2中)的新值相加。结果被写入R1。如图5d所示，重复与图5c所述的相同的过程，导致结果R1现在包含在上执行通道上的值A+B+C和下执行通道中的F+G+H。在这一点上，两个执行通道511都处理了它们相应的模板的上一行。请注意，溢出进入执行通道阵列505的左侧的光晕区域(如果左边存在一个光晕区域)，如果在执行通道阵列505的左侧不存在一个光晕区域，那么溢出进入随机存取存储器。

如图5e所示，程序代码接下来导致移位寄存器阵列中的数据向上移位一个单位，使两个执行通道511与它们相应的模板的中间行的右边缘对齐。两个执行通道511的寄存器R1当前都包含模板的顶行和中间行的最右边的值的总和。图5f和5g展示了在两个执行通道511的模版的中间行上左移的持续进展。累计加法继续，使得在图5g的处理结束时，两个执行通道511 都包含它们相应的模板的顶行和中间行的值的总和。

图5h示出了另一次移位，以将每一条执行通道与其对应的模板的最低行对齐。图5i和5j示出了持续移位以完成对两个执行通道的模板的过程进行处理。图5k示出了附加的移位，以将每个执行通道与其在数据阵列中的正确位置对齐，并将结果写入其中。

在图5a-5k的示例中，注意，移位操作的目标代码可以包含指令格式，其可以识别以(X，Y)坐标表示的移位的方向和大小。例如，用于向上移位一个位置的目标代码可以以目标代码表示为SHIFT 0,+1。作为另一示例，向右移位一个位置可以以目标代码表示为SHIFT+1,0。在各种实施例中，更大幅度的移位也可以以目标代码(例如，SHIFT 0,+2)指定。这里，如果2D 移位寄存器硬件只支持每个周期移位一个位置，则指令可被机器解释为需要多个周期执行，或者，2D移位寄存器硬件可以被设计为支持每个周期多于一个位置的移位。后者的实施例将在下面更详细地描述。

图6示出了用于阵列执行通道和移位寄存器结构的单位单元的更详细的描述(光晕区域中的寄存器不包括对应的执行通道)。在实施例中，与执行通道阵列中的每个位置相关联的执行通道和寄存器空间通过实例化执行通道阵列的每个节点上的图6所示的电路来实现。如图6所示，该单位单元包含执行通道601，该执行通道601耦合到寄存器文件602，该寄存器文件602 由四个寄存器R2到R5组成。在任何周期期间，执行通道601可以从或向寄存器R1到R5中的任何寄存器读取或写入。对于需要两个输入操作数的指令，执行通道可以从R1到R5中任何一个检索两个操作数。

在实施例中，二维移位寄存器结构通过以下来实现：允许在单个周期期间，允许寄存器R2到R4中的(仅)一个的任何寄存器的内容通过输出多路复用器603被移出到其邻近的寄存器文件之一，并且，如果有邻近寄存器，使寄存器R2到R4中的(仅)一个的任何寄存器的内容通过输入多路复用器604被替换为从对应的一个邻近寄存器被移入的内容，使得邻近寄存器之间的移位处于相同的方向(例如所有执行通道左移，所有执行通道右移，等等)。虽然相同的寄存器的内容被移出并替换为在相同周期中移入的内容很普通，但是多路复用器布置603、604允许在相同周期期间的相同寄存器文件中有不同的移位源和移位目标寄存器。

如图6所示，注意，在移位序列期间，执行通道将从其寄存器文件602 移出内容到其左边、右边、顶部和底部邻近寄存器中的每一个。结合相同的移位序列，执行通道还将内容从其左边、右边、顶部和底部邻近寄存器中的一个特定的寄存器移入其寄存器文件中。此外，移出目标和移入源应该与所有执行通道的相同的移位方向一致(例如，如果移出到右边邻近寄存器，则应该从左边邻近寄存器移入)。

尽管在一个实施例中，每个周期允许每个执行通道仅移位一个寄存器的内容，但是其它的实施例可允许多于一个寄存器的内容被移入/移出。例如，如果图6所示的多路复用器电路603、604的第二个实例中被并入图6中的设计，则两个寄存器的内容可以在相同周期期间被移出/移入。当然，在每个周期中只允许一个寄存器的内容被移位的实施例中，通过消耗更多的时钟周期用于数学操作之间的移位，可以在数学操作之间进行多个寄存器的移位 (例如通过在数学操作中使用两个移位操作可以在数学操作之间移位两个寄存器的内容)。

如果在移位序列期间，少于全部执行通道的寄存器文件的内容被移出，则注意每个执行通道的非移出寄存器的内容保持原位(不移位)。因此，任何未被移入内容替换的非移位内容在整个移位周期中仍然存在于执行通道局部。在每个执行通道中观察到的存储器单元(“M”)被用于从/向随机存取存储器空间加载/存储数据，该随机存取存储器空间与执行通道阵列内的执行通道的行和/或列相关联。这里，M单元作为标准M单元，因为其经常被用于加载/存储不能从/向执行通道自己的寄存器空间加载/存储的数据。在各种实施例中，M单元的主要操作是将数据从局部寄存器写入存储器，并且从存储器读取数据并将其写入局部寄存器。

对于由硬件执行通道601的ALU单元支持的ISA操作码，在各种实施例中，由硬件ALU支持的数学操作码与由虚拟执行通道支持的数学操作码 (例如，ADD，SUB，MOV，MUL，MAD，ABS，DIV，SHL，SHR，MIN /MAX，SEL，AND，OR，XOR，NOT)连成整体(例如，基本上相同)。如上所述，存储器存取指令可以由执行通道601执行，以从/向其相关联的随机存取存储器获取/存储数据。此外，硬件执行通道601支持移位操作指令 (右、左、上、下)以移位二维移位寄存器结构内的数据。如上所述，程序控制指令主要由模板处理器的标量处理器执行。

c.在图像处理器上实现卷积神经网络(CNN)

图7示出了三维(3D)卷积的图形描绘。可以使用如本领域已知的3D 卷积来实现卷积神经网络(CNN)，用于例如图像处理应用、机器视觉应用、对象识别应用和/或机器学习应用。如图7所示，三维卷积“卷积”三维图像数据块701和三维系数块702。这里，三维系数块702被卷积在图像数据701 内的相同大小的块上以产生所得表面区域703。

在实践中，图像数据701和系数数据702被实现为三维信息矩阵。也就是说，图像数据701可以被实现为三维像素数据矩阵，并且系数数据702可以被实现为三维系数值矩阵。为了执行3D卷积，通过具有与系数(例如较小部分705)相同的尺寸的图像数据701的较小三维部分中的像素分别乘以三维系数矩阵702中的相同位置的系数来计算三维点积。

然后将来自每个单独乘法的部分乘积相加以产生对应于点积的结果的单个值(标量)。标量结果位于对应于被卷积的图像数据701内的较小区域的位置的位置处的结果阵列703中。例如，较小部分705与系数702的卷积生产位于所得表面703内的位置704处的标量。类似地，较小部分707(为了易于绘制，仅顶表面可见)与系数702的卷积生成位于所得区域703内的位置706处的标量值。

这样，对与系数702相乘的图像数据的每个不同的较小部分生成不同的标量值，并且每个不同的标量在所得的表面区域703内具有相应的位置。关于3D卷积实现方式的各种实施例将在下面进一步更详细地描述。

CNN层通常包括每个图像数据块的多个3D卷积。更具体地，CNN层通常包括与单个图像数据块卷积的多个系数块。图8示出了这样的CNN层的示例。这里，相同的图像数据块801与多个系数块802_1至802_N进行卷积，以产生N个所得所得的表面区域803_1至803_N。因此，整体结果803 可以视为具有N个所得所得平面的三维块803。在各种处理应用中，三维所得所得块803用作下一个CNN计算的输入图像块。图8中的处理对应于单个CNN层的处理。可以从多个这样的CNN层的执行来计算完整的CNN。

图9a和9b描绘了3D卷积的实施例。参考图9a，可以将图像数据901 的块(其对应于图8中的图像数据块801)视为由多个图像数据平面组成。也就是说，图像数据块901可以视为由沿着z轴在第一深度位置处的第一平面901_1、沿着z轴的第二深度位置处的第二平面901_2等...以及沿着z轴的第M个深度位置处的第M平面901_M组成。在实践中，沿着z轴的每个级或深度可以对应于图像数据的不同“通道”。例如，如果M＝3，则第一平面级901_1可以对应于红色(R)数据，第二平面级901_2对应于绿色(G) 数据，第三平面级901_3可以对应于蓝色(B)数据。

类似地，系数块902_1(其对应于图8中的第一系数块802_1)也可以被视为由沿着z轴M个“深度”位置的系数数据的M个平面组成。3D卷积被计算为M个二维(2D)卷积的总和。这里，沿着相同深度级存在的图像数据和系数被卷积在2D卷积操作中以生成该深度级的中间所得平面。

例如，执行图像数据平面901_1和系数平面902_1_1的第一2D卷积以生成第一中间所得平面P1_1，执行图像数据平面901_2和系数平面902_1_2 的第二2D卷积以生成第二中间所得平面P1_2等...以及执行图像数据平面 901_M和系数平面902_1_M的第M个2D卷积以生成第M个中间所得平面 P1_M。然后以对齐的方式将中间平面P1_1至P1_M相加为910(加上中间平面阵列的相同位置中的标量值)以产生所得阵列903_1。所得阵列903_1 对应于图8中的所得阵列803_1。

图9b示出可以在图像和系数数据的每个z轴深度级处执行的2D卷积的示例性实施例。图9b示出了对应于相同平面内的图像数据的较小部分的数据的12个相邻像素(A到L)。还描绘了与图像数据位于相同平面级的系数 (a1至a9)的平面。当系数数据与模板位置950对齐时执行操作940，在平面级的中间平面中生成单个标量结果S_P1。相比之下，当系数数据与模板位置951对齐时执行操作941，在平面级的中间平面中生成单个标量结果 S_P2。

注意，操作940和941中的每一个可以被表征为大规模乘-加操作(执行九次乘法和八次加法)。因为模板位置950、951彼此相邻，所以标量结果 S_P1和S_P2将在所得中间平面内彼此相邻。这里，模版位置在图像数据的整个平面的表面区域上“滑动”，并且由每个唯一的模板位置定义的对应的 “乘法-法”操作在中间平面中生成唯一的结果值。在中间平面内相对于彼此的结果值的位置由生成它们的模板的相对位置限定。

返回参考图9a，M个中间平面P1_1至P1_M在910上求和以生成所得平面903_1。图9a的计算每次用不同的系数集重复N次，直到已经计算出所有系数集。也就是说，如图8和图9a和9b所示的，对于系数集802_1至 802_N中的每一个，执行图9a和9b的操作N次，以生成所得平面803_1至 803_N。

图10a至10j涉及具有在本说明书的前面部分中详细描述的架构特征的图像处理器上的CNN层的计算。这里，读者不仅参考图10a至10j，还参考图4。如之前的部分所述，模板处理器可以具有二维执行通道阵列405和对应的二维移位寄存器阵列406。从下面的讨论可以看出，图10a至10j旨在利用模板处理器的二维处理性质，同时最小化图像数据被切换进和切换出模板处理器的次数。

图10a示出初始设置阶段，其中图像数据的第一平面1001_1的一个或多个表被加载到模板处理器的局部存储器407中。为了便于说明，图10a建议将图像平面的所有表加载到模板处理器的RAM，但是在操作中，可以采用更为零碎的方法，其中表生成器接收完整图像平面1001_1，将图像平面解析为表并将表适当地提供给模板处理器的RAM 407(例如，下一张表在先前的表上的处理完成时或之前被加载进RAM)。此外，如果不是全部系数集1002_1至1002_N，至少第一系数集1002_1被加载到模板处理器RAM 407 中。这里，作为比较点，图10的图像数据平面1001_1对应于图9的图像数据平面901_1，以及图10的系数集1002_1对应于图9的系数集902_1。作为附加的比较点，图10的系数集1002_1至1002_N对应于图8的系数集 802_1至802_N。

当图像数据的第一平面1001_1和第一系数集1002_1被加载到模板处理器RAM407中，系统准备好执行如图9b所描述的2D卷积。图10b描绘了图像数据1001_1与系数数据1002_1_1(其对应于图9a的系数数据902_1_1) 进行卷积的卷积。2D卷积包括将一张或多张图像数据表从模板处理器RAM 加载到图像处理器的二维寄存器结构中。然后执行2D卷积本身，从而产生中间平面P1_1。关于如何可以实际执行2D卷积的更彻底的讨论在下面进一步提供，参见图11a至图11f。

当第一图像平面1001_1已经与系数1002_1的第一平面卷积，机器准备好开始下一个操作序列。这里，如果图9a描绘的一系列操作要按顺序执行，可能需要从模板处理器RAM中切换出图像平面901_1，并将图像平面901_2 切换到模板处理器RAM中。接下来，参考图8和图9a，注意，对于用系数集802_2至802_N中的任何/全部执行的2D卷积，图像平面901_1将需要被切换回模板处理器RAM。因此，潜在地，图像平面901_1将需要被切换进出模板处理器RAM N次。为了消除在模板处理器和在模板处理器外的图像数据的相同平面的来回切换，不是遵循图9a所示的严格的处理顺序，而是一旦将图像数据的平面加载到模板处理器RAM中，其将保持在那里，直到被用于处理CNN层的所有系数集。

因此，如图10c所示，该过程中的下一个序列是将相同的图像平面 1001_1与下一个系数集中的第一平面进行卷积。因此，图10c示出了用图像平面1001_1和系数平面1002_2_1(第二系数集中的第一平面)执行的2D 卷积。结果是用于第二系数集P2_1的第一中间平面。处理序列继续将相同的初始图像平面1001_1与每个系数的第一平面进行卷积。图10d示出了包括初始图像平面1001_1的最后的2D卷积序列。这里，用第N个系数集 1002_N的顶平面1002_N_1执行2D卷积，产生第N系数集PN_1的第一中间所得平面。

在完成图10d的操作之后，初始图像平面1001_1已经被耗尽，并且可以从模板处理器RAM中切换出(或着例如甚至丢弃)。因此，简要地参考图 9a，现在可以将下一级图像数据901_2切换到模板处理器RAM。图10e示出了新的系统状态，其中较早的图像数据平面1001_1已从模板处理器RAM 切换出(其轮廓用阴影线绘制以指示其不再存在于模版处理器RAM中)，并且下一个图像平面1001_2已经被切换到模板处理器RAM中(其轮廓用实线绘制，以指示其现在存在于模板处理器RAM内)。

图10f示出了新的第二图像平面1001_2与第一系数集1002_1中的第二级系数1002_1_2的2D卷积。卷积的结果是第一系数集1002_1的第二中间平面P1_2。图10g示出了图像平面1001_2和系数集1002_2中第二级系数 1002_2_2的下一个卷积，产生了用于第二系数集1002_2的第二中间所得层 P2_2。图10g示出了图像平面1001_2和系数集1002_N中第二级系数 1002_N_2的最后一个卷积，产生了用于第N系数集1002_2的第二中间所得层PN_2。

在第二图像平面1001_2被耗尽之后，加载和处理第三图像平面，如上所述针对第一和第二图像平面一样。然后连续类似地处理每个图像平面。图 10i示出了最后的图像平面1001_M和最后的系数集1002_N的底部级系数 1002_N_M的最后2D卷积，产生了最后的中间所得层PN_M。此时，已经计算了所有系数集的所有中间平面。图10j示出了对于特定系数集的所有中间平面求和，产生了每个系数集的最终所得平面，该平面又对应于CNN层的结果。也就是说，对于N个系数集中的每一个执行图9a的求和910。因此，结果平面1003_1至1003_N中的每一个对应于图8的所得平面803_1 至803_N。

在实施例中，机器通过保持“运行中间平面和”而不是单独地存储每个中间平面，然后对它们求和来执行10j的添加。例如，参考图图10a和图10f，在中间平面P1_2被创建之后，将中间平面P1_2添加到中间平面P1_1。平面P1_1和P1_2的所得求和被存储在例如模板处理器单元内部。当中间平面 P1_3(未示出)由第三图像平面与第一系数集(未示出)中第三平面1002_1_3 的2D卷积的结果创建时，P1_1/P1_2求和结果随后被调用并被添加到中间平面P1_3。结果再次被存储，并且在其创建之后将被调用添加到中间平面 P1_4。对其他系数集的中间平面应用类似的处理。注意，如果运行总和和中间平面的x、y尺寸大于二维移位寄存器阵列的尺寸，则可以通过将运行总和和下一个中间平面解析成表并将表加载到二维移位寄存器阵列，进行处理，例如，逐张表地进行。

图11a至11j描述了执行3x3模版大小的2D卷积的实施例。如在下面更详细地进一步讨论的，其他的模板大小也是可能的。参考图11a，图像数据A到R被加载到二维移位寄存器。图11a示出装满(worth)图像数据的两个模版1101、1102。为了简便起见，图11a至图11j的讨论将集中在模板 1101、1102的2D卷积，其生成在如图11a所示的像素位置H和K的输出结果。然而，重要的是要认识到，存在以每个像素位置为中心的不同的模版，以及将相对于图11a至图11j描述的2D卷积过程同时为每个这样的像素位置生成卷积结果。

参考图11a，为了执行2D卷积，需要将系数值1103乘以每个图像数据模板内的相应位置的像素。也就是说，像素值A和D都乘以系数a1，因为这样的像素值和a1都位于模板左上角，像素值C和F都乘以系数a3，因为这样的像素值和系数都位于模板右上角。2D卷积结果是像素值和对应系数的所有九个部分乘积的求和。如将在下面更详细地描述的，在实施例中，部分乘积的求和发生在九个周期之内。

从图3b的讨论回想一下，在各种实施例中，模板处理器能够向所有执行通道发出包括立即操作数的标量指令。在实施例中，2D卷积是通过发出一系列标量乘加指令来实现的，其中系数被包括在指令字中，作为立即操作数。

参考图11b，在第一周期期间，发出具有系数a5作为中间操作数的标量指令。在执行指令时，将系数a5与图像数据阵列中的每个像素值相乘，并将结果存储在对应执行通道内像素值局部的寄存器空间中。再次，仅参考以像素位置H和K为中心的一对模板1101、1102，系数a5乘以H和K。部分乘积H×a5局部存储在模板1101(其当前具有像素值H)的中心(其当前具有像素值H)处的像素位置1121的执行通道寄存器空间中。部分乘积K× a5局部存储在在模板1102的中心(其当前具有像素值K)处的像素位置1122 的执行通道寄存器空间中。这里，注意，围绕模板1101和1102的边界及其内的像素位置可以被认为是在每个像素位置处包含专用ALU和局部寄存器空间的硬件的固定区域。也就是说，模板1101和1102中的每个像素可以被视为具有专用ALU执行通道和局部专用寄存器空间的硬件执行通道。

参考图11c，在第二周期期间，执行第一移位指令以将二维移位寄存器阵列内的图像数据向右移位一个单位，并且随后发出具有系数a4作为中间操作数的标量乘法指令。在执行第二条指令时，将系数a4与图像数据阵列中的每个像素值相乘，并将结果存储在其对应执行通道内的像素值的局部的寄存器空间中。再次，仅参考以像素位置G和J为中心的一对模板1101、1102，系数a4乘以G和J。部分乘积G×a4被加到模板1101的中心处(即包含值 H×a5的像素位置1121)的执行通道寄存器空间中的局部存储值，并将结果 S_H写回到相同的寄存器空间。将部分乘积J×a4加到模板1102中心处(即当前具有值K×a5的像素位置1122)的执行通道寄存器空间中的局部存储值，并将结果S_K写回到相同的寄存器空间。

参见图11d，在第三周期期间，执行第一移位指令以将二维移位寄存器阵列内的图像数据向下移位一个单位，并且随后发出具有系数a1作为中间操作数的标量乘加指令。在执行第二条指令时，将系数a1与图像数据阵列中的每个像素值相乘，并将结果存储在其对应执行通道内的像素值的局部的寄存器空间中。再次，仅参考以像素位置A和D为中心的一对模板1101、 1102，系数a1乘以A和D。部分乘积A×a1被加到模板1101的中心处的执行通道寄存器空间中的局部存储值(其包含图11c中的值S_H)，并将结果 S_H写回到相同的寄存器空间。将部分乘积D×a1加到模板1102中心处的执行通道寄存器空间中的局部存储值(包含来自图11c中的值S_K)，并将结果S_K写回到相同的寄存器空间。

图11e至图11j示出了六个这样的周期，每个周期具有将新像素值放置在尚未乘以系数的模板的中心的对应移位。在图11j的最后一个周期被执行之后，2D卷积的结果驻留在每个模板的中心中的局部寄存器空间(用于模板1101的值S_H和用于模板1102的值S_K)。

尽管上述讨论针对的是在相同模板处理器上执行整个CNN层的方法，但是其他方法可以尝试在多个模板处理器上并行化CNN层执行(回看图8 示出了与CNN层相关联的计算的实施例)。例如，参考图图8和图12，如果N小于模板处理器的数量，则可以为每个模板处理器分配其自己的3D卷积(即，每个模版处理器用其自己的唯一系数集执行3D卷积)。因此，每个模板处理器接收相同的图像数据，但是将其与不同的系数集进行卷积。在这种情况下，可以在每个模板处理器处遵循图9a中建议的顺序(即，每个模板处理器将图像数据的每个平面图像数据相对于单个系数集卷积)。即使N 大于模板处理器的数量，CNN层的执行仍然可以通过例如使每个模板处理器处理两个或更多个唯一系数集来分布/并行化。

在另一种并行化方法中，如图13所示，输入图像数据的不同平面被唯一地分配给不同的模板处理器。每个模板处理器例如通过所有系数集的合适的平面级被加载。例如，分配用于处理第一(最高)图像数据平面的模板处理器1302_1接收所有N个系数集的第一(最高)平面。然后，模板处理器继续执行图10b-10d的操作，同时，被分配以处理第二(下一个较低的)图像平面的另一模板处理器1302_2执行图10f-10h的卷积。在这种方法中，相同系数集的中间和平面将分布在多个模板处理器上，并随后被移动到相同的模板处理器用于对齐求和，以生成用于系数集的特定所得平面。这里，不同的模板处理器可以同时计算不同系数集的不同的所得平面。在该方法的扩展中，可以将多于一个的图像数据的平面分配给任何特定的模板处理器(例如，如果图像数据平面的数量超过模板处理器的数量)。

在另一种方法中，如图14所示，可以将每个模板处理器分配以仅在所得平面的特定区域上操作。例如，第一模板处理器1402_1在图像平面表面区域的第一象限上操作，第二模板处理器1402_2在图像平面表面区域的第二象限上操作，第三模板处理器1402_3在图像平面表面区域的第三象限上操作，第四模板处理器1402_4在图像平面表面区域的第四象限上操作。每个模板处理器执行整个CNN层，但仅执行整个图像的表面区域的1/4。最终所得平面通过在它们相关联的模板处理器处理的正确象限中“适配”彼此相邻的合适的所得平面来实现。图14仅示出了一种类型的实施例，其中图像被分解成四个象限。其他配置可能具有较少的唯一表面(例如两个半部)或更多的唯一的表面区域(例如，九、十六等)。不同图像部分之间的任何重叠输入都应发送到多于一个模板处理器。

在其它配置中，可以在单个模板处理器上执行多于一个具有N个系数集的CNN层。在实施例中，在单个模板处理器上执行多个CNN层可以通过多个CNN层之间的时间复用来执行。图15示出了两个不同的CNN层被复用在相同的模板处理器上的简化示例。这里，输入图像数据1501_1的第一平面被加载到模板处理器RAM中。然后，模板处理器继续执行图像数据1501_1 与第一CNN层的系数集1502_1至1502_N中的每一个的适当平面的2D卷积。所得中间平面如上所述在运行累加器中相加。

在第一CNN层的最后一个系数集1502_N已经被卷积，并且其中间平面被加到累加器中，处理下一个CNN层。也就是说，图像数据平面1501_1 不被切换出模板处理器的活动上下文(context)，而是继续与用于第二CNN 层的系数集1512_1至1512_N的适当的相应层一起使用。用于第二CNN层的中间平面被累加在独立的累加器而不是第一CNN层的累加器中。在第二系数集1512_1至1512_N的适当的相应平面已经被处理之后，用于图像数据的下一个图像平面被切换到模板处理器的上下文中，但是使用两个系数集的不同的相应平面重复该过程。

在另一种方法中，第一CNN的输出直接提供作为第二CNN的输入。例如，系数集1502的中间平面的求和产生输入图像平面，用于将由具有系数集1512的模板处理器执行的下一个接着的CNN。

在另外的其他配置中，可以将不同和独立的图像分配给不同的模板处理器(使得不同图像上的CNN可以由图像处理器同时执行)。

尽管在前面的讨论中强调了3×3模板尺寸，但是在一个实施例中，机器被设计为支持(例如，通过图像处理器的配置寄存器空间和/或编译的程序代码)多个3D模板(例如，1×1×M、3×3×M、5×5×M和7×7×M)。

尽管可以以浮点表示来计算上述乘法和求和操作，但是在其他实施例中，可以以固定点整数表示来计算。此外，固定整数表示可以是低精度(例如，8位或更少(例如5位))或更高的精度。低精度固定整数被理解为，对于很多应用，具有更多的时间/能量效率，而不损失图像质量。

在各种实施例中，可执行程序代码被构造为在单个ALU线上执行2个 (例如，8位)乘法加法(MAD)，以便每个周期实现2个MAD。在实施例中，ALU线硬件被设计为执行两个8位×8位乘法(即，四个8位输入操作数)，然后将两个16位乘积和32位累加器相加，以产生一个周期中的32位和。这里，累加器对应于32位输入操作数，该操作数被加到乘法结果中，求和结果写入输出“累加器”寄存器。这里，假设两个乘法将用于输出平面中的相同像素，因此可以相加在一起。四个8位输入操作数由来自相同输入图像平面的两个输入和两个系数值组成。

在替代实施例中，每个ALU线被设计为支持双重8位乘法加法，以便每个周期实现2个MAD。也就是说，硬件执行第一个8位×8位乘法，结果与16位输入操作数的求和，放进所得的16位累加器。第二个独立的8位 ×8位乘法，结果与独立的16位输入操作数求和，放进独立的16位累加器。然而，16位累加器可能会在单个周期中饱和(例如，具有全8位输入被乘数)，需要在每个周期内传输到32位累加器，这可能会使整体速率降低到每个周期1MAD。

为了避免饱和命中，可以使用较低分辨率的输入被乘数数据。例如，可以执行一对6位×6位乘法，其中相应的结果被加和到具有相应不同的16 位输入操作数的单独的相应16位累加器中。较低分辨率输入被乘数在16位累加器饱和之前需要多个周期，并且相应的传输到32位累加器。例如，每 16个周期可能会发生饱和。在每16个周期的饱和情况下，每第17个周期可以添加双16位累加器，并且每个第18个周期，紧接在前的双累加器和的结果加到运行的32位累加器。在实施例中，硬件可以被设计为在单个周期中执行累加器和，并将其加到32位累加器中。在各种实施例中，这种较低精度的方法可能能够实现每个周期1.8次乘法加法。

可以设计更高精度的应用(例如，具有超过8位的输入被乘数数据)以使用32位输入求和操作数，并且每个周期执行大约1MAD的累加器结果。这样做将类似于低精度方法，只有在执行了大量周期之后才能避免累加器的饱和。例如，在12位输入被乘数图像数据的情况下，在32位累加器将饱和之前执行256个单个MAD的周期。

图16示出了一种方法，包括在图像处理器上执行卷积神经网络层，该图像处理器具有执行通道阵列和二维移位寄存器1601。二维移位寄存器为执行通道提供局部相应的寄存器空间。卷积神经网络的执行包括将三维图像数据块的图像数据的平面加载到二维移位寄存器中1602。执行卷积神经网络还包括依次进行以下步骤来执行图像数据的平面与系数数集的二维卷积1603：在执行通道内同时相乘相应的像素和系数值以产生部分乘积的阵列；在执行通道内同时将部分乘积和保存在图像数据内不同模版的二维寄存器中的部分乘积的相应累积值求和；以及通过移位二维移位寄存器阵列内的内容来实现执行通道内的二维卷积的值的对齐。

d.实现方式实施例

有必要指出的是，上述各种图像处理器架构特征不一定限于传统意义上的图像处理，因此可以应用于可能(或可能不)使该图像处理器被重新表征的其他应用。例如，如果上述各种图像处理器架构特征中的任何被用于动画的创建和/或生成和/或呈现，而不是实际的相机图像的处理，则图像处理器可以被表征为图形处理单元。此外，上述图像处理器架构特征可以应用于诸如视频处理、视觉处理、图像识别和/或机器学习的其他技术应用。以这种方式应用，图像处理器可以与更通用的处理器(例如，作为计算系统的CPU 或者是其一部分)集成(例如，作为协处理器)，或者可以是独立的计算系统内的处理器。

上面讨论的硬件设计实施例可以体现在半导体芯片内，和/或作为用于最终定位为半导体制造过程的电路设计的描述中。在后面的情况下，这种电路描述可以采取(例如，VHDL或Verilog)寄存器传输级(register transfer level, RTL)电路描述\门级电路描述\晶体管级电路描述或掩码(mask)描述或其各种组合的形式。电路描述通常体现在计算机可读存储介质(诸如CD-ROM 或其它类型的存储技术)上。

从前面的部分中，有必要认识到，如上所述的图像处理器可以体现在计算机系统上的硬件中(例如，作为处理来自手持设备的相机的数据的手持式设备的片上系统(SOC)的一部分)。在图像处理器被实现为硬件电路的情况下，请注意，图像处理器处理的图像数据可以直接从相机接收。这里，图像处理器可以是分立相机的一部分，或者是具有集成相机的计算系统的一部分。在后面的情况下，图像数据可以直接从相机或计算系统的系统存储器接收(例如，相机将其图像数据发送到系统存储器而不是图像处理器)。还要注意，上述部分中描述的许多特征可以适用于图形处理器单元(其呈现动画)。

图17提供了计算系统的示例性描绘。下面描述的计算系统的许多组件可应用于具有集成相机和相关联的图像处理器(例如，诸如智能电话或平板计算机的手持设备)的计算系统。本领域的技术人员将能够容易地在两者间划定。

如图17所示，基本计算系统可以包括中央处理单元1701(其可以包括例如多个通用处理内核1715_1至1715_N以及设置在多核处理器或应用处理器上的主存储器控制器1717)、系统存储器1702、显示器1703(例如，触摸屏，平板)、局部有线点对点链路(例如，USB)接口1704、各种网络I/O 功能1705(诸如以太网接口和/或蜂窝调制解调器子系统)、无线局域网(例如，WiFi)接口1706、无线点对点链路(例如，蓝牙)接口1707和全球定位系统接口1708、各种传感器1709_1至1709_N、一个或多个相机1710、电池1711、电源管理控制单元1712、扬声器和麦克风1713以及音频编码器 /解码器1714。

应用处理器或多核处理器1750可以包括其CPU 1701内的一个或多个通用处理核1715、一个或多个图形处理单元1716、存储器管理功能1717(例如，存储器控制器)、I/O控制功能1718和图像处理单元1719。通用处理内核1715通常执行计算系统的操作系统和应用软件。图形处理单元1716通常执行图形密集功能，例如生成在显示器1703上呈现的图形信息。存储器控制功能1717与系统存储器1702接口以向/从系统存储器1702写入/读取数据。电源管理控制单元1712通常控制系统1700的功耗。

图像处理单元1719可以根据前面部分中所述的上述图像处理单元实施例中的任何来实现。可替代地或组合地，IPU 1719可以作为其协处理器耦合到GPU 1716和CPU 1701中的一个或两者。另外，在各种实施例中，GPU 1716 可以用上面详细描述的任何图像处理器特征来实现。

触摸屏显示器1703、通信接口1704-1707、GPS接口1708、传感器1709、相机1710和扬声器/麦克风编码解码器1713、1714都可以被视为相对于整个计算系统的各种形式的I/O(输入和/或输出)，在适当的情况下，计算系统还包括集成的外围设备(例如，一个或多个相机1710)。根据实现方式，这些I/O组件中的各种可以集成在应用处理器/多核处理器1750上，或者可以位于裸芯外或者应用处理器/多核处理器1750的封装体之外。

在实施例中，一个或多个相机1710包括能够在其视场中测量相机和对象之间的深度的深度相机。在应用处理器或其他处理器的通用CPU内核(或具有执行程序代码的指令执行流程的其他功能块)上执行的应用软件、操作系统软件、设备驱动程序软件和/或固件可以执行上述的任何功能。

本发明的实施例可以包括如上所述的各种过程。这些过程可以体现在机器可执行指令中。该指令可用于使通用或专用处理器执行某些进程。或者，这些处理可以由包含用于执行处理的硬接线逻辑的具体硬件组件，或通过程序化计算机组件和定制硬件组件的任何组合来执行。

本发明的元件还可以被提供作为用于存储机器可执行指令的机器可读介质。机器可读介质可以包括但不限于软盘、光盘、CD-ROM和磁光盘、闪速存储器、ROM、RAM、EPROM、EEPROM、磁或光卡，传播介质或适用于存储电子指令的其他类型的介质/机器可读介质。例如，元件可以作为计算机程序下载，该计算机程序通过经由通信链路(例如，调制解调器或网络连接)的载波或其他传播介质中体现的数据信号从远程计算机(例如，服务器) 传送到请求计算机(例如，客户端)。

在前面的说明书中，已经描述了具体的示例性实施例。然而，显而易见的是，在不脱离如所附权利要求所阐述的本发明的更广泛的精神和范围的情况下，可以进行各种修改和改变。因此，说明书和附图被认为是说明性的而不是限制性的。

Claims

1.一种方法，包括：

在图像处理器上执行卷积神经网络层，所述图像处理器具有执行通道阵列和二维移位寄存器，所述二维移位寄存器为所述执行通道提供局部相应的寄存器空间，所述卷积神经网络的执行包括：

a)将三维图像数据块的图像数据的平面加载到所述二维移位寄存器；

b)通过依次进行以下步骤来执行所述图像数据的平面与系数值阵列的二维卷积：

在执行通道内同时相乘相应的像素和系数值以产生部分乘积的阵列；

在执行通道内同时将所述部分乘积和保存在所述图像数据内不同模版的二维寄存器中的部分乘积的相应累积值求和；以及

通过移位所述二维移位寄存器阵列内的内容来实现所述执行通道内的二维卷积的值的对齐。

2.根据权利要求1所述的方法，还包括使用所述图像数据的平面和下一个系数阵列来重复上述a)和b)，其中所述系数值阵列为来自所述卷积神经网络层的第一系数集的平面，并且所述下一个系数值阵列为来自所述卷积神经网络层的第二系数集的平面。

3.根据权利要求2所述的方法，还包括对所述执行通道局部累积从相同的系数集生成的中间平面。

4.根据权利要求2所述的方法，其中所述图像数据被局部保存到在所述图像数据和平面之间执行的二维卷积之间的所述执行通道，所述平面包含：1)来自所述第一系数集的所述平面；和2)来自所述第二系数集的所述平面。

5.根据权利要求1所述的方法，其中同时相乘还包括同时将相同的系数值与所述二维移位寄存器内的图像数据相乘。

6.根据权利要求1所述的方法，其中实现值的对齐包括在将所述图像数据乘以下一个系数值之前，将所述二维移位寄存器内的图像数据移位。

7.一种机器可读存储介质，其上存储有程序代码，当由具有执行通道阵列和二维移位寄存器的图像处理器处理时，执行一种方法，所述二维移位寄存器向所述执行通道提供局部相应寄存器空间，所述方法包括：

通过进行以下步骤来执行卷积神经网络：

b)通过依次进行以下步骤来执行所述图像数据的平面与系数值阵列的二维卷积；

8.根据权利要求7所述的机器可读存储介质，其中，所述方法还包括通过所述图像数据的平面和下一个系数阵列来重复上述a)和b)，其中所述系数值阵列为来自所述卷积神经网络层的第一系数集的平面，并且所述下一个系数值阵列为来自所述卷积神经网络层的第二系数集的平面。

9.根据权利要求8所述的机器可读存储介质，还包括对所述执行通道局部累积从相同的系数集生成的中间平面。

10.根据权利要求8所述的机器可读存储介质，其中所述图像数据被局部保存到在所述图像数据和平面之间执行的二维卷积之间的所述执行通道，所述平面包含：1)来自所述第一系数集的所述平面；和2)来自所述第二系数集的所述平面。

11.根据权利要求7所述的机器可读存储介质，其中同时相乘还包括同时将相同的系数值与所述二维移位寄存器内的图像数据相乘。

12.根据权利要求7所述的机器可读存储介质，其中实现值的对齐包括在将所述图像数据乘以下一个系数值之前，将所述二维移位寄存器内的图像数据移位。

13.根据权利要求7所述的机器可读存储介质，其中所述图像处理器包括多个模板处理器，每个模板处理器具有相应的执行通道阵列和二维移位寄存器，并且其中，所述图像处理器被配置为在具有所述卷积神经网络层的不同系数集的不同的模版处理器上执行相同的图像数据。

14.根据权利要求7所述的机器可读存储介质，其中所述图像处理器包括多个模板处理器，每个模板处理器具有相应的执行通道阵列和二维移位寄存器，并且其中，所述图像处理器被配置为在具有不同的模版处理器上的不同的图像数据的不同的模版处理器上执行卷积神经网络的相同系数集。

15.根据权利要求14所述的机器可读存储介质，其中所述不同的图像数据包括三维图像数据块的不同块的多个平面。

16.根据权利要求7所述的机器可读存储介质，其中所述图像处理器被配置为使用来自所述卷积神经网络层的输出作为下一个卷积神经网络层的输入，以由所述图像处理器计算。

17.根据权利要求7所述的机器可读存储介质，其中所述图像处理器被配置为，通过在所述卷积神经网络层和所述第二卷积神经网络层的处理之间，将所述图像数据局部保留到所述执行通道，来对所述卷积神经网络层和所述第二卷积神经网络层进行多路复用。

18.一种装置，包括：

i)图像处理器，其包括执行通道阵列和二维移位寄存器，所述二维移位寄存器为所述执行通道提供相应的局部寄存器空间；

ii)包含存储的程序代码的机器可读存储介质，当由所述执行通道阵列执行所述程序代码时，引起执行一种方法，所述方法包括：

通过进行以下步骤来执行卷积神经网络：

19.根据权利要求18所述的装置，其中所述图像处理器包括多个模板处理器，每个模板处理器具有相应的执行通道阵列和二维移位寄存器，并且其中，所述图像处理器被配置为在具有所述卷积神经网络层的不同系数集的不同的模版处理器上执行相同的图像数据。

20.根据权利要求18所述的装置，其中所述图像处理器包括多个模板处理器，每个模板处理器具有相应的执行通道阵列和二维移位寄存器，并且其中，所述图像处理器被配置为在具有不同的模版处理器上的不同的图像数据的不同的模版处理器上执行卷积神经网络的相同系数集。

21.根据权利要求20所述的装置，其中所述不同的图像数据包括三维图像数据块的不同块的多个平面。

22.根据权利要求18所述的装置，其中所述图像处理器被配置为使用来自所述卷积神经网络层的输出作为下一个卷积神经网络层的输入，以由所述图像处理器计算。

23.根据权利要求18所述的装置，其中所述图像处理器被配置为，通过在所述卷积神经网络层和所述第二卷积神经网络层的处理之间，将所述图像数据局部保留到所述执行通道，来对所述卷积神经网络层和所述第二卷积神经网络层进行多路复用。

24.根据权利要求18所述的装置，其中所述图像处理器和机器可读存储介质是计算系统的一部分。