CN113867790A

CN113867790A - 计算装置、集成电路芯片、板卡和计算方法

Info

Publication number: CN113867790A
Application number: CN202010618120.3A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-12-31
Also published as: WO2022001439A1

Abstract

本披露公开了一种计算装置、集成电路芯片、板卡和使用前述计算装置来执行运算操作的方法。其中该计算装置可以包括在组合处理装置中，该组合处理装置还可以包括通用互联接口和其他处理装置。所述计算装置与其他处理装置进行交互，共同完成用户指定的计算操作。组合处理装置还可以包括存储装置，该存储装置分别与设备和其他处理装置连接，用于存储该设备和其他处理装置的数据。本披露的方案可以提升包括例如人工智能领域在内的各类数据处理领域运算的运行效率，从而降低运算的整体开销和成本。

Description

计算装置、集成电路芯片、板卡和计算方法

技术领域

本披露一般地涉及数据处理领域。更具体地，本披露涉及一种计算装置、集成电路芯片、板卡和使用前述计算装置来执行计算操作的方法。

背景技术

现有的人工智能运算往往包含大量的数据运算，如卷积运算、图像处理等。随着数据量的增多，例如矩阵运算的数据运算所涉及的运算量和存储量都会由于数据规模的增大而急剧增加。现有的运算方式中，通常利用中央处理器(“CPU”)或者图像处理单元(“GPU”)等通用处理器进行运算。然而，通用处理器往往由于其通用性特征以及使用的器件冗余性较高，从而使其功耗开销较大，因此导致其使用性能受限。

另外，现有的运算处理电路通常采用固定的硬件架构，当数据规模扩大或数据格式发生变化时，不仅可能会出现不能支持某类运算的情形，而且会在运算过程中造成其运算性能极大受限，甚至达到不能操作的情形。

发明内容

为了至少解决上述现有技术中存在的缺陷，本披露提供了一种支持多种类型运算、提高运算效率并且节省运算成本和开销的解决方案。具体地，本披露在如下的多个方面中提供前述的解决方案。

在第一方面中，本披露提供一种计算装置，包括控制电路和多个处理电路，其中：

所述控制电路配置成获取指令并对所述指令进行解析，并且将解析后的指令发送至多个处理电路中的一个或多个处理电路；以及

所述多个处理电路配置成以一维或多维阵列的结构进行连接，并且根据接收到的解析后的指令来执行多线程操作。

在第二方面中，本披露提供一种集成电路芯片，包括前述及其稍后描述的多个实施例的计算装置。

在第三方面中，本披露提供一种板卡，包括前述的集成电路芯片。

在第四方面中，本披露提供一种使用计算装置来执行运算操作的方法，其中所述计算装置包括控制电路和以一维或多维阵列结构连接的多个处理电路，所述方法包括：

利用所述控制电路来获取指令并对所述指令进行解析，并将解析后的指令发送至所述多个处理电路中的一个或多个处理电路；以及

利用所述一个或多个处理电路来根据解析后的指令执行多线程操作。

通过利用本披露的计算装置、集成电路芯片、板卡和方法，可以克服固定硬件架构下的操作限制，提升包括例如人工智能领域在内的各类数据处理领域在数据处理和运算方面的运行效率，并降低数据操作的功耗开销和成本。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本披露实施例的计算装置的总体架构图；

图2是示出根据本披露实施例的计算装置的示例具体架构图；

图3是示出根据本披露实施例的计算装置的单个类型处理电路阵列的示例结构图；

图4是示出根据本披露实施例的计算装置的多种类型处理电路阵列的示例结构图；

图5a，5b，5c和5d是示出根据本披露实施例的多个处理电路的多种连接关系的示意图；

图6a，6b，6c和6d是示出根据本披露实施例的多个处理电路的另外多种连接关系的示意图；

图7a，7b、7c和7d是示出根据本披露实施例的处理电路的多种环路结构的示意图；

图8a，8b和8c是示出根据本披露实施例的处理电路的另外多种环路结构的示意图；

图9a，9b，9c和9d是示出根据本披露实施例的前处置电路所执行的数据拼接操作示意图；

图10a，10b和10c是示出根据本披露实施例的后处置电路所执行的数据压缩操作示意图；

图11是示出根据本披露实施例的使用计算装置来执行运算操作的方法的简化流程图；

图12是示出根据本披露实施例的一种组合处理装置的结构图；以及

图13是示出根据本披露实施例的一种板卡的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

下面结合附图来详细描述本公开的具体实施方式。

图1是示出根据本披露实施例的计算装置100的总体架构图。如图1中所示，本披露的计算装置100可以包括控制电路102和多个处理电路104。在执行数据处理的过程中，所述控制电路可以配置成获取指令并对所述指令进行解析，并且可以将解析后的指令发送至所述多个处理电路中的一个或多个处理电路。

根据本披露的方案，获取的指令可以包括一个或多个操作码，并且每个操作码可以表示将由一个或多个处理电路所要执行的一个或多个具体的操作。每个操作码可以任意一种合适的形式来表示。例如，可以通过“ADD”或“MUL”这样的英文缩写来表示操作码，以表达所要执行的是“加法”或“乘法”操作。另外，也可以通过“AM”这样无法从字面上直接确定具体操作的英文缩写来表示操作码。根据应用场景的不同，操作码可以包括或者涉及不同类型的操作，例如可以包括加法操作或乘法操作等算术运算操作、逻辑运算操作、比较运算或者查表运算，或者前述各类运算的任意多种组合。进一步，在本披露中，每个操作码可以对应于在解析指令的过程中得到的一个或多个微指令。由此，本披露解析后的指令中可以包括对应于所述指令中的一个操作码的一个或多个微指令，以指示处理电路所要执行的一个或多个具体操作。

在一个实施例中，在解析所述指令的过程中，所述控制电路102可以配置成获取所述指令中的指令标识信息，并且根据所述指令标识信息将所述解析后的指令发送到所述多个处理电路中的一个或多个，其中所述指令标识信息中标识有一个或多个处理电路。进一步，根据应用场景的不同，这里解析后的指令可以是经控制电路译码后的指令或者也可以是未经控制电路译码的解析指令。当解析后的指令是未经控制电路译码的解析指令时，则处理电路内可以包括相应的译码电路来对解析后的指令执行译码，以便例如得到多个微指令。

在另一个实施例中，在解析所述指令的过程中，所述控制电路可以配置成对所述指令进行译码，并且根据所述译码的结果以及所述多个处理电路的操作状态，将所述解析后的指令发送给所述多个处理电路中的一个或多个。在该实施例中，多个处理电路可以都支持非特定的相同类型运算。因此，为了提高处理电路的利用率和运算效率，可以将解析后的指令发送给占用率不高或处于空闲态的处理电路。

在一个或多个实施例中，所述多个处理电路104可以配置成以一维或多维阵列的结构进行连接，并且根据接收到的解析后的指令来执行多线程操作。在一个实施例中，所述多个处理电路可以配置成以单指令多线程(“SIMT”)方式接收并执行所述解析后的指令。在另一个实施例中，当多个处理电路配置成以多维阵列结构进行连接时，多维阵列可以包括二维阵列和/或三维阵列(如图5与图6中示出的)。进一步，前述的一维或多维阵列中的每个处理电路可以在一定范围内与指定方向和预定间隔模式的其他处理电路进行连接。另外，多个处理电路可以通过逻辑连接而串接形成一个或多个闭合的环路(如图7与图8中示出的)。

在不同的应用场景中，多个处理电路之间的连接方式可以是通过硬件结构进行连接的硬连线方式。附加地或可选地，多个处理电路之间的连接方式也可以是根据解析后的指令例如微指令进行配置的逻辑连接方式。通过上述的硬连接方式或逻辑连接方式，可以形成多种处理电路阵列的拓扑结构，以适应于执行对应的数据处理操作。

图2是示出根据本披露实施例的计算装置200的示例具体架构图。从图2中可以看出，计算装置200不仅包括图1中的计算装置100的控制电路102和多个处理电路104，还进一步示出了处理电路中包含的多个电路，以及附加地多个其他器件。由于前文已经结合图1对控制电路和处理电路的功能进行了详细描述，下文将不再赘述。

如图2所示，处理电路104可以包括逻辑运算电路1041，其可以配置成在执行所述多线程操作时，根据解析后的指令和接收到的数据执行逻辑运算，例如对接收到的数据执行与或非、移位操作或比较操作等逻辑运算操作。除了可以进行必要的逻辑运算外，处理电路104还可以包括算术运算电路1043，其可以配置成执行算术运算操作，例如加法、减法或乘法等线性运算。

在一个实施例中，处理电路104还可以包括存储电路1042，其包括数据存储电路和/或谓词存储电路，其中所述数据存储电路可以配置成存储所述处理电路的运算数据(例如像素)与中间运算结果中的至少一项。进一步，所述谓词存储电路可以配置成存储利用所述解析后的指令获取的每个所述处理电路的谓词存储电路序号和谓词信息。在具体的存储应用中，存储电路1042可以根据实际需要采用寄存器或者静态随机存取存储器(“SRAM”)等存储器来实现。

在一个应用场景中，谓词存储电路可以包括a个1位寄存器，以用于存储谓词信息。进一步，可以用b位的二进制数来表示a个1位寄存器的序号，其中b>＝log₂(a)。例如，处理电路中的谓词存储电路可以包括从00000～11111顺序编号的32个1位寄存器。由此，该处理电路可以根据接收到的解析后的指令中指定的寄存器序号“00101”读取对应序号为“00101”的寄存器中的谓词信息。

在一个实施例中，所述谓词存储电路可以配置成根据所述解析后的指令对所述谓词信息进行更新。例如，可以根据解析后的指令中的配置信息直接更新谓词信息，或者也可以根据解析后的指令中提供的配置信息存储地址来获取配置信息，以便对谓词信息进行更新。在处理电路执行运算的过程中，谓词存储电路还可以根据每个所述处理电路的比较结果(其在本披露的上下文中是运算结果的一种形式)对所述谓词信息进行更新。例如，可以利用所述处理电路接收到的输入数据与其数据存储电路中的存储数据进行比较来更新谓词信息。当所述输入数据大于所述存储数据时，则设置该处理电路的谓词信息为1。反之，当所述输入数据小于所述存储数据时，则设置所述谓词信息为0，或者维持其原数值不变。

在执行运算操作前，每个处理电路可以根据解析后的指令中的信息，来判断该处理电路是否执行该解析后的指令的操作。进一步，每个所述处理电路可以配置成根据所述解析后的指令中的所述谓词存储电路序号来获取对应于所述谓词存储电路的所述谓词信息，并且根据所述谓词信息来确定该所述处理电路是否执行所述解析后的指令。例如，当处理电路根据所述解析后的指令中指定的谓词存储电路序号读取的谓词信息的数值是1时，则表示该处理电路执行所述解析后的指令。例如，可以是令处理电路读取该指令中指向的数据，并且将读取的数据存入该处理电路的数据存储电路。反之，当处理电路根据所述解析后的指令中指定的谓词存储电路序号读取的谓词信息的数值是0时，则表示该处理电路不执行所述解析后的指令。

在一个实施例中，本披露的计算装置200还可以包括数据处置电路106，其可以包括前处置电路1061和后处置电路1062中的至少一个。所述前处置电路1061可以配置成在所述处理电路执行运算前对运算数据进行预处理操作(稍后结合图7b描述)，例如执行数据拼接或数据摆放操作。所述后处置电路1062可以配置成在所述处理电路执行运算后对运算结果进行后处理操作，例如执行数据还原或数据压缩操作。

为了实现数据的传递和存储，所述计算装置200还可以包括主存储电路108，其既可以接收并存储来自于控制电路的数据，以作为处理电路的输入数据，也可以用于传递并存储多个处理电路之间的数据。在一些应用场景中，可以根据存储方式或存储数据的特征将所述主存储电路108进一步划分成包括主存储模块1081和主缓存模块1082中的至少一个。所述主存储模块1081可以配置成存储用于处理电路中待执行运算的数据(例如输入像素)与执行运算后的运算结果(例如输出像素)。所述主缓存模块1082可以配置成缓存所述多个处理电路中执行运算后的中间运算结果。在一些应用场景中，主存储电路不仅可以进行内部的存储，还支持与本披露的计算装置外的存储装置进行数据交互的功能，例如其可以通过直接存储器访问(“DMA”)与外部的存储装置进行数据交换。

图3是示出根据本披露实施例的计算装置的单个类型处理电路阵列的示例结构图。如图3所示，其所示出的计算装置不但包括图2所示出的控制电路102、主存储电路108、数据处置电路106和多个同类型的处理电路104，并且进一步示出了多个同类型的处理电路可以通过物理连接进行排布以形成二维阵列，例如多个处理电路排列形成二维阵列。鉴于前文结合图2对控制电路、主存储电路、数据处置电路和处理电路的功能进行了详细描述，此处将不再赘述。

如前所述，可以根据类型的不同对本披露的多个处理电路进行划分，以用于执行不同类型的数据处理操作。例如，所述多个处理电路可以被划分成第一类型处理电路和第二类型处理电路(如图4中所示出的)。在应用场景中，所述第一类型处理电路可以适用于执行算术运算和逻辑运算中的至少一项，而所述第二类型处理电路可以适用于执行比较运算和查表运算中的至少一项。

图4是示出根据本披露实施例的计算装置的多种类型处理电路阵列的示例结构图。如图4所示出的计算装置包括控制电路102、主存储电路108和多个不同类型的处理电路104。可选地，该计算装置还可以包括如图2和3中所示出的数据处置电路106。鉴于此，图4所示出的计算装置架构与图2和图3所示出的计算装置架构类似，因此结合图2和图3所描述的计算装置200的技术细节也同样适用于图4所示出的计算装置。

从图4中可以看出，本披露的多个处理电路可以包括例如多个第一类型处理电路和多个第二类型处理电路(如图中示出的不同颜色背景的处理电路具有不同的类型)。所述多个处理电路可以通过物理连接进行排布以形成二维阵列。可以理解的是图4中所示两种类型处理电路的排布方式仅仅是示例性地而非限制性地，本领域技术人员根据本披露的教导也可以想到其他的排布方式。例如，可以将多个第一类型处理电路排布在阵列的左右两侧，而将多个第二类型处理电路排布在阵列的中间区域。又例如，多个第一类型处理电路可以布置在阵列的中间区域，而多个第二类型处理电路可以排布于阵列的四周区域。再例如，还可以将多个第一类型处理电路和第二类型处理电路间隔穿插地排布于阵列中。根据计算场景的不同，本披露的处理电路的类型也可以不限于图中所示的两种，而是可以具有更多类型的处理电路，以实现不同类型的运算操作。

如图中所示，所述二维阵列中有M行N列(表示为M*N)个第一类型处理电路(如图中示出的浅色背景的处理电路104)，其中M和N是大于0的正整数。所述第一类型处理电路可以用于执行算术运算和逻辑运算，例如可以包括加法、减法和乘法等线性运算、比较运算和与或非等非线性运算，或者前述各类运算的任意多种组合。进一步，在M*N个第一类型处理电路阵列的外围的左、右两侧各有两列、共(M*2+M*2)个第二类型处理电路，并且在其外围的下侧有两行、共(N*2+8)个第二类型处理电路，即该处理电路阵列共有(M*2+M*2+N*2+8)个第二类型处理电路(如图中示出的深色背景的处理电路104)。在一个实施例中，所述第二类型处理电路可以用于对接收到的数据执行例如比较运算、查表运算或移位操作等非线性运算。

在一些应用场景中，第一类型处理电路与第二类型处理电路二者所应用的存储电路可以具有不同的存储规模和存储方式。例如，第一类型处理电路中的谓词存储电路可以利用多个经过编号的寄存器存储谓词信息。进一步，第一类型处理电路可以根据接收到的解析后的指令中指定的寄存器编号来存取对应编号的寄存器中的谓词信息。又例如，第二类型处理电路可以采用静态随机存取存储器(“SRAM”)的方式对谓词信息进行存储。具体来说，所述第二类型处理电路可以根据接收到的解析后的指令中指定的该谓词信息所在位置的偏移量来确定所述谓词信息在静态随机存取存储器(“SRAM”)中的存储地址，并且可以对该存储地址中的谓词信息进行预定的读出或写入操作。

图5a，5b，5c和5d是示出根据本披露实施例的多个处理电路的多种连接关系的示意图。本披露的多个处理电路之间可以一维或多维阵列的拓扑结构进行连接。当多个处理电路之间以多维阵列进行连接时，所述多维阵列可以是二维阵列，并且位于所述二维阵列中的所述处理电路可以在其行方向、列方向或对角线方向的至少一个方向上，以预定的二维间隔模式与同行、同列或同对角线上的其余一个或多个所述处理电路连接。其中所述预定的二维间隔模式可以与所述连接中间隔的处理电路的数目相关联。图5a至图5c示例性示出多个处理电路之间的多种形式的二维阵列的拓扑结构。

如图5a所示，五个处理电路(每个以方框表示)连接形成一个简单的二维阵列。具体来说，以一个处理电路作为二维阵列的中心，向相对于该处理电路的水平和垂直的四个方向上各连接一个处理电路，从而形成一个具有三行和三列大小的二维阵列。进一步，由于位于二维阵列中心的处理电路分别与同行的前一列和后一列相邻的处理电路、与同列的上一行和下一行相邻的处理电路直接连接，从而间隔的处理电路的数目(简称“间隔数目”)为0。

如图5b所示，四行四列的处理电路可以连接形成一个二维Torus阵列，其中每个处理电路分别与其相邻的前一行和后一行、前一列和后一列的处理电路进行连接，即相邻处理电路连接的间隔数目均为0。进一步，位于该二维Torus阵列中每行或每列的第一个处理电路还与该行或该列的最后一个处理电路相连，每行或每列首尾相连的处理电路之间的间隔数目均为2。

如图5c所示，四行四列的处理电路还可以连接形成一个相邻处理电路之间的间隔数目为0、不相邻处理电路之间的间隔数目为1的二维阵列。具体地，该二维阵列中同行或同列相邻的处理电路直接连接，即间隔数目为0，而同行或同列不相邻的处理电路与间隔数目为1的处理电路进行连接。可以看出，当多个处理电路连接形成二维阵列时，图5b和图5c示出的同行或同列的处理电路之间可以有不同的间隔数目。类似地，在一些场景中，也可以不同的间隔数目与对角线方向上的处理电路进行连接。

如图5d所示，利用四个如图5b示出的二维Torus阵列，可以按照预定的间隔排列成四层二维Torus阵列进行连接，以形成一个三维Torus阵列。该三维Torus阵列在二维Torus阵列的基础上，利用与行间、列间类似的间隔模式进行层间连接。例如，首先将相邻层同行同列的处理电路直接相连，即间隔数目为0。接着，将第一层和最后一层同行同列的处理电路进行连接，即间隔数目为2。最终可以形成四层四行四列的三维Torus阵列。

通过上面这些示例，本领域技术人员可以理解处理电路的其他多维阵列的连接关系可以在二维阵列的基础上，通过增加新的维度和增加处理电路的数目来形成。在一些应用场景中，本披露的方案也可以通过使用配置指令来对处理电路配置逻辑连接。换句话说，尽管处理电路之间可能存在硬线连接，但本披露的方案也可以通过配置指令来选择性地令一些处理电路连接，或者选择性地旁路一些处理电路，以形成一个或多个逻辑连接。在一些实施例中，还可以根据实际运算的需求(例如数据类型的转换)来调整前述的逻辑连接。进一步，针对于不同的计算场景，本披露的方案可以对处理电路的连接进行配置，包括例如配置成矩阵或者配置成一个或多个闭合的计算环路。

图6a，6b，6c和6d是示出根据本披露实施例的多个处理电路的另外多种连接关系的示意图。从图中可以看出，图6a至图6d是在图5a至图5d示出的多个处理电路形成的多维阵列的又一种示例性连接关系。鉴于此，结合图5a至图5d所描述的技术细节也同样适用于图6a至图6d所示出的内容。

如图6a所示，二维阵列的处理电路包括位于二维阵列中心的中心处理电路和与该中心处理电路同行和同列的四个方向上分别连接的三个处理电路。因此，该中心处理电路与其余处理电路之间连接的间隔数目分别是0、1和2。如图6b所示，二维阵列的处理电路包括位于二维阵列中心的中心处理电路、和与该处理电路同行的两个相对方向上的三个处理电路，以及与该处理电路同列的两个相对方向上的一个处理电路。因此，中心处理电路与同行的处理电路之间连接的间隔数目分别为0和2，与同列的处理电路之间连接的间隔数目均为0。

正如前文结合图5d所示出的，多个处理电路形成的多维阵列可以由多个层构成的三维阵列。其中所述三维阵列的每个层可以包括沿其行方向和列方向排列的多个所述处理电路的二维阵列。进一步，位于所述三维阵列中的所述处理电路可以在其行方向、列方向、对角线方向和层方向的至少一个方向上以预定的三维间隔模式与同行、同列、同对角线或不同层上的其余一个或多个处理电路连接。进一步，所述预定的三维间隔模式与所述连接中相互间隔的处理电路的数目可以和间隔的层数目相关。下面将结合图6c与图6d对三维阵列的连接方式做出进一步描述。

图6c示出多个处理电路连接形成的多层多行多列的三维阵列。以位于第l层、第r行、第c列(表示为(l，r，c))的处理电路为例，其位于阵列中心位置，并且分别与同层同行的前一列(l，r，c-1)处的处理电路和后一列(l，r，c+1)处的处理电路、同层同列的前一行(l，r-1，c)处的处理电路和后一行(l，r+1，c)处的处理电路，以及同行同列不同层的前一层(l-1，r，c)处的处理电路和后一层(l+1，r，c)处的处理电路进行连接。进一步，(l，r，c)处的处理电路与其他处理电路在行方向、列方向和层方向上连接的间隔数目均为0。

图6d示出当多个处理电路之间在行方向、列方向、和层方向上连接的间隔数目均为1时的三维阵列。以位于阵列中心位置(l，r，c)的处理电路为例，其分别与同层同行不同列的前后各间隔一列的(l，r，c-2)和(l，r，c+2)处的处理电路、同层同列不同行的前后各间隔一行的(l，r-2，c)和(l，r+2，c)处的处理电路进行连接。进一步，其与同行同列不同层的前后各间隔一层的(l-2，r，c)和(l+2，r，c)处的处理电路进行连接。类似地，其余的同层同行间隔一列的(l，r，c-3)与(l，r，c-1)处的处理电路彼此进行连接，而(l，r，c+1)与(l，r，c+3)处的处理电路彼此进行连接。接着，同层同列间隔一行的(l，r-3，c)与(l，r-1，c)处的处理电路彼此进行连接、(l，r+1，c)与(l，r+3，c)处的处理电路彼此进行连接。另外，同行同列间隔一层的(l-3，r，c)与(l-1，r，c)处的处理电路彼此进行连接、而(l+1，r，c)与(l+3，r，c)处的处理电路彼此进行连接。

上文对多个处理电路形成的多维阵列的连接关系进行了示例性描述，下文将结合图7-图8对多个处理电路形成的不同环路结构做出进一步示例性说明。

图7a，7b、7c和7d是分别示出根据本披露实施例的处理电路的多种环路结构的示意图。根据不同的应用场景，多个处理电路不仅可以物理连接关系来进行连接，也可以根据接收到的解析后的指令配置成以逻辑关系来进行连接。所述多个处理电路可以配置成利用所述逻辑连接关系进行连接以形成闭合的环路。

如图7a所示，四个相邻的处理电路顺序编号为“0、1、2和3”。接着，从处理电路0开始按照顺时针方向将该四个处理电路顺序相连，并且处理电路3与处理电路0进行连接，以使四个处理电路串联形成一个闭合的环路(简称“成环”)。在该环路中，处理电路的间隔数目为0或2，例如处理电路0与1之间间隔数目为0，而处理电路3与0之间间隔数目为2。进一步，所示环路中的四个处理电路的物理地址可以为0-1-2-3，而其逻辑地址同样为0-1-2-3。需要注意的是，图7a所示出的连接顺序仅仅是示例性的而非限制性的，本领域技术人员根据实际计算需要，也可以以逆时针方向对四个处理电路进行串联连接以形成闭合的环路。

在一些实际场景中，当一个处理电路支持的数据位宽不能满足运算数据的位宽要求时，可以利用多个处理电路组合成一个处理电路组以表示一个数据。例如，假设一个处理电路可以处理8位数据。当需要处理32位的数据时，则可以将4个处理电路进行组合成为一个处理电路组，以便对4个8位数据进行连接以形成一个32位数据。进一步，前述4个8位处理电路形成的一个处理电路组可以充当图7b中示出的一个处理电路104，从而可以支持更高位宽的运算操作。

从图7b中可以看出，其所示出的处理电路的布局与图7a示出的类似，但图7b中处理电路之间连接的间隔数目与图7a不同。图7b示出以0、1、2和3顺序编号的四个处理电路按顺时针方向从处理电路0开始，顺序连接处理电路1、处理电路3和处理电路2，并且处理电路2连接至处理电路0，从而串联形成一个闭合的环路。从该环路中可以看出，图7b中示出的处理电路的间隔数目为0或1，例如处理电路0与1之间间隔为0，而处理电路1与3之间间隔为1。进一步，所示闭合环路中的四个处理电路的物理地址可以为0-1-2-3，而逻辑地址则为0-1-3-2。因此，当需要对高比特位宽的数据进行拆分以分配给不同的处理电路时，可以根据处理电路的逻辑地址对数据顺序进行重新排列和分配。

上述的拆分和重新排列的操作可以由结合图2描述的前处置电路来执行。特别地，该前处置电路可以根据多个处理电路的物理地址和逻辑地址来对输入数据进行重新排列，以用于满足数据运算的要求。假设四个顺序排列的处理电路0至处理电路3如图7a中所示出的连接，由于连接的物理地址和逻辑地址都为0-1-2-3，因此前处置电路可以将输入数据(例如像素数据)aa0、aa1、aa2和aa3依次传送到对应的处理电路中。然而，当前述的四个处理电路按图7b所示出的连接时，其物理地址保持0-1-2-3不变，而逻辑地址变为0-1-3-2，此时前处置电路需要将输入数据aa0、aa1、aa2和aa3重新排列为aa0-aa1-aa3-aa2，以传送到对应的处理电路中。基于上述的输入数据重排列，本披露的方案可以保证数据运算顺序的正确性。类似地，如果前述获得的四个运算输出结果(例如是像素数据)的顺序是bb0-bb1-bb3-bb2，可以利用结合图2描述的后处置电路将运算输出结果的顺序还原调整为bb0-bb1-bb2-bb3，以用于保证输入数据和输出结果数据之间的排列一致性。

图7c和图7d示出更多的处理电路分别以不同方式进行排列和连接，以形成闭合的环路。如图7c所示，以0,1…15顺序编号的16个处理电路104从处理电路0开始，顺序地每两个处理电路进行连接和组合，以形成一个处理电路组。例如，如图中所示，处理电路0与处理电路1连接形成一个处理电路组……。以此类推，处理电路14与处理电路15连接以形成一个处理电路组，最终形成八个处理电路组。进一步，该八个处理电路组也可以类似于前述的处理电路的连接方式进行连接，包括按照例如预定的逻辑地址来进行连接，以形成一个处理电路组的闭合的环路。

如图7d所示，多个处理电路104以不规则或者说不统一的方式来连接，以形成一个闭合的环路。具体来说，在图7d中示出处理电路之间可以间隔数目为0或3来形成闭合的环路，例如处理电路0可以分别与处理电路1(间隔数目为0)和处理电路4(间隔数目为3)相连。

由上述结合图7a、7b、7c和7d的描述可知，本披露的处理电路可以间隔有不同数目的处理电路，以便连接成闭合的环路。当处理电路总数变化时，也可以选择任意的中间间隔数目进行动态配置，从而连接成闭合的环路。还可以将多个处理电路组合成为处理电路组，并连接成处理电路组的闭合的环路。另外，多个处理电路的连接可以是硬件构成的硬连接方式，或者可以是软件配置的软连接方式。

图8a，8b和8c是示出根据本披露实施例的处理电路的另外多种环路结构的示意图。正如结合图6所示出的多个处理电路可以形成一个闭合的环路，并且所述闭合的环路中的每个处理电路可以配置有各自的逻辑地址。进一步，由结合图2描述的前处置电路可以配置成根据运算数据的类型(例如32bit数据，16bit数据或8bit数据)和逻辑地址，将所述运算数据进行相应的拆分并将拆分后获得的多个子数据分别传递至环路中对应的各个处理电路中以用于后续运算。

图8a上图示出四个处理电路连接形成一个闭合环路，并且该四个处理电路按从右到左顺序的物理地址(在本披露的上下文中也可以称为物理坐标)可以表示为0-1-2-3。图8a下图示出前述所述环路中的四个处理电路从右到左顺序的逻辑地址表示为0-3-1-2。例如，图8a下图所示出的逻辑地址为“3”的处理电路具有图8a上图示出的物理地址“1”。

在一些应用场景中，假设操作数据的粒度是输入数据的低128bit，例如图中的原始序列“15，14，……2，1，0”(每个数字对应8bit数据)，并且设定该16个8bit数据的逻辑地址从低到高编号依次是0～15。进一步，按照如图8a下图所示出的逻辑地址，所述前处置电路可以根据不同的数据类型，对数据采用不同的逻辑地址进行编码或排列。

当处理电路操作的数据位宽为32bit时，逻辑地址分别为(3,2,1,0)，(7,6,5,4)，(11,10,9,8)和(15,14,13,12)的4个数可以分别表示第0～3个32bit数据。所述前处置电路可以将第0个32bit数据传送至逻辑地址为“0”的处理电路中(对应的物理地址为“0”)，可以将第1个32bit数据传送至逻辑地址为“1”的处理电路中(对应的物理地址为“2”)，可以将第2个32bit数据传送至逻辑地址为“2”的处理电路中(对应的物理地址为“3”)，可以将第3个32bit数据传送至逻辑地址为“3”的处理电路中(对应的物理地址为“1”)。通过数据的重新排列，以用于满足处理电路的后续运算需求。因此最终数据的逻辑地址与物理地址之间的映射关系为(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0)->(11,10,9,8,7,6,5,4,15,14,13,12,3,2,1,0)。

当处理电路操作的数据位宽为16bit时，逻辑地址分别为(1,0),(3,2),(5,4),(7,6)，(9,8),(11,10),(13,12)和(15,14)的8个数可以分别表示第0～7个16bit数据。所述前处置电路可以将第0个和第4个16bit数据传送至逻辑地址为“0”的处理电路中(对应的物理地址为“0”)，可以将第1个和第5个16bit数据传送至逻辑地址为“1”的处理电路中(对应的物理地址为“2”)，可以将第2个和第6个16bit数据传送至逻辑地址为“2”的处理电路中(对应的物理地址为“3”)，可以将第3个和第7个16bit数据传送至逻辑地址为“3”的处理电路中(对应的物理地址为“1”)。因此最终数据的逻辑地址与物理地址之间的映射关系为：(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0)->(13,12,5,4,11,10,3,2,15,14,7,6,9,8,1,0)。

当处理电路操作的数据位宽为8bit时，逻辑地址为0～15的16个数可以分别表示第0～15个8bit数据。根据图8a所示出的连接，所述前处置电路可以将第0个、第4个、第8个和第12个8bit数据传送至逻辑地址为“0”的处理电路中(对应的物理地址为“0”)；可以将第1个、第5个、第9个和第13个8bit数据传送至逻辑地址为“1”的处理电路中(对应的物理地址为“2”)；可以将第2个、第6个、第10个和第14个8bit数据传送至逻辑地址为“2”的处理电路中(对应的物理地址为“3”)；可以将第3个、第7个、第11和第15个8bit数据传送至逻辑地址为“3”的处理电路中(对应的物理地址为“1”)。因此最终数据的逻辑地址与物理地址之间的映射关系为：(15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0)->(14,19,6,2,13,9,5,1,15,11,7,3,12,8,4,0)。

图8b上图示出八个顺序编号的处理电路0至处理电路7连接形成一个闭合的环路，并且该八个处理电路的物理地址为0-1-2-3-4-5-6-7。图8b下图示出前述八个处理电路的逻辑地址为0-7-1-6-2-5-3-4。例如，图8b上图示出物理地址为“6”的处理电路对应于图8b下图示出的逻辑地址为“3”。

图8b所示出的针对不同数据类型，所述前处置电路对数据进行重新排列后传送至对应的处理电路的操作与图8a类似，因此结合图8a所描述的技术方案也同样适用于图8b，此处不再对上述的数据重新排列操作过程进行赘述。进一步，图8b所示出的处理电路的连接关系与图8a所示出的类似，但图8b示出八个处理电路为图8a所示出的处理电路个数的两倍。由此，在根据不同数据类型进行操作的应用场景中，结合图8b所描述操作数据的粒度可以为结合图8a所描述操作数据的粒度的两倍。因此，相对于前面例子中输入数据的粒度为低128bit，本例中操作数据的粒度可以为输入数据的低256bit，例如图中示出的原始数据序列“31，30，……，2，1，0”，每个数字对应于8比特(“bit”)长度。

针对于上述原始数据序列，当处理电路操作的数据位宽分别是32bit、16bit和8bit时，图中还分别示出成环的处理电路中的数据的排列结果。例如，当操作的数据位宽是32bit时，逻辑地址为“1”的处理电路中的1个32bit数据为(7,6,5,4)，该处理电路对应的物理地址为“2”。而当操作的数据位宽是16bit时，逻辑地址为“3”的处理电路中的2个16bit数据为(23,22,7,6)，该处理电路对应的物理地址为“6”。当操作的数据位宽是8bit时，逻辑地址为“6”的处理电路中的4个8bit数据为(30,22,14,6)，该处理电路对应的物理地址为“3”。

上文结合图8a和图8b所示出的多个单个类型处理电路(如图3示出的第一类型处理电路)连接形成闭合环路的情形，针对不同数据类型的数据操作进行了描述。下文将结合图8c所示出的多个不同类型处理电路(如图4示出的第一类型处理电路和第二类型处理电路)进行连接形成闭合环路的情形，针对不同数据类型的数据操作做出进一步描述。

图8c上图示出，以0,1……19顺序编号的二十个多类型处理电路进行连接，以形成一个闭合的环路(图中示出的编号为处理电路的物理地址)。编号从0至15的十六个处理电路为第一类型处理电路，编号从16至19的四个处理电路为第二类型处理电路。类似地，该二十个处理电路中每个的物理地址，与图8c下图示出的对应处理电路的逻辑地址具有映射关系。

进一步，在对不同数据类型进行操作时，例如对于图中示出的80个8bit的原始序列，图8c还示出针对于处理电路支持的不同数据类型，对前述原始数据进行操作后的结果。例如，当操作的数据位宽是32bit时，逻辑地址为“1”的处理电路中的1个32bit数据为(7,6,5,4)，该处理电路对应的物理地址为“2”。而当操作的数据位宽是16bit时，逻辑地址为“11”的处理电路中的2个16bit数据为(63,62,23,22)，该处理电路对应的物理地址为“9”。而当操作的数据位宽是8bit时，逻辑地址为“17”的处理电路中的4个8bit数据为(77,57,37,17)，该处理电路对应的物理地址为“18”。

图9a，9b，9c和9d是示出根据本披露实施例的前处置电路所执行的数据拼接操作示意图。如前所述，本披露结合图2所描述的前处置电路还可以配置成根据解析后的指令从多种数据拼接模式中选择一种数据拼接模式，以对输入的两个数据执行拼接操作。关于多种数据拼接模式，在一个实施例中，本披露的方案通过对待拼接的两个数据按最小数据单元划分和编号，然后基于指定的规则来抽取数据的不同最小数据单元以形成不同的数据拼接模式。例如，可以基于编号的奇偶性或编号是否是指定数字的整数倍来进行例如交替式地抽取和摆放，从而形成不同的数据拼接模式。根据不同的计算场景(例如数据位宽的不同)，这里的最小数据单元可以简单的就是1位或1比特数据，或者是2位、4位、8位、16位或32位或比特的长度。进一步，在抽取两个数据的不同编号部分时，本披露的方案既可以以最小数据单元来交替地抽取，也可以以最小数据单元的倍数来抽取，例如从两个数据中交替地一次抽取两个或三个最小数据单元的部分数据作为一组来按组进行拼接。

基于上述数据拼接模式的描述，下面将结合图9a至图9c来以具体的例子示例性阐述本披露的数据拼接模式。在所示的图中，输入数据为In1和In2，当图中的每个方格代表一个最小数据单元时，两个输入数据都具有8个最小数据单元的位宽长度。如前所述，对于不同位宽长度的数据，该最小数据单元可以代表不同的位数(或比特数)。例如，对于位宽为8位的数据，最小数据单元代表1位数据，而对于位宽为16位的数据，最小数据单元代表2位数据。又例如，对于位宽为32位的数据，最小数据单元代表4位数据。

如图9a所示，待拼接的两个输入数据In1和In2各由从右至左顺序编号为1,2，……，8的八个最小数据单元构成。按照编号由小到大、先In1后In2、先奇数编号后偶数编号的奇偶交错原则进行数据拼接。具体而言，当操作的数据位宽为8bit时，数据In1和In2各表示一个8位数据，而每个最小数据单元代表1位数据(即一个方格代表1比特数据)。根据数据的位宽和前述的拼接原则，首先抽取数据In1编号为1、3、5和7的最小数据单元顺序布置于低位。接着，顺序布置数据In2的四个奇数编号的最小数据单元。类似地，顺序布置数据In1编号为2、4、6和8的最小数据单元和数据In2的四个偶数编号的最小数据单元。最终，由16个最小数据单元拼接形成1个16位或2个8位的新数据，如图9a中第二行方格所示出的。

如图9b所示，在数据位宽为16bit时，数据In1和In2各表示一个16位数据，此时每个最小数据单元代表2位数据(即一个方格代表一个2比特数据)。根据数据的位宽和前述的交错拼接原则，可以先抽取数据In1编号为1、2、5和6的最小数据单元顺序布置于低位。然后，顺序布置数据In2编号为1、2、5和6的最小数据单元。类似地，顺序布置数据In1编号为3、4、7和8和数据In2相同编号的最小数据单元，以拼接形成最终的16个最小数据单元组成的1个32位或2个16位的新数据，如图9b中第二行方格所示出的。

如图9c所示，在数据位宽为32bit时，数据In1和In2各表示一个32位数据，而每个最小数据单元代表4位数据(即一个方格代表一个4比特数据)。根据数据的位宽和前述的交错拼接原则，可以先抽取数据In1编号为1、2、3和4和数据In2相同编号的最小数据单元顺序布置于低位。然后，抽取数据In1编号为5、6、7和8与数据In2相同编号的最小数据单元顺序布置，从而拼接形成最终的16个最小数据单元组成的1个64位或2个32位的新数据。

上面结合图9a-图9c描述了本披露的示例性数据拼接方式。然而，可以理解的是在一些计算场景中，数据拼接并不涉及上述的交错排放，而仅仅是两个数据在保持各自原有数据位置不变情况下的简单排布，例如图9d中所示出的。从图9d中可看出，两个数据In1和In2并不执行如图9a-图9c中示出的交错排布，而仅仅是将数据In1的最后一个最小数据单元和In2的第一个最小数据单元进行串联，从而获得位宽增大(例如加倍)的新数据类型。在一些场景中，本披露的方案还可以基于数据属性进行成组的拼接。例如，可以将具有同一特征图的神经元数据或权值数据形成一组，然后进行排布，以构成拼接后数据的连续部分。

图10a，10b和10c是示出根据本披露实施例的后处置电路所执行的数据压缩操作示意图。所述压缩操作可以包括利用掩码对数据进行筛选或通过给定阈值与数据大小的比较来进行压缩。关于数据压缩操作，可以对其按如前所述的最小数据单元进行划分和编号。与结合图9a-图9d所述的类似，最小数据单元可以例如是1位或1比特数据，或者是2位、4位、8位、16位或32位或比特的长度。下面将结合图10a至图10c针对不同的数据压缩模式做出示例性描述。

如图10a所示，原始数据由从右至左顺序编号为1，2……，8的八个方格(即八个最小数据单元)依次排列组成，假设每个最小数据单元可以表示1比特数据。当根据掩码进行数据压缩操作时，所述后处置电路可以利用掩码对原始数据进行筛选以执行数据压缩操作。在一个实施例中，掩码的位宽与原始数据的最小数据单元的个数对应。例如，前述的原始数据具有8个最小数据单元，则掩码位宽为8位，并且编号为1的最小数据单元对应于掩码的最低位，编号为2的最小数据单元对应于掩码的次低位。以此类推，编号为8的最小数据单元对应于掩码的最高位。在一个应用场景中，当8位掩码为“10010011”时，压缩原则可以设置为抽取与该掩码为“1”的数据位对应的原始数据中的最小数据单元。例如，对应掩码数值为“1”的最小数据单元的编号为1、2、5和8。由此，可以抽取编号为1、2、5和8的最小数据单元，并且按照编号从低到高的顺序依次排列，以形成压缩后的新数据，如图10a第二行所示。

图10b示出与图10a类似的原始数据，并且从图10b的第二行中可以看出，经过后处置电路的数据序列维持原有的数据排列顺序和内容。由此可以理解，本披露的数据压缩也可以包括禁用模式或非压缩模式，以便在数据经过后处置电路时不执行压缩操作。

如图10c所示，原始数据由八个方格依次排列组成，每个方格上方的数字表示其编号，从右至左顺序编号为1,2……8，并且假设每个最小数据单元可以为8比特数据。进一步，每个方格中的数字表示该最小数据单元的十进制数值。以编号为1的最小数据单元为例，其十进制数值为“8”，对应的8比特数据为“00001111”。当根据阈值进行数据压缩操作时，假设阈值为十进制数据“8”，压缩原则可以设置为抽取原始数据中所有大于或等于该阈值“8”的最小数据单元。由此，可以抽取编号为1、4、7和8的最小数据单元。然后，将抽取得到的所有最小数据单元按照编号从低到高的顺序进行排列，以获得最终的数据结果，如图10c中的第二行所示。

图11是示出根据本披露实施例的使用计算装置来执行运算操作的方法1100的简化流程图，其中所述计算装置可以具有结合图1-图4所描述的硬件架构。

如图11所示，在步骤1110处，方法1100可以利用所述控制电路来获取指令，并且可以对所述指令进行解析，并将解析后的指令发送至所述多个处理电路中的一个或多个处理电路。在一个实施例中，所述控制电路可以根据所述指令中的指令标识信息来确定执行操作的一个或多个处理电路，并且将所述解析后的指令发送至所述多个处理电路中的一个或多个，以执行所述解析后的指令指定的相应操作。

在一个或多个实施例中，在解析所述指令的过程中，所述控制电路可以对所述指令进行译码操作，根据所述译码的结果将所述解析后的指令发送到所述多个处理电路中的一个或多个。当多个处理电路都支持非特定的相同类型运算时，控制电路可以根据多个处理电路的操作状态，发送解析后的指令给使用占用率不高或处于空闲态的处理电路。进一步，根据应用场景的不同，所述解析后的指令也可以是未经控制电路译码的解析指令。而所述一个或多个处理电路中可以包含相应的译码电路对接收到的解析后的指令进行译码，以例如生成多个微指令，从而一个或多个处理电路可以根据所述微指令执行后续操作。

接着，流程可以前进至步骤1120，方法1100可以利用所述一个或多个处理电路来根据解析后的指令执行多线程操作。在一个实施例中，所述多个处理电路可以配置成以单指令多线程(“SIMT”)方式接收并执行所述解析后的指令。在另一个实施例中，多个处理电路可以一维或多维阵列的拓扑结构进行连接，并且经过所述连接而串接的多个处理电路阵列可以形成一个或多个闭合的环路。在又一个实施例中，多个处理电路可以根据接收到的所述解析后的指令中的信息(例如谓词信息)判断是否执行该解析后的指令指定的操作。

图12是示出根据本披露实施例的一种组合处理装置1200的结构图。如图12中所示，该组合处理装置1200包括计算处理装置1202、接口装置1204、其他处理装置1206和存储装置1208。根据不同的应用场景，计算处理装置中可以包括一个或多个计算装置1210，该计算装置可以配置用于执行本文结合图1-图11所描述的操作。

在不同的实施例中，本披露的计算处理装置可以配置成执行用户指定的操作。在示例性的应用中，该计算处理装置可以实现为单核人工智能处理器或者多核人工智能处理器。类似地，包括在计算处理装置内的一个或多个计算装置可以实现为人工智能处理器核或者人工智能处理器核的部分硬件结构。当多个计算装置实现为人工智能处理器核或人工智能处理器核的部分硬件结构时，就本披露的计算处理装置而言，其可以视为具有单核结构或者同构多核结构。

在示例性的操作中，本披露的计算处理装置可以通过接口装置与其他处理装置进行交互，以共同完成用户指定的操作。根据实现方式的不同，本披露的其他处理装置可以包括中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics ProcessingUnit,GPU)、人工智能处理器等通用和/或专用处理器中的一种或多种类型的处理器。这些处理器可以包括但不限于数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，并且其数目可以根据实际需要来确定。如前所述，仅就本披露的计算处理装置而言，其可以视为具有单核结构或者同构多核结构。然而，当将计算处理装置和其他处理装置共同考虑时，二者可以视为形成异构多核结构。

在一个或多个实施例中，该其他处理装置可以作为本披露的计算处理装置(其可以具体化为人工智能例如神经网络运算的相关运算装置)与外部数据和控制的接口，执行包括但不限于数据搬运、对计算装置的开启和/或停止等基本控制。在另外的实施例中，其他处理装置也可以和该计算处理装置协作以共同完成运算任务。

在一个或多个实施例中，该接口装置可以用于在计算处理装置与其他处理装置间传输数据和控制指令。例如，该计算处理装置可以经由所述接口装置从其他处理装置中获取输入数据，写入该计算处理装置片上的存储装置(或称存储器)。进一步，该计算处理装置可以经由所述接口装置从其他处理装置中获取控制指令，写入计算处理装置片上的控制缓存中。替代地或可选地，接口装置也可以读取计算处理装置的存储装置中的数据并传输给其他处理装置。

附加地或可选地，本披露的组合处理装置还可以包括存储装置。如图中所示，该存储装置分别与所述计算处理装置和所述其他处理装置连接。在一个或多个实施例中，存储装置可以用于保存所述计算处理装置和/或所述其他处理装置的数据。例如，该数据可以是在计算处理装置或其他处理装置的内部或片上存储装置中无法全部保存的数据。

在一些实施例里，本披露还公开了一种芯片(例如图13中示出的芯片1302)。在一种实现中，该芯片是一种系统级芯片(System on Chip，SoC)，并且集成有一个或多个如图12中所示的组合处理装置。该芯片可以通过对外接口装置(如图13中示出的对外接口装置1306)与其他相关部件相连接。该相关部件可以例如是摄像头、显示器、鼠标、键盘、网卡或wifi接口。在一些应用场景中，该芯片上可以集成有其他处理单元(例如视频编解码器)和/或接口模块(例如DRAM接口)等。在一些实施例中，本披露还公开了一种芯片封装结构，其包括了上述芯片。在一些实施例里，本披露还公开了一种板卡，其包括上述的芯片封装结构。下面将结合图13对该板卡进行详细地描述。

图13是示出根据本披露实施例的一种板卡1300的结构示意图。如图13中所示，该板卡包括用于存储数据的存储器件1304，其包括一个或多个存储单元1310。该存储器件可以通过例如总线等方式与控制器件1308和上文所述的芯片1302进行连接和数据传输。进一步，该板卡还包括对外接口装置1306，其配置用于芯片(或芯片封装结构中的芯片)与外部设备1312(例如服务器或计算机等)之间的数据中继或转接功能。例如，待处理的数据可以由外部设备通过对外接口装置传递至芯片。又例如，所述芯片的计算结果可以经由所述对外接口装置传送回外部设备。根据不同的应用场景，所述对外接口装置可以具有不同的接口形式，例如其可以采用标准PCIE接口等。

在一个或多个实施例中，本披露板卡中的控制器件可以配置用于对所述芯片的状态进行调控。为此，在一个应用场景中，该控制器件可以包括单片机(Micro ControllerUnit，MCU)，以用于对所述芯片的工作状态进行调控。

根据上述结合图12和图13的描述，本领域技术人员可以理解本披露也公开了一种电子设备或装置，其可以包括一个或多个上述板卡、一个或多个上述芯片和/或一个或多个上述组合处理装置。

根据不同的应用场景，本披露的电子设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、PC设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。本披露的电子设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。进一步，本披露的电子设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中，根据本披露方案的算力高的电子设备或装置可以应用于云端设备(例如云端服务器)，而功耗小的电子设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中，云端设备的硬件信息和终端设备和/或边缘端设备的硬件信息相互兼容，从而可以根据终端设备和/或边缘端设备的硬件信息，从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源，以便完成端云一体或云边端一体的统一管理、调度和协同工作。

需要说明的是，为了简明的目的，本披露将一些方法及其实施例表述为一系列的动作及其组合，但是本领域技术人员可以理解本披露的方案并不受所描述的动作的顺序限制。因此，依据本披露的公开或教导，本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步，本领域技术人员可以理解本披露所描述的实施例可以视为可选实施例，即其中所涉及的动作或模块对于本披露某个或某些方案的实现并不一定是必需的。另外，根据方案的不同，本披露对一些实施例的描述也各有侧重。鉴于此，本领域技术人员可以理解本披露某个实施例中没有详述的部分，也可以参见其他实施例的相关描述。

在具体实现方面，基于本披露的公开和教导，本领域技术人员可以理解本披露所公开的若干实施例也可以通过本文未公开的其他方式来实现。例如，就前文所述的电子设备或装置实施例中的各个单元来说，本文在考虑了逻辑功能的基础上对其进行划分，而实际实现时也可以有另外的划分方式。又例如，可以将多个单元或组件结合或者集成到另一个系统，或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言，前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中，前述的直接或间接耦合涉及利用接口的通信连接，其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。

在本披露中，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元示出的部件可以是或者也可以不是物理单元。前述部件或单元可以位于同一位置或者分布到多个网络单元上。另外，根据实际的需要，可以选择其中的部分或者全部单元来实现本披露实施例所述方案的目的。另外，在一些场景中，本披露实施例中的多个单元可以集成于一个单元中或者各个单元物理上单独存在。

在一些实现场景中，上述集成的单元可以采用软件程序模块的形式来实现。如果以软件程序模块的形式实现并作为独立的产品销售或使用时，所述集成的单元可以存储在计算机可读取存储器中。基于此，当本披露的方案以软件产品(例如计算机可读存储介质)的形式体现时，该软件产品可以存储在存储器中，其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本披露实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于U盘、闪存盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在另外一些实现场景中，上述集成的单元也可以采用硬件的形式实现，即为具体的硬件电路，其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件，而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此，本文所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现，例如CPU、GPU、FPGA、DSP和ASIC等。进一步，前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等)，其例如可以是可变电阻式存储器(Resistive Random Access Memory，RRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、增强动态随机存取存储器(Enhanced Dynamic Random Access Memory，EDRAM)、高带宽存储器(High Bandwidth Memory，HBM)、混合存储器立方体(Hybrid Memory Cube，HMC)、ROM和RAM等。

依据以下条款可更好地理解前述内容：

条款1、一种计算装置，包括控制电路和多个处理电路，其中：

所述控制电路配置成获取指令并对所述指令进行解析，并且将解析后的指令发送至所述多个处理电路中的一个或多个处理电路；以及

条款2、根据条款1所述的计算装置，其中在解析所述指令中，所述控制电路配置成：

获取所述指令中的指令标识信息；以及

根据所述指令标识信息将所述解析后的指令发送至所述多个处理电路中的一个或多个。

条款3、根据条款1所述的计算装置，其中在解析所述指令中，所述控制电路配置成：

对所述指令进行译码；以及

根据所述译码的结果以及所述多个处理电路的操作状态，将所述解析后的指令发送到所述多个处理电路中的一个或多个。

条款4、根据条款1所述的计算装置，其中所述多个处理电路被划分成多种类型的处理电路，以执行不同类型的数据处理。

条款5、根据条款1所述的计算装置，其中所述多个处理电路被划分成第一类型处理电路和第二类型处理电路，其中所述第一类型处理电路适于至少执行算术运算和逻辑运算中的至少一项，而所述第二类型处理电路适于至少执行比较运算和查表运算中的至少一项。

条款6、根据条款1所述的计算装置，其中所述多维阵列是二维阵列，并且位于所述二维阵列中的所述处理电路在其行方向、列方向或对角线方向的至少一个上以预定的二维间隔模式与同行、同列或同对角线的其余一个或多个所述处理电路连接。

条款7、根据条款6所述的计算装置，其中所述预定的二维间隔模式与所述连接中间隔的处理电路的数目相关联。

条款8、根据条款1所述的计算装置，其中所述多维阵列是由多个层构成的三维阵列，其中每个层包括沿行方向、列方向和对角线方向排列的多个所述处理电路的二维阵列，其中：

位于所述三维阵列中的所述处理电路在其行方向、列方向、对角线方向和层方向的至少一个上以预定的三维间隔模式与同行、同列、同对角线或不同层上的其余一个或多个处理电路连接。

条款9、根据条款8所述的计算装置，其中所述预定的三维间隔模式与待连接的处理电路之间的间隔数目和间隔层数相关联。

条款10、根据条款6-9的任意一项所述的计算装置，其中所述多个处理电路配置成通过逻辑连接来进行连接，以形成一个或多个闭合的环路。

条款11、根据条款10所述的计算装置，其中所述多个处理电路配置成根据解析后的指令来确定是否通过逻辑连接来进行连接，以形成一个或多个闭合的环路。

条款12、根据条款1所述的计算装置，其中多个所述处理电路配置成根据接收到的数据的位宽来形成至少一个处理电路组，以对数据进行处理。

条款13、根据条款12所述的计算装置，其中当形成多个所述处理电路组以对数据进行处理时，所述多个处理电路组根据解析后的指令来通过逻辑连接进行连接，以形成一个或多个闭合的环路。

条款14、根据条款1所述的计算装置，其中每个所述处理电路包括：

逻辑运算电路，其配置成在执行所述多线程操作时，根据所述解析后的指令和接收到的数据执行逻辑运算；以及

存储电路，其包括数据存储电路，其中所述数据存储电路配置成存储所述处理电路的运算数据与中间运算结果中的至少一项。

条款15、根据条款14所述的计算装置，其中所述存储电路还包括谓词存储电路，其中所述谓词存储电路配置成存储利用所述解析后的指令获取的每个所述处理电路的谓词存储电路序号和谓词信息。

条款16、根据条款15所述的计算装置，其中所述谓词存储电路还配置成：

根据所述解析后的指令对所述谓词信息进行更新；或者

根据每个所述处理电路的运算结果对所述谓词信息进行更新。

条款17、根据条款15所述的计算装置，其中每个所述处理电路配置成：

根据所述解析后的指令中的所述谓词存储电路序号来获取对应于所述谓词存储电路的所述谓词信息；以及

根据所述谓词信息来确定该所述处理电路是否执行所述解析后的指令。

条款18、根据条款1所述的计算装置，其中所述处理电路还包括算术运算电路，其配置成执行算术运算操作。

条款19、根据条款8所述的计算装置，还包括:

数据处置电路，其包括前处置电路和后处置电路中的至少一个，其中所述前处置电路配置成在所述处理电路执行运算前对运算数据进行预处理操作，并且所述后处置电路配置成在所述处理电路执行运算后对运算结果进行后处理操作。

条款20、根据条款19所述的计算装置，其中所述闭合的环路中的多个处理电路中的每个配置有各自的逻辑地址，所述前处置电路配置成根据运算数据的类型和逻辑地址，将所述运算数据进行相应的拆分并将拆分后获得的多个子数据分别传递至环路中对应的各个处理电路中以便运算。

条款21、根据条款19所述的计算装置，其中所述前处置电路还配置成根据解析后的指令从多种数据拼接模式中选择一种数据拼接模式，以对输入的两个数据执行拼接操作。

条款22、根据条款21所述的计算装置，其中所述后处置电路还配置成对数据执行压缩操作，所述压缩操作包括利用掩码对数据进行筛选或通过给定阈值与数据大小的比较来进行筛选。

条款23、根据条款1所述的计算装置，还包括：

主存储电路，所述主存储电路包括主存储模块和主缓存模块中的至少一个，其中所述主存储模块配置成存储用于处理电路中执行运算的数据与执行运算后的运算结果，并且所述主缓存模块配置成缓存所述处理电路中执行运算后的中间运算结果。

条款24、根据条款1-9或11-23的任意一项所述的计算装置，其中所述多个处理电路配置成以SIMT方式接收并执行所述解析后的指令。

条款25、一种集成电路芯片，包括根据条款1-24任意一项所述的计算装置。

条款26、一种板卡，包括根据条款25所述的集成电路芯片。

条款27、一种使用计算装置来执行运算操作的方法，其中所述计算装置包括控制电路和以一维或多维阵列结构连接的多个处理电路，所述方法包括：

条款28、根据条款27所述的方法，其中在解析所述指令中，所述方法利用所述控制电路来执行：

获取所述指令中的指令标识信息；以及

条款29、根据条款27所述的方法，其中在解析所述指令中，所述方法利用所述控制电路来执行：

对所述指令进行译码；以及

条款30、根据条款27所述的方法，包括将所述多个处理电路划分成多种类型的处理电路，以执行不同类型的数据处理。

条款31、根据条款27所述的方法，其中将所述多个处理电路划分成多种类型的处理电路包括将所述多个处理电路划分成第一类型处理电路和第二类型处理电路，其中所述第一类型处理电路适于至少执行算术运算和逻辑运算中的至少一项，而所述第二类型处理电路适于至少执行比较运算和查表运算中的至少一项。

条款32、根据条款27所述的方法，其中所述多维阵列是二维阵列，并且所述方法包括将位于所述二维阵列中的所述处理电路在其行方向、列方向或对角线方向的至少一个上以预定的二维间隔模式与同行、同列或同对角线的其余一个或多个所述处理电路进行连接。

条款33、根据条款32所述的方法，其中所述预定的二维间隔模式与所述连接中间隔的处理电路的数目相关联。

条款34、根据条款27所述的方法，其中所述多维阵列是由多个层构成的三维阵列，其中每个层包括沿行方向、列方向和对角线方向排列的多个所述处理电路的二维阵列，所述方法包括：

将位于所述三维阵列中的所述处理电路在其行方向、列方向、对角线方向和层方向的至少一个上以预定的三维间隔模式与同行、同列、同对角线或不同层上的其余一个或多个处理电路进行连接。

条款35、根据条款34所述的方法，其中所述预定的三维间隔模式与待连接的处理电路之间的间隔数目和间隔层数相关联。

条款36、根据条款32-35的任意一项所述的方法，其中包括将所述多个处理电路通过逻辑连接来进行连接，以形成一个或多个闭合的环路。

条款37、根据条款36所述的方法，其中所述方法包括根据解析后的指令来确定是否将所述多个处理电路通过逻辑连接来进行连接，以形成一个或多个闭合的环路。

条款38、根据条款27所述的方法，其中根据接收到的数据的位宽将多个所述处理电路配置成形成至少一个处理电路组，以对数据进行处理。

条款39、根据条款38所述的方法，其中当形成多个所述处理电路组以对数据进行处理时，所述方法包括根据解析后的指令将所述多个处理电路组通过逻辑连接进行连接，以形成一个或多个闭合的环路。

条款40、根据条款27所述的方法，其中每个所述处理电路包括逻辑运算电路和存储电路，其中所述存储电路包括数据存储电路，其中所述方法包括在执行所述多线程操作时，利用所述逻辑运算电路来根据所述解析后的指令和接收到的数据执行逻辑运算，并且利用所述数据存储电路来存储所述处理电路的运算数据与中间运算结果中的至少一项。

条款41、根据条款40所述的方法，其中所述存储电路还包括谓词存储电路，其中所述方法包括利用所述谓词存储电路来存储利用所述解析后的指令获取的每个所述处理电路的谓词存储电路序号和谓词信息。

条款42、根据条款41所述的方法，其中还包括利用所述谓词存储电路来执行以下步骤：

根据所述解析后的指令对所述谓词信息进行更新；或者

条款43、根据条款41所述的方法，其中还包括利用每个所述处理电路来执行以下步骤：

条款44、根据条款27所述的方法，其中所述处理电路还包括算术运算电路，所述方法包括利用所述算术运算电路来执行算术运算操作。

条款45、根据条款34所述的方法，其中所述计算装置还包括数据处置电路，其包括前处置电路和后处置电路中的至少一个，其中所述方法包括在所述处理电路执行运算前，利用所述前处置电路对运算数据进行预处理操作，以及在所述处理电路执行运算后，利用所述后处置电路对运算结果进行后处理操作。

条款46、根据条款45所述的方法，其中所述闭合的环路中的多个处理电路中的每个配置有各自的逻辑地址，所述方法包括利用所述前处置电路来根据运算数据的类型和逻辑地址，将所述运算数据进行相应的拆分并将拆分后获得的多个子数据分别传递至环路中对应的各个处理电路中以便运算。

条款47、根据条款45所述的方法，其中所述方法还包括利用所述前处置电路来根据解析后的指令从多种数据拼接模式中选择一种数据拼接模式，以对输入的两个数据执行拼接操作。

条款48、根据条款47所述的方法，其中所述方法还包括利用所述后处置电路来对数据执行压缩操作，所述压缩操作包括利用掩码对数据进行筛选或通过给定阈值与数据大小的比较来进行筛选。

条款49、根据条款27所述的方法，其中所述计算装置还包括：主存储电路，所述主存储电路包括主存储模块和主缓存模块中的至少一个，其中所述方法包括利用所述主存储模块来存储用于处理电路中执行运算的数据与执行运算后的运算结果，并且利用所述主缓存模块来缓存所述处理电路中执行运算后的中间运算结果。

条款50、根据条款27-49的任意一项所述的方法，其中所述方法包括利用所述多个处理电路来以SIMT方式接收并执行所述解析后的指令。

虽然本文已经示出和描述了本披露的多个实施例，但对于本领域技术人员显而易见的是，这样的实施例只是以示例的方式来提供。本领域技术人员可以在不偏离本披露思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本披露的过程中，可以采用对本文所描述的本披露实施例的各种替代方案。所附权利要求书旨在限定本披露的保护范围，并因此覆盖这些权利要求范围内的等同或替代方案。

Claims

1.一种计算装置，包括控制电路和多个处理电路，其中：

2.根据权利要求1所述的计算装置，其中在解析所述指令中，所述控制电路配置成：

获取所述指令中的指令标识信息；以及

根据所述指令标识信息将所述解析后的指令发送至所述多个处理电路中的一个或多个；

或者

在解析所述指令中，所述控制电路配置成：

对所述指令进行译码；以及

3.根据权利要求1所述的计算装置，其中所述多个处理电路被划分成多种类型的处理电路，以执行不同类型的数据处理。

4.根据权利要求1所述的计算装置，其中所述多个处理电路被划分成第一类型处理电路和第二类型处理电路，其中所述第一类型处理电路适于至少执行算术运算和逻辑运算中的至少一项，而所述第二类型处理电路适于至少执行比较运算和查表运算中的至少一项。

5.根据权利要求1所述的计算装置，其中所述多维阵列是二维阵列，并且位于所述二维阵列中的所述处理电路在其行方向、列方向或对角线方向的至少一个上以预定的二维间隔模式与同行、同列或同对角线的其余一个或多个所述处理电路连接，其中所述预定的二维间隔模式与所述连接中间隔的处理电路的数目相关联。

6.根据权利要求1所述的计算装置，其中所述多维阵列是由多个层构成的三维阵列，其中每个层包括沿行方向、列方向和对角线方向排列的多个所述处理电路的二维阵列，其中：

位于所述三维阵列中的所述处理电路在其行方向、列方向、对角线方向和层方向的至少一个上以预定的三维间隔模式与同行、同列、同对角线或不同层上的其余一个或多个处理电路连接，其中所述预定的三维间隔模式与待连接的处理电路之间的间隔数目和间隔层数相关联。

7.根据权利要求5或6所述的计算装置，其中所述多个处理电路配置成根据解析后的指定来确定是否通过逻辑连接来进行连接。

8.根据权利要求1所述的计算装置，其中多个所述处理电路配置成根据接收到的数据的位宽来形成至少一个处理电路组，以对数据进行处理。

9.根据权利要求8所述的计算装置，其中当形成多个所述处理电路组以对数据进行处理时，所述多个处理电路组根据解析后的指令来通过逻辑连接进行连接，以形成一个或多个闭合的环路。

10.根据权利要求1所述的计算装置，其中每个所述处理电路包括：

存储电路，其包括数据存储电路和谓词存储电路，其中所述数据存储电路配置成存储所述处理电路的运算数据与中间运算结果中的至少一项，并且所述谓词存储电路配置成存储利用所述解析后的指令获取的每个所述处理电路的谓词存储电路序号和谓词信息。

11.根据权利要求10所述的计算装置，其中所述谓词存储电路还配置成：

根据所述解析后的指令对所述谓词信息进行更新；或者

12.根据权利要求10所述的计算装置，其中每个所述处理电路配置成：

13.根据权利要求6所述的计算装置，还包括:

14.根据权利要求13所述的计算装置，其中所述闭合的环路中的多个处理电路中的每个配置有各自的逻辑地址，所述前处置电路配置成执行以下中的至少一项：

根据运算数据的类型和逻辑地址，将所述运算数据进行相应的拆分并将拆分后获得的多个子数据分别传递至环路中对应的各个处理电路中以便运算；以及

根据解析后的指令从多种数据拼接模式中选择一种数据拼接模式，以对输入的两个数据执行拼接操作。

15.根据权利要求14所述的计算装置，其中所述后处置电路还配置成对数据执行压缩操作，所述压缩操作包括利用掩码对数据进行筛选或通过给定阈值与数据大小的比较来进行筛选。

16.根据权利要求1-15的任意一项所述的计算装置，其中所述多个处理电路配置成以SIMT方式接收并执行所述解析后的指令。

17.一种集成电路芯片，包括根据权利要求1-16任意一项所述的计算装置。

18.一种板卡，包括根据权利要求17所述的集成电路芯片。

19.一种使用计算装置来执行计算操作的方法，其中所述计算装置包括控制电路和以一维或多维阵列结构连接的多个处理电路，所述方法包括：

20.根据权利要求19所述的方法，其中在解析所述指令中，所述方法利用所述控制电路来执行：

获取所述指令中的指令标识信息；以及

或者

在解析所述指令中，利用所述控制电路来执行：

对所述指令进行译码；以及

21.根据权利要求19所述的方法，包括将所述多个处理电路划分成多种类型的处理电路，以执行不同类型的数据处理。

22.根据权利要求19所述的方法，其中将所述多个处理电路划分成多种类型的处理电路包括将所述多个处理电路划分成第一类型处理电路和第二类型处理电路，其中所述第一类型处理电路适于至少执行算术运算和逻辑运算中的至少一项，而所述第二类型处理电路适于至少执行比较运算和查表运算中的至少一项。

23.根据权利要求19所述的方法，其中所述多维阵列是二维阵列，并且所述方法包括将位于所述二维阵列中的所述处理电路在其行方向、列方向或对角线方向的至少一个上以预定的二维间隔模式与同行、同列或同对角线的其余一个或多个所述处理电路进行连接，其中所述预定的二维间隔模式与所述连接中间隔的处理电路的数目相关联。

24.根据权利要求19所述的方法，其中所述多维阵列是由多个层构成的三维阵列，其中每个层包括沿行方向、列方向和对角线方向排列的多个所述处理电路的二维阵列，所述方法包括：

将位于所述三维阵列中的所述处理电路在其行方向、列方向、对角线方向和层方向的至少一个上以预定的三维间隔模式与同行、同列、同对角线或不同层上的其余一个或多个处理电路进行连接，其中所述预定的三维间隔模式与待连接的处理电路之间的间隔数目和间隔层数相关联。

25.根据权利要求23或24所述的方法，其中根据解析后的指定来确定是否将所述多个处理电路通过逻辑连接来进行连接。

26.根据权利要求19所述的方法，其中根据接收到的数据的位宽将多个所述处理电路形成至少一个处理电路组，以对数据进行处理。

27.根据权利要求26所述的方法，其中当形成多个所述处理电路组以对数据进行处理时，所述方法包括根据解析后的指令将所述多个处理电路组通过逻辑连接进行连接，以形成一个或多个闭合的环路。

28.根据权利要求19所述的方法，其中每个所述处理电路包括逻辑运算电路和存储电路，并且所述存储电路包括数据存储电路和谓词存储电路，所述方法包括在执行所述多线程操作时，利用所述逻辑运算电路来根据所述解析后的指令和接收到的数据执行逻辑运算，并且利用所述数据存储电路来存储所述处理电路的运算数据与中间运算结果中的至少一项，并且利用所述谓词存储电路来存储利用所述解析后的指令获取的每个所述处理电路的谓词存储电路序号和谓词信息。

29.根据权利要求28所述的方法，其中还包括利用所述谓词存储电路来执行以下步骤：

根据所述解析后的指令对所述谓词信息进行更新；或者

30.根据权利要求28所述的方法，其中还包括利用每个所述处理电路来执行以下步骤：

31.根据权利要求24所述的方法，其中所述计算装置还包括数据处置电路，其包括前处置电路和后处置电路中的至少一个，其中所述方法还包括在所述处理电路执行运算前，利用所述前处置电路对运算数据进行预处理操作，并且在所述处理电路执行运算后，利用所述后处置电路对运算结果进行后处理操作。

32.根据权利要求31所述的方法，包括对所述闭合的环路中的多个处理电路中的每个配置各自的逻辑地址，并且利用所述前处置电路来执行以下中的至少一项：

33.根据权利要求32所述的方法，其中还包括利用所述后处置电路来对数据执行压缩操作，所述压缩操作包括利用掩码对数据进行筛选或通过给定阈值与数据大小的比较来进行筛选。

34.根据权利要求19-33的任意一项所述的方法，其中包括利用所述多个处理电路以SIMT方式接收并执行所述解析后的指令。