CN118114728A

CN118114728A - 被配置为执行人工神经网络的集成电路

Info

Publication number: CN118114728A
Application number: CN202311408318.9A
Authority: CN
Inventors: V·海因里希; P·乌拉尔; B·帕耶
Original assignee: STMicroelectronics Grenoble 2 SAS; STMicroelectronics France SAS
Current assignee: STMicroelectronics Grenoble 2 SAS; STMicroelectronics France SAS
Priority date: 2022-10-28
Filing date: 2023-10-27
Publication date: 2024-05-31
Also published as: FR3141543A1; EP4361888A1; US20240143987A1

Abstract

本公开包括被配置为执行人工神经网络的集成电路。集成电路包括被配置为执行神经网络的计算机单元。神经网络的参数存储在第一存储器中。在神经网络的输入端提供的或由神经网络产生的数据被存储在第二存储器中。第一桶型移位器电路将数据从第二存储器发送到计算机单元。第二桶型移位器电路将在由计算机单元执行神经网络期间产生的数据递送到第二存储器。控制单元被配置为控制计算机单元、第一和第二桶型移位器电路，并且访问第一存储器和第二存储器。

Description

被配置为执行人工神经网络的集成电路

优先权要求

本申请要求于2022年10月28日提交的法国专利申请No.2211288的优先权，在法律允许的最大程度上通过引用将其全部内容并入本文。

技术领域

实施例和实现方式涉及人工神经网络。

背景技术

当被执行时，使用人工神经网络来执行数据功能。例如，神经网络的功能可以是分类。另一功能可以在于从在输入处接收的信号生成信号。

人工神经网络通常包括一系列神经层。

每层接收对其施加权重的输入数据，然后该层在由所述层的神经元的激活函数处理之后输出输出数据。该输出数据被发送到神经网络中的下一层。权重是可配置为获得良好输出数据的参数。

例如，神经网络可以由最终的硬件平台来实现，例如集成在连接对象或特定专用电路中的微控制器。

通常，神经网络在被集成到最终硬件平台之前在学习阶段期间被训练。学习阶段可以被监督或不监督。学习阶段允许对神经网络的权重进行调整以获得神经网络的良好输出数据。为此，可以通过将参考数据库的已分类数据作为输入来执行神经网络。与预期数据相比，将权重调整为在神经网络的输出处获得的数据的函数。

由集成电路驱动的神经网络的执行需要处理大量的数据。

这种对数据的处理可能导致相当大的能量消耗，特别是当集成电路应当在写入或读取中执行许多存储器访问时。

因此，用于实现神经网络的这些集成电路通常是能量密集的，并且具有复杂和庞大的结构。此外，这些集成电路在神经网络执行的并行化方面几乎没有灵活性。

因此，需要提供一种集成电路，其允许快速执行神经网络，同时减少执行人工神经网络所需的能量消耗。还需要提供这样一种集成电路，其具有简单的结构以便减小其尺寸。

发明内容

根据一个方面，提供了一种集成电路，包括：第一存储器，被配置为存储要执行的神经网络的参数；第二存储器，被配置为存储在所述神经网络的输入处提供的、要由所述神经网络执行或生成的数据；计算机单元，被配置为执行所述神经网络；第一桶型移位器电路，在所述第二存储器的输出与所述计算机单元之间，所述第一桶型移位器电路被配置为将所述数据从所述第二存储器的输出递送到所述计算机单元；第二桶型移位器电路，在所述计算机单元与所述第二存储器之间，所述第二桶型移位器电路被配置为递送在由所述计算机单元执行所述神经网络期间生成的数据；以及控制单元，被配置为控制所述计算机单元以及所述第一桶型移位器电路和第二桶型移位器电路。

这种集成电路具有集成存储器的优点，所述存储器用于存储神经网络的参数(这些参数包括神经网络的权重以及其拓扑，即层的数量和类型)，神经网络的输入数据以及在神经网络的不同层的输出处生成的数据。因此，存储器可以由集成电路的计算机单元直接访问，并且不通过总线共享。因此，这种集成电路允许减小第一存储器的参数和第二存储器的数据的位移。这使得人工神经网络的执行更快。

使用存储器来存储神经网络的参数允许电路对要执行的任务的适应性(权重以及神经网络的拓扑是可编程的)。

此外，桶形移位器电路的使用使得能够对数据进行能量有效的处理。特别地，当计算机单元执行神经网络需要这些数据时，第一桶型移位器电路允许简单地读取存储在第二存储器中的数据。第二桶型移位器电路允许简单地在第二存储器中写入在神经网络执行期间由计算机单元产生的数据。桶形移位器电路的大小使得，对于神经网络的执行，一旦这些最后的数据对于神经网络的执行不再有用，就可以将有用的数据写入这些电路中。

可以在集成电路的每个时钟脉冲处访问放置在集成电路的存储器中的数据和权重。

这种集成电路具有简单、紧凑和节能的结构，特别是由于使用桶形移位器电路而不是使用纵横互连电路(也称为“纵横开关”)。

在有利的实施例中，计算机单元包括被配置为并行化神经网络的执行的处理元件库(bank)，第一桶型移位器电路被配置为将数据从第二存储器发送到不同的处理元件。

这种集成电路使得能够在神经网络执行期间并行化操作。

优选地，所述集成电路还包括第一多路复用器级，所述第一桶型移位器电路经由所述第一多路复用器级连接到所述第二存储器，所述第一多路复用器级被配置为将来自存储在所述第二存储器中的数据的数据向量递送到所述第一桶型移位器电路，所述第一桶型移位器电路被配置为移位所述第一多路复用器级的数据向量。

优选地，所述集成电路还包括第二多路复用器级，所述计算机单元经由所述第二多路复用器级连接到所述第一桶型移位器电路，所述第二多路复用器级被配置为将由所述第一桶型移位器电路移位的数据向量传递到所述计算机单元。

在有利的实施例中，所述集成电路还包括缓冲存储器，所述第二桶型移位器电路经由所述缓冲存储器连接到所述计算机单元，所述缓冲存储器被配置为在所述第二桶型移位器电路将由所述计算机单元生成的数据递送到所述第二存储器之前，临时存储所述数据。例如，该缓冲存储器可以包括硬件存储器或临时存储元件(触发器)。

优选地，集成电路还包括在缓冲存储器和第二桶型移位器电路之间的修剪级，该修剪级被配置由计算机单元产生的数据中的数据，特别是无用数据。

有利地，第二存储器被配置为存储在神经网络的输入处提供的要由该神经网络执行或生成的数据矩阵，每个数据矩阵可以具有若干数据信道，每个数据矩阵的数据在第二存储器中被一起分组为至少一个数据组，数据组被存储在第二存储器的不同库中，每个数据组的数据旨在由计算机单元的不同处理元件并行处理。

例如，数据矩阵可以是在神经网络的输入处接收的图像。然后，数据的位置对应于图像的像素。数据矩阵还可以对应于由计算机单元执行神经网络的层而生成的特征图(也称为“特征图”和“激活图”)。

在集成电路的第一存储器和第二存储器中存储器和第二存储器中的放置使得能够在集成电路的每个时钟脉冲处访问执行神经网络所需的数据。

在有利的实施例中，数据矩阵的每个数据组包括用于数据矩阵的至少一个信道的数据矩阵的至少一个位置的数据。

因此，这种集成电路适于在宽度(在数据矩阵中数据的不同位置上)和深度(在数据矩阵的不同信道上)上并行化神经网络的执行。特别地，计算机单元可以包括处理元件库，其被配置为在宽度和深度上并行化神经网络的执行。

根据另一方面，提供了一种包括如上所述的集成电路的片上系统。

这种片上系统具有能够通过单独使用集成电路来执行人工神经网络的优点。因此，这样的片上系统不需要用于执行神经网络的片上系统的微控制器的任何干预。这种片上系统也不需要使用片上系统的公共总线来执行神经网络。因此，可以更快速、更简单地执行人工神经网络，同时减少执行人工神经网络所需的能量消耗。

附图说明

通过研究实施例的详细描述和附图，本发明的其它优点和特征将变得显而易见，所述实施例决不是限制性的，其中：

图1示出了片上系统的实施例；

在图2中示出了用于实现神经网络的集成电路的实施例；以及

图3示出了存储器的布置的实施例。

具体实施方式

图1示出了片上系统SOC的实施例。片上系统通常包括微控制器MCU，数据存储器Dat_MEM，至少一个代码存储器C_MEM，时间测量电路TMRS(“定时器”)，通用输入输出端口GPIO和通信端口I2C。

片上系统SOC还包括用于实现人工神经网络的集成电路NNA。这种集成电路NNA也可以被称为“神经网络加速电路”。

片上系统SOC还包括允许互连片上系统SOC的不同元件的总线。

图2示出了用于实现神经网络的集成电路NNA的实施例。

该集成电路NNA包括计算机单元PEBK。计算机单元PEBK包括至少一个处理单元PE的库。优选地，计算机单元PEBK包括在库中的若干处理元件PE#0，PE#1，……，PE#N－1。每个处理单元PE被配置为执行用于神经网络执行的基本操作。例如，每个处理元件PE被配置为执行神经网络的激活函数的卷积、合并、缩放基本操作。

集成电路NNA还包括第一存储器WMEM，其被配置为存储要执行的神经网络的参数，特别是权重和神经网络的配置(特别是其拓扑)。第一存储器WMEM被配置为从片上系统的数据存储器Dat_MEM接收要在实现神经网络之前执行的神经网络的参数。第一存储器WMEM可以是易失性存储器。

集成电路还包括具有连接到第一存储器WMEM的输出的输入的移位级SMUX。因此，移位级SMUX被配置为接收存储在第一存储器WMEM中的要执行的神经网络的参数。移位级SMUX还包括连接到计算机单元PEBK的输入的输出。以这种方式，计算机单元PEBK被配置为接收神经网络的参数以便能够执行它。特别地，移位级SMUX被配置为选择存储器中的权重和配置数据，以将它们传递到计算机单元PEBK，并且更特别地传递到不同的处理元件PE。

集成电路NNA还包括第二存储器DMEM，该第二存储器DMEM被配置为存储提供给神经网络的数据，该数据将在由计算机单元PEBK执行神经网络期间执行或产生。因此，例如，数据可以是神经网络的输入数据或在神经网络的不同层的输出处生成的数据(也称为“激活”)。第二存储器DMEM可以是易失性存储器。

集成电路NNA还包括第一多路复用器级MUX1。第一多路复用器级MUX1包括连接到第二存储器DMEM的输入。第一多路复用器级MUX1被配置为从存储在第二存储器DMEM中的数据传递数据向量。

集成电路NNA还包括第一桶型移位器电路BS1(也称为“桶型移位器”)。第一桶型移位器电路BS1具有连接到第一多路复用器级MUX1的输出的输入。因此，第一桶型移位器电路MUX1被配置为能够接收由第一多路复用器级MUX1传输的数据。第一桶型移位器电路BS1被配置为移位第一多路复用器级MUX1的数据向量。第一桶型移位器电路MUX1具有被配置为递送该第一桶型移位器电路BS1的数据的输出。

集成电路NNA还包括第二多路复用器级MUX2。该第二多路复用器级MUX2具有连接到第一桶型移位器电路BS1的输出的输入。第二多路复用器级MUX2还包括连接到计算机单元PEBK的输入的输出。因此，计算机单元PEBK被配置为接收第一桶型移位器电路BS1的数据。第二多路复用器级MUX2被配置为将由第一桶型移位器电路BS1移位的数据向量传递到计算机单元PEBK，以便将数据向量的数据传输到不同的处理元件PE。

集成电路NNA还包括在计算机单元PEBK的输出处的缓冲存储器WB(“缓冲器”)。因此，缓冲存储器WB包括连接到计算机单元PEBK的输出的输入。因此，缓冲存储器WB被配置为接收由计算机单元PEBK计算的数据。特别地，缓冲存储器WB可以是允许存储单个数据字的存储元件。

集成电路NNA还包括修剪级PS。修剪级PS包括连接到缓冲存储器WB的输出的输入。该修剪级PS被配置为删除由计算机单元PEBK递送的无用数据。修剪级WB被配置为删除由计算机单元PEBK生成的一些无用数据。特别地，当神经网络的执行具有大于1的步幅时，由计算机单元PEBK生成的数据是无用的。

集成电路NNA还包括第二桶型移位器电路BS2。第二桶型移位器电路BS2具有连接到修剪级PS的输出的输入。第二桶型移位器电路BS2具有连接到第二存储器DMEM的输入的输出。第二桶型移位器电路BS2被配置为在将由修剪级PS传递的数据向量存储在第二存储器DMEM中之前对其进行移位。

集成电路NNA还包括控制单元CTRL，其被配置为控制集成电路NNA的不同元件，即移位级SMUX，第一多路复用器级MUX1，第一桶型移位器电路BS1，第二多路复用器级MUX2，计算机单元PEBK，缓冲存储器WB，修剪级PS，第二桶型移位器电路BS2以及对第一存储器WMEM和第二存储器DMEM的访问。特别地，控制单元CTRL不访问第一存储器WMEM和第二存储器DMEM的有用数据。

图3示出了第二存储器DMEM的布置的实施例。存储器DMEM包括若干数据库。本文的存储器DMEM包括三个数据库。库的数量大于或等于计算机单元的处理元件在宽度上的并行化容量(即，在数据矩阵的同一信道的多个位置上的并行化)。每个库在具有预定数量的行和列的表中表示。存储器在此被配置为记录具有若干信道的数据矩阵(例如图像或特征图)的数据。矩阵的数据存储在存储器DMEM的不同库中。本文的数据矩阵具有四行，五列和十个信道。矩阵的每个数据段具有一个值其中c的范围从0到9，并且表示矩阵的该数据段的信道，x和y表示该数据段在矩阵中的位置，x的范围从0到3，并且对应于矩阵的行，y的范围从0到4，并且对应于矩阵的列。

矩阵的数据成组存储在存储器DMEM的不同库中。特别地，数据矩阵的每个数据组包括数据矩阵的至少一个位置的数据和数据矩阵的至少一个信道的数据。根据由计算机单元执行的神经网络的深度上的并行化能力(即，在矩阵的给定数量的信道上的并行化)来定义每个组的数据的最大数量。

处理元件PEKB的数量对应于用于执行神经网络的最大并行化，即，宽度的并行化乘以数据的不同信道上的并行化。因此，处理元件PE的数量可以等于存储器DMEM的库的数量乘以存储器DMEM的每个库的信道的数量。通常，这种最大并行化并不是在神经网络的执行过程中一直使用的，特别是因为在神经网络的深度中层的尺寸减小。

这些组是根据计算机单元在宽度和深度上的并行化能力形成的。例如，组G0包括库BC0中的数据到/>组G1包括库BC1中的数据/>到/>组G2包括库BC2中的数据/>到/>

更具体地，在矩阵中具有相同位置的矩阵的不同信道的数据被存储在相同库的相同行上。如果信道数大于库的列数，则不可能在库的同一行上进行存储，因此在同一组中，不同信道的所有数据在矩阵中具有相同的位置。然后将剩余数据存储在每个库末端的空闲行中。例如，组G0的数据到/>存储在库BC0的行#0上，而数据/>和/>存储在库BC2的行#6中。

第一桶型移位器电路的输入数目等于存储器DMEM的库数目，第二桶型移位器电路的输出数目等于存储器DMEM的库数目。以此方式，第一桶型移位器电路被配置为接收不同库的数据。

桶形移位器电路BS1和BS2的使用允许对数据进行能量有效的处理。实际上，当计算机单元执行神经网络需要这些数据时，第一桶型移位器电路允许简单地读取存储在第二存储器中的数据。反过来，第二桶型移位器电路允许在神经网络执行期间简单地在第二存储器中写入由计算机单元产生的数据。桶形移位器电路的大小使得，对于神经网络的执行，一旦这些最后的数据对于神经网络的执行不再有用，就可以将有用的数据写入这些电路中。

因此，存储器中矩阵数据的这种布置允许使用第一桶型移位器电路和第二桶型移位器电路简化数据处理。此外，存储器中矩阵数据的这种布置使得能够在读和写时简单地访问存储器DMEM。

Claims

1.一种集成电路，包括：

计算机单元，被配置为执行神经网络；

第一存储器，被配置为存储要执行的所述神经网络的参数；

第二存储器，被配置为存储在所述计算机单元的输入处提供的将由所述神经网络执行或生成的数据；

第一桶型移位器电路，在所述第二存储器的输出与所述计算机单元的输入之间，所述第一桶型移位器电路被配置为将所述数据从所述第二存储器的输出传输到计算机单元；

第二桶型移位器电路，在所述计算机单元的输出与所述第二存储器之间，所述第二桶型移位器电路被配置为递送在所述神经网络的所述执行期间生成的数据；以及

控制单元，被配置为控制所述计算机单元、所述第一桶型移位器电路和所述第二桶型移位器电路以及对所述第一存储器和所述第二存储器的访问。

2.根据权利要求1所述的集成电路，其中所述计算机单元包括处理元件库，所述处理元件库被配置为并行化所述神经网络的执行，并且其中所述第一桶型移位器电路被配置为将所述数据从所述第二存储器传输到不同的处理元件。

3.根据权利要求1所述的集成电路，进一步包括第一多路复用器级，其中所述第一桶型移位器电路的输入经由所述第一多路复用器级被连接到所述第二存储器，并且其中所述第一多路复用器级被配置为将来自存储在所述第二存储器中的所述数据的数据向量传递到所述第一桶型移位器电路，所述第一桶型移位器电路被配置为移位所述第一多路复用器级的所述数据向量。

4.根据权利要求3所述的集成电路，还包括第二多路复用器级，其中所述计算机单元的所述输入经由所述第二多路复用器级被连接到所述第一桶型移位器电路，并且其中所述第二多路复用器级被配置为将由所述第一桶型移位器电路移位的所述数据传递到所述计算机单元。

5.根据权利要求1所述的集成电路，还包括缓冲存储器，其中所述第二桶型移位器电路经由所述缓冲存储器被连接到所述计算机单元，并且其中所述缓冲存储器被配置为在所述第二桶型移位器电路将所述数据递送到所述第二存储器之前，临时存储在所述神经网络的所述执行期间由所述计算机单元生成的所述数据。

6.根据权利要求5所述的集成电路，进一步包括修剪级，所述修剪级在所述缓冲存储器与所述第二桶型移位器电路之间，其中所述修剪级被配置为删除由所述计算机单元生成的所述数据中的一些数据。

7.根据权利要求1所述的集成电路，其中所述第二存储器被配置为存储在所述计算机单元的输入处提供的将由所述计算机单元执行或产生的数据矩阵，其中每个数据矩阵具有若干数据信道，每个数据矩阵的所述数据在所述第二存储器中被一起分组在至少一个数据群组中，所述数据群组被存储在所述第二存储器的不同库中，每个数据群组的所述数据被配置为由所述计算机单元的不同的处理元件并行处理。

8.根据权利要求7所述的集成电路，其中数据矩阵的每个数据群组包括用于所述数据矩阵的至少一个信道的所述数据矩阵的至少一个位置的数据。

9.一种片上系统，包括根据权利要求1所述的集成电路。

10.一种集成电路，包括：

计算机单元，具有第一输入、第二输入和输出；

第一存储器，被配置为存储第一数据；

第二存储器，被配置为存储施加到所述计算机单元的所述第二输入的第二数据；

第一桶型移位器单元，具有被配置为从所述第一存储器接收第一数据的输入和被配置为将桶型移位的第一数据递送到所述计算机单元的所述第一输入的输出；

第二桶型移位器单元，具有被配置为从所述计算机单元的输出接收输出数据的输入以及被配置为递送桶型移位的输出数据以便存储在所述第一存储器中的输出；以及

控制电路，被配置为控制所述计算机单元的执行操作，所述第一桶型移位器单元和所述第二桶型移位器单元的桶型移位操作以及所述第一存储器和所述第二存储器的读/写操作。

11.根据权利要求10所述的集成电路，其中所述第一数据包括用于由所述计算机网络执行的神经网络过程的输入数据，并且所述第二数据包括用于配置所述神经网络过程的参数数据。

12.根据权利要求10所述的集成电路，进一步包括修剪电路，所述修剪电路耦合在所述计算机单元的所述输出与所述第二桶型移位器单元的所述输入之间，所述修剪电路被配置为从所述输出数据修剪无用数据。

13.根据权利要求10所述的集成电路，还包括缓冲电路，所述缓冲电路耦合在所述计算机单元的所述输出与所述第二桶型移位器单元的所述输入之间，所述缓冲电路被配置为缓冲存储所述输出数据。

14.根据权利要求10所述的集成电路，其中所述计算机单元包括并行执行的多个处理单元。

15.根据权利要求14所述的集成电路，进一步包括移位电路，所述移位电路被配置为从所述第二存储器移位第二数据以应用于所述处理单元中的处理单元。

16.根据权利要求10所述的集成电路，其中所述第一数据包括第一数据向量，并且进一步包括：

第一多路复用电路，具有被配置为接收所述第一数据向量的输入和耦合到所述第一桶型移位器单元的所述输入的输出，并且被配置为生成用于输入到所述第一桶型移位器单元的移位数据向量；以及

第二多路复用电路，具有耦合到所述第一桶型移位器单元的所述输出的输入和被配置为生成用于输入到所述计算机单元的第二数据向量的输出。

17.根据权利要求16所述的集成电路，其中所述计算机单元包括多个处理单元，所述多个处理单元并行执行并且被配置为接收所述第二数据向量。