CN117474061B

CN117474061B - 一种抗辐射低延迟神经网络推理加速芯片

Info

Publication number: CN117474061B
Application number: CN202311798002.5A
Authority: CN
Inventors: 肖乐; 张国香; 周子杰; 代文杰; 孙向明; 游必辉
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-03-19
Anticipated expiration: 2043-12-26
Also published as: CN117474061A

Abstract

本发明提供了一种抗辐射低延迟神经网络推理加速芯片，涉及对撞机技术领域，包括以下步骤：在探测器前端部署神经网络推理加速芯片，采用流式架构，将每级流水线对应于每个主要的神经网络层，平衡有限的片上内存资源和对大尺寸输入的支持，并构建层并行、通道并行和卷积核并行；本发明提出了在探测器前端部署抗辐射、低延迟、高效的卷积神经网络推理加速芯片，来提高未来探测器硬件的智能化水平，并为此提出了基于细粒度的流式架构、细粒度的存储管理、灵活的压缩和量化，以及抗辐射数字芯片设计技术，在实现抗辐射、低延迟推理的同时，实现高吞吐量和低片上内存消耗，使下一代新型智能探测器可以在前端实施基于神经网络算法的实时分析触发。

Description

一种抗辐射低延迟神经网络推理加速芯片

技术领域

本发明涉及对撞机技术领域，尤其涉及一种抗辐射低延迟神经网络推理加速芯片。

背景技术

近年来，人工智能，特别是深度学习正在彻底改变我们解释对撞机产生的庞大数据样本的方式，极大地增加了当前和未来实验的发现潜力，粒子物理学中的传统方法，涉及使用领域专业知识来设计工具，以提取对给定测量最有用的数据特征，当这些人工设计的工具用于提取未能完全捕捉特征的复杂问题时，会丢失信息，这可能阻碍对新物理的搜索，正如在计算机视觉和自然语言处理领域一样，粒子物理领域也越来越努力跳过特征工程步骤，转而使用完整的高维特征空间来训练深度神经网络（DNN），特别是卷积神经网络（CNN），作为一种强大的DNN在多个领域取得了超人的表现，CNN的灵感来自动物视觉皮层，其中单个神经元仅处理来自部分视野的信息，这种“分而治之”的策略简化了神经网络架构，并有助于实现平移和旋转不变性等功能，CNN算法已经是离线分析中粒子识别、喷注标记、堆积抑制、径迹重建、事件和碰撞分类、新物理异常检测等应用的最先进技术，同样的，一些研究开始将神经网络算法从离线分析向在线触发转移，一方面，传统触发和重建算法在高堆积条件下不仅显著放缓，而且性能下降，神经网络可能是执行实时高效重建的唯一希望，另一方面，触发器中更复杂的神经网络算法将允许高能物理实验保留原本不会被选择的罕见事件，同时满足不可逆决策系统的严格鲁棒性要求，通常GPU是处理神经网络的标准工具，因为它们能够同时执行大量浮点运算，也出现了一些以较低的功耗执行推理加速的芯片，如英伟达的NVDLA ，谷歌的TPU，寒武纪的Cambricon 等，它们都采用了单计算引擎架构，这种架构包括一个强大的计算引擎，通常以处理元件（PE）的脉动阵列或矩阵乘法单元的形式，按顺序执行CNN层，网络中的层通过CPU的软件控制分时复用计算引擎来完成推理，这种设计通用性强、灵活性高，但由于类似于处理器的控制机制，牺牲了效率，也有一些基于FPGA的神经网络加速器采用了这种架构，如Angel-Eye 、DNNWeaver 等，另外一些采用了流式架构，如fpgaConvNet 、HADDOC2等，流式架构通常由目标CNN的每一层的不同硬件块组成，其中每个块分别进行优化，然后将所有块都连接起来形成流水线，当数据在架构中流动时，数据通过神经网络的不同部分进行处理，虽然这些加速器有的可以实现非常高的吞吐量，但由于面向的应用不同，没有实现粒子物理所独有的亚微秒推理延迟需求；

为了在高能物理在线触发领域应用低延迟推理，有了在FPGA上采用流式架构部署低延迟CNN的早期尝试，也开发了HLS4ML编译器，以神经网络模型作为输入，然后产生C/C++代码，再通过Vivado HLS高级综合工具，将其转译为xilinx FPGA固件，进一步扩展了HLS4ML，采用流式架构支持CNN的FPGA低延迟部署，然而由于使用了高级综合工具，HLS4ML无法深度优化设计细节来降低推理延迟，转而将包括权重在内的整个神经网络进行片上部署，通过避免和片外存储的数据传输产生的延迟开销，来减少总体推理延迟，这种方法限制了HLS4ML可以支持的模型大小和复杂性，并且基于FPGA的推理加速器和商用推理加速芯片均无法在探测器前端的辐射环境下运行，因此，本发明提出一种抗辐射低延迟神经网络推理加速芯片以解决现有技术中存在的问题。

发明内容

针对上述问题，本发明提出一种抗辐射低延迟神经网络推理加速芯片，该一种抗辐射低延迟神经网络推理加速芯片提出在高能、高亮度粒子物理实验探测器前端，通过部署抗辐射、低延迟神经网络推理加速芯片来提升探测器的智能化水平，为未来高性能、低成本新型探测器架构的探索开启新的可能性。

为实现本发明的目的，本发明通过以下技术方案实现：一种抗辐射低延迟神经网络推理加速芯片，包括：

若干依次连接的流式架构单元：用于实现不同的神经网络层的计算；

以及外部存储单元：用于存储整个神经网络的权重。

进一步的，每个流式架构单元包括：

整形缓存：用于存储输入特征图切片或者前级神经网络层输出的特征图切片；

神经网络子单元：用于实现计算引擎阵列，可以完成卷积层或全连接层的并行计算。卷积层和全连接层使用相同的循环结构，因此使用相同的并行计算策略；

权重缓存：与外部存储单元连接，用于从外部存储器中抽取计算当前特征图切片所需的权重。

进一步的，流式架构消耗三种类型的资源：计算资源、片上存储器和外部存储器，该架构具备有两个数据路径，一个路径用于将输入特征图横向传递给计算单元，另一个路径将权重纵向传递给计算单元。

进一步的，神经网络子单元包括：

多个并行的计算引擎：实现卷积计算或者全连接计算的并行加速。每个计算引擎的输入数据来自前文所述的特征图切片和权重。

进一步的，并行计算时，并行性来自于6个维度，具体包括：

批并行性同时将多帧图像分组为批，以重用每一层中的权重，并最小化外部内存访问；

层并行性通过在结束N层的执行之前启动N+1层以流水线方式执行，并对主要的层实施并行化，其余的层合并到主要层，减少流水线的级数来降低延迟，实现参数化的RTL设计。

卷积层4个级别循环计算的展开则提供了另外4个并发源，全连接计算的循环展开与此类似。卷积核循环Loop-4、输入通道循环Loop-3、沿输入宽、高维度扫描操作的循环Loop-2和卷积核窗口内乘法累加操作的循环Loop-1。为了减少计算资源的开销，可以并行展开卷积层外两层的计算循环，即卷积核循环Loop-4和输入通道循环Loop-3。这是因为内两层循环的展开需要为每一个流水线阶段缓存完整的特征图，不仅会导致片上缓存的增大，还会使每一级流水线的延迟增大。而外两层计算循环的展开仅需缓存输入特征图的切片就可以启动流水线开始卷积运算。

卷积核并行是从权重中一次取多个卷积核，与特征图进行并行计算。

输入通道并行是从输入特征图中一次取多个数据通道，与卷积核进行并行计算。

进一步的，卷积层外两层即卷积核循环Loop-4和输入通道循环Loop-3的并行展开，为此定义两个参数，卷积核并行度因子KPF和通道并行度因子CPF，分别表示在流水线级内处理的卷积核的数量和输入通道的数量，由此使计算引擎阵列实现二维并行方案，并调整每个流水线阶段的资源开销，其中，计算引擎阵列由多个计算引擎构成，每个计算引擎用于处理有CPF个通道的输入特征图，计算引擎阵列中计算引擎的数目由KPF决定，将计算引擎以硬件为中心、自下而上，构建高性能、低开销的参数化RTL级IP，基于IP构建神经网络层，判断不同CPF和KPF对推理延迟、吞吐量、硬件开销的影响。

进一步的，基于细粒度列的缓存方法具体包括：

在芯片上保留部分输入特征图，在开始计算之前至少缓存两“列”；以一个卷积核大小为3，步长为1的卷积运算为例，如图3所示：由于切片1~3被用于第一个滑动窗口操作（从上到下），我们将前三个切片命名为第1列。类似地，列2表示第二个滑动窗口操作的数据，因此切片2~4构成第2列。

卷积核在完成第一个垂直滑动窗口操作之后可以立即执行第二个垂直滑动窗口操作；

随后，下一个切片将在释放第一个切片占用的空间后开始缓存以形成下一“列”，整形缓存区所需的大小等于两“列”的大小，由此，以细粒度列方式缓存切片以节省片上内存，还能提高计算通信比CTC低的层的性能。

进一步的，自适应分层存储方法具体包括：在计算密集型IP阵列和外部存储器之间插入缓存区。权重缓冲器用于连续缓存DRAM中的权重，此外，在每个层的输入端提供可选的乒乓缓存，一旦所需的权重超过某个阈值，就会生成乒乓缓存。

进一步的，网络压缩采用参数剪枝、低秩分解、紧凑卷积滤波器和知识蒸馏联合方式，参数剪枝基于特定的排序和正则化选择性地去除参数，具体为基于幅度的剪枝，包括通过将张量中最小权重的值设置为零来消除权重张量中的冗余权重；低秩分解为使用矩阵分解来估计信息参数；紧凑卷积滤波器指用特殊结构卷积滤波器保存参数；知识蒸馏指使用大网络提炼的知识训练紧凑网络。

进一步的，还包括网络量化，用于将每层的输入、权重、偏置、总和以及输出均从浮点转移到定点，减少位宽，使用定点运算降低实现复杂度，节省用于信号路由的资源以及用于数学运算的资源和延迟；网络量化具体包括：训练后量化PTQ和量化感知训练QAT，训练后量化PTQ为：训练好的网络在部署到推理加速器之前再量化，用于对整个网络应用相同的量化，或者设置每层和每种参数类型的精度，即异构量化；量化感知训练QAT：用于在降低网络组件数值精度的同时限制性能损失，前向传递的训练期间使用量化的权重和偏置，而在反向传递中使用全精度，以在损失最小化过程中向最佳点漂移。

进一步的，在芯片实现中加入抗辐照设计。分别对辐射的总剂量效应TID和单粒子效应SEE采取措施的抗辐射模块，包括：

TID缓解子模块：采用先进节点的CMOS工艺。65 nm CMOS工艺库中所有标准单元的平均时间延迟在200 Mrad照射后增加。因此，除了采用先进节点的CMOS工艺之外，在芯片实现时应避免使用最小尺寸标准单元。使用代工厂提供的最坏情况库来模拟辐射损伤产生的影响。并使用并发多模式多工艺角静态时序分析来确保时序性能，预留更大的时序裕度。

SEE缓解子模块：缓解SEE子模块是芯片实现中的一个关键步骤，以在探测器前端辐射环境中实现有效性能。三模冗余TMR是一种保护数字电路免受SEE不良影响的著名技术。我们将使用两种不同的TMR实现：简单TMR模块，具有三重寄存器和多数表决器；以及完全的TMR模块，模块内的所有组合逻辑都是三重的，由三个多数表决器使用，并形成三重寄存器的输入，来自寄存器输出的反馈可实现自动更正。状态会定时刷新的控制路径，以及周期性到达芯片的输入数据不需要自动更正功能，以减少硬件开销，而一旦配置或加载后，长时间不会刷新的关键数据则使用自动更正功能来确保由于单粒子翻转而导致的寄存器错误不会随时间累积。

本发明的有益效果为：

1、本发明提出了在探测器前端部署抗辐射、低延迟、高效的卷积神经网络推理加速芯片，来提高未来探测器硬件的智能化水平，采用以硬件为中心、自下而上的方法，精细控制推理加速芯片的设计，并为此提出了基于细粒度的流式架构、细粒度的存储管理、灵活的压缩和量化，以及抗辐射数字芯片设计技术，在实现抗辐射、低延迟推理的同时，实现高吞吐量和低片上内存消耗，使下一代新型智能探测器可以在前端实施基于神经网络算法的实时分析触发，不仅可以提高寻找新物理特征的能力，还将带来探测器成本、功耗、物质量的降低，并为未来新型低成本、高性能探测器架构的探索开启广泛的可能性，为抗辐射、低延迟神经网络推理加速芯片的核心技术、前沿技术积累宝贵经验。

附图说明

图1为本发明的顶层架构中两个流水线级的示意图；

图2为本发明的计算引擎并行展开示例图；

图3为本发明的基于列的缓存方案示意图；

图4a为本发明的简单的TMR模块示意图；

图4b为本发明的完全的TMR模块示意图。

具体实施方式

为了加深对本发明的理解，下面将结合实施例对本发明做进一步详述，本实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

实施例1

本实施例提出了一种抗辐射低延迟神经网络推理加速芯片，包括以下步骤：

在探测器前端部署神经网络推理加速芯片，采用流式架构，将每级流水线对应于每个主要的神经网络层，平衡有限的片上内存资源和对大尺寸输入的支持，并构建批并行和层并行，通过提高并行性来提高吞吐量；

以卷积层和全连接层中相同的循环结构，来抽象为一个计算引擎，以卷积层外两层来计算循环的展开，定义卷积核并行度因子KPF和通道并行度因子CPF，综合低延迟和低硬件开销，实现卷积核并行和通道并行的二维并行方案；

对存储进行管理，采用基于列的缓存方案和自适应分层存储系统两种技术，以减少用来保存输入特征图和缓存权重数据的片上内存，即提高存储利用效率；

使用网络压缩来减少深度神经网络的操作次数、模型大小，使用网络量化在不损失性能的情况下降低神经网络中运算和操作数的精度；

对CMOS工艺进行管理，使用代工厂提供的最坏情况库来模拟辐射损伤产生的影响，并使用并发多模式多工艺角静态时序分析来确保时序性能，预留更大的时序裕度；

在芯片实现中，用简单TMR模块和完全TMR模块进行保护，模块内的所有组合逻辑为三重，由三个多数表决器使用，并形成三重寄存器的输入，对来自寄存器输出的反馈进行自动更正。

本发明首次提出在高能、高亮度粒子物理实验探测器前端，通过部署抗辐射、低延迟神经网络推理加速芯片来提升探测器的智能化水平，为未来高性能、低成本新型探测器架构的探索开启新的可能性。

本发明首次在神经网络推理加速芯片设计中提出细粒度的流式架构、细粒度的存储器管理、灵活的压缩量化等技术，在保持高吞吐量、低硬件开销的同时大幅降低推理延迟，以满足探测器前端的低延迟应用要求。

本发明首次面向高能物理领域实现抗辐射、低延迟神经网络推理加速芯片。通过配置片外神经网络权重数据，该神经网络加速芯片可以为探测器前端的不同任务部署独特的神经网络算法。

实施例2

根据图1、2、3所示，本实施例提出了一种抗辐射低延迟神经网络推理加速芯片，包括以下步骤：

CNN主要由卷积层、池化层、激活层、归一化层、全连接层构成，其中卷积层是CNN最重要的。卷积层可以被认为是通过在图像（称为输入特征图，通道数为C宽为W高为H）上滑动一个小窗口（称为滤波器、或卷积核，通道数为C宽为w高为h）进行卷积运算来产生比原始图像小的矩阵作为输出特征图。卷积核的参数称为权重，通过训练得到，每个卷积核都致力于在输入的某个空间位置检测某种特定类型的特征或形状。产生输出特征图的一个通道需要一个与输入特征图通道数相当的卷积核，对应的卷积核通道处理对应的输入通道，首先，每个通道内对应位置元素相乘再相加，最后计算所有通道的总和作为输出通道的一个元素值。然后从左到右、从上到下滑动卷积核重复上述计算，产生输出通道的每个元素值。接着遍历所有卷积核，重复上述计算过程，产生与卷积核数量相等的输出通道数，也就是说，卷积核的通道数等于输入的通道数，输出的通道数等于卷积核的个数。总之，卷积运算包括四个级别的循环；卷积核循环（Loop-4）、输入通道循环（Loop-3）、沿输入宽、高维度扫描操作的循环（Loop-2）和卷积核窗口内乘法累加操作的循环（Loop-1）。卷积层还有两个额外的架构参数，称为填充（padding）和步幅（stride）。步幅决定了卷积核扫描滑动的步长，而填充决定了如何处理边缘。

池化层，也称为下采样层，用于逐步减小表示的空间大小，从而减少网络中的参数和计算量。池化层周期性地插入连续的卷积层之间。它们在输入的每个通道上独立操作，并使用一定的策略，如“最大”、“平均”或“最小”操作，在空间上调整其大小。最常见的形式是使用大小为2×2窗口的池化层，采集4个样本，从而丢弃75%的输入。激活层提供了一种非线性，其功能类似于动物神经元细胞中的动作电位。如果一个神经元发出动作电位，它就被称为激活。常用的非线性激活函数是S型函数sigmoid和双曲正切函数tanh。最近提出并常用的激活函数是修正线性单元（ReLU），即负值设置为0，正值不变。ReLU在训练中收敛速度更快，计算复杂度低于标准的sigmoid和tanh函数。归一化层的作用类似于动物神经中的“侧抑制”现象，它指的是一个兴奋的神经元抑制其相邻神经元的能力，从而在该区域形成对比。在CNN中，为了实现这一点，使用了归一化。它检测具有大响应的高频特征。如果对兴奋神经元的邻域进行归一化，它会变得比它的邻居更加敏感。基本上，它执行某种抑制，并以相对较大的激活来增强神经元。全连接层，也称为内积层或密集层，其神经元与前一层中的所有激活具有全连接，因此得名。其输入特征与一组权重进行矩阵乘法，再通过一组偏置施加一个偏移量。

CNN推理的内存需求和计算复杂度很高。计算负载主要是卷积层的大量乘法累加运算，通常占CNN操作总数的90%以上。与计算相反，大部分CNN权重都包含在FC层中。这种不平衡的计算与内存比率，也给CNN加速器的设计带来了难度。本发明将通过选择不同层次的计算并行化策略、存储策略、压缩量化策略，来实现低延迟、高吞吐量和低硬件开销的高效推理，并采用抗辐射设计技术实现芯片。

（1）细粒度的流式架构设计与实现

细粒度的流式架构可以提供高吞吐量、低延迟和较低的硬件开销。为了克服流水线的启动延迟（在第一个流水线阶段加载第一个输入和在最后一个流水线阶段生成第一个输出之间的时间）和较大的级间缓存开销，采用细粒度流水线结构设计，包括顶层架构设计和计算引擎设计。

顶层架构设计。首先，架构设计需要平衡有限的片上内存资源和对大尺寸输入的支持。单计算引擎架构，要么需要高内存带宽，以便将中间结果与外部存储器（DRAM）交换，要么需要大容量的片上存储器，以便保存所有特征图。此外，大尺寸输入进一步加剧了硬件开销，生成了更大的特征图，需要占用更多内存。其次，流式架构可以根据计算和内存需求分别为每一层实现针对性的优化设计。相比之下，单计算引擎架构只有一个强大的计算引擎。这意味着传入神经网络中的操作需要在输入到计算引擎之前由CPU进行转换（例如，填充、匹配或划分），这会降低效率，引入较大的延迟。第三，流式架构可以很好地调整每一层资源的分配，并提供高吞吐量性能，以更好地支持输入数据流。

本发明采用流式架构，其中每级流水线对应于每个主要的神经网络层。图1展示了所提出的顶层架构的两个流水线级的例子，用于计算两个卷积层（i层和i+1层）。这种设计消耗了三种类型的资源：计算资源（蓝色区域）、片上存储器（绿色区域）和外部存储器（橙色区域）。有两个数据路径，用于将输入特征图横向传递给计算单元，并将经过训练的权重纵向传递给计算单元。为了保持足够的数据供给，为每个流水线阶段设置两个缓存区，作为保持输入特征图切片的整形缓存区和从外部存储器中抽取权重的权重缓存区。

加速器通常通过提高并行性来提高吞吐量，并行性来自于6个维度。批并行性同时将多帧图像分组为批，以便重用每一层中的权重，并最小化外部内存访问。层间并行性，通过在结束i层的执行之前启动i+1层以流水线方式执行。卷积层4个级别循环计算的展开则提供了另外4个并发源。这6个维度的完全并发意味着不可接受的硬件开销和低效率。延迟、吞吐量和资源开销之间的权衡取决于推理计算的合理并行化。顶层架构设计中关注批并行和层并行的优化。探测器前端推理应用要求实时处理流输入，这限制了批量处理数据以提高吞吐量的能力，因为批量处理产生的额外延迟可能超过实时性能要求允许的范围。层并行也可以提高吞吐量，但流水线级数越多推理延迟也越大。一个策略是对主要的层实施并行化，如卷积层和全连接层，它们贡献了计算和内存消耗。其余的层（如归一化层、池化层和激活层）合并到主要层，以便减少流水线的级数来降低延迟。顶层架构设计探索合理的批并行度和层并行度，实现参数化的RTL（Register Transfer Level）设计，研究不同批并行度和层并行度对推理延迟、吞吐量、硬件开销的影响。

计算引擎设计。CNN推理加速器的核心功能由参数化的RTL网络组件（如CONV、FC、Pooling、BN、Relu等）来实现，这些组件是构建整个网络的IP（Intellectual Property）。由于卷积层和全连接层中经常使用相同的循环结构，因此将其抽象为一个计算引擎。卷积层4个级别循环计算的展开策略在计算引擎的设计中考虑。为了减少计算资源的开销，本发明提出的计算引擎重点关注卷积层外两层计算循环的展开，即卷积核循环（Loop-4）和输入通道循环（Loop-3）。这是因为内两层循环的展开需要为每一个流水线阶段缓存完整的特征图，不仅会导致片上缓存的增大，还会使每一级流水线的延迟增大。而外两层计算循环的展开仅需缓存输入特征图的切片就可以启动流水线开始卷积运算。为此定义了两个参数，卷积核并行度因子（KPF）和通道并行度因子（CPF）。KPF和CPF分别表示可以在流水线级内处理的卷积核的数量和输入通道的数量。这两个因素允许计算引擎实现二维并行方案，并调整每个流水线阶段的资源开销。

计算引擎由多个PE构成，PE被设计用于处理有CPF个通道的输入特征图，而计算引擎中PE的数目由KPF决定。为了更好地解释计算引擎是如何并行展开的，以一个小尺寸的卷积层为例进行研究，如图2所示。假设有一个蓝色的4×3×3输入特征图（图2中的（a）的左侧），它被6个绿色的4×2×2卷积核（图2中的（a）的中间）处理，特征图和卷积核的通道数都为4，通道和核并行因子分别为CPF=2和KPF=3（总并行：2×3=6）。由于CPF=2且卷积核大小为2×2，因此沿X、Y和Z维度具有2个元素的立方体被视为一个图块。每个图块都需要按照数字1到4执行四个处理步骤，因为每个步骤只处理X-Y平面中的一个像素。在每一步中，从输入特征图（InFM，Input Feature Map）收集2段数据（沿Z 轴，对应于CPF），并由6个卷积核中的前3个核同时处理它们（对应于KPF）。总共并行执行6次乘法累加（等于CPF×KPF），并生成前3个部分和（橙色）。图2中的（b）展示出了3个PE在一个步骤中所需的输入数据。两个元素（蓝色）从输入特征图中提取，而6个元素（绿色）从权重中提取。整形缓存区和权重缓存区通过一次内存访问分别提供这些数据。在该示例中，输出的顺序在图2中的（c）中展示，索引从1到8。前3个卷积核产生输出1、2、5和6，其余3个卷积核产生输出3、4、7和8。图2中的（d）显示了CPF=2和KPF=3时计算引擎中的乘法累加操作。

按照上述思想，计算引擎设计将以硬件为中心、自下而上，精细设计高性能、低开销的参数化RTL级IP。基于这些高质量的IP构建高质量的神经网络层，并研究不同CPF和KPF对推理延迟、吞吐量、硬件开销的影响。

（2）细粒度存储管理的设计与实现

存储管理主要采用基于列的缓存方案和自适应分层存储系统两种技术，以减少用来保存输入特征图和缓存权重数据的片上内存，即提高存储利用效率。

基于列的缓存方案。当输入图像尺寸较小时，有一些加速器将输入特征图全部缓存到芯片上，以实现更高的吞吐量并避免复杂的数据移动。但当输入图像较大时，神经网络中的特征图是巨大的，不可能完全存储在芯片上。虽然下采样可以在一定程度上缓解这个问题，但它并不总是可以接受的，特别是对于小目标的检测。

为了解决这个问题，提出了一种新的基于列的高速缓存方案，只在芯片上保留一部分输入特征图。图3显示了一个核大小为3，步长为1的卷积。由于切片1~3被用于第一个滑动窗口操作（从上到下），将前三个切片命名为第1列。类似地，列2表示第二个滑动窗口操作的数据，因此切片2~4构成第2列。本设计方案在开始计算之前至少缓存两列，这允许卷积核在完成第一个垂直滑动窗口操作之后可以立即执行第二个垂直滑动窗口操作，多缓存一列不会出现数据不足造成的延迟。同时，切片5将在释放切片1占用的空间后开始缓存以形成下一列（切片3~5）。因此，图1所示的整形缓存区所需的大小等于两列（四个切片）的大小。由于大多数输入图像的高比宽的尺寸小，本发明默认情况下以列方式缓存切片以节省片上内存，也可以根据实际情况配置成行缓存方式。基于列的缓存方案还可以有效地提高计算通信比（CTC）低的层的性能，如全连接层和输入特征图较小的卷积层。根据提出的方案，本部分首先实现灵活的、可配置的RTL级设计（如切片缓存方式的配置），然后研究不同的计算通信比的层对整形缓存大小的需求，以便针对网络中不同的层调节整形缓存区的大小。

自适应分层存储系统。为了减少片外权重数据访问的延迟，本发明提出了一种自适应分层存储系统，它可以在计算密集型IP阵列和外部存储器之间插入缓存区（如图1所示）。权重缓冲器用于连续缓存DRAM中的权重。此外，在每个层的输入端提供可选的乒乓缓存。一旦所需的权重超过某个阈值，就会生成乒乓缓存，以克服从外部存储器获取数据时的数据短缺问题。

（3）压缩和量化

除了高效的加速器架构和存储系统之外，压缩和量化技术也可以进一步提高神经网络推理的效率。

压缩。网络压缩可减少深度神经网络的操作次数、模型大小。由于神经网络突触和神经元可能是冗余的，因此压缩技术试图减少它们的总数，从而有效地减少乘数。一种有效的方法是参数剪枝，它基于特定的排序和正则化选择性地去除参数。其中一种策略是基于幅度的剪枝，包括通过将张量中最小权重的值设置为零来消除权重张量中的冗余权重。还有一些其他的网络压缩方法包括低秩分解（使用矩阵分解来估计信息参数）、紧凑卷积滤波器（用特殊结构卷积滤波器保存参数）和知识蒸馏（使用大网络提炼的知识训练紧凑网络）等。本专利采用多种技术联合的方案来实现最佳的压缩性能。

量化。在网络训练期间，通常依赖单精度或双精度浮点运算。然而，在网络推理过程中，通常不需要32位浮点或64位全精度计算即可实现最佳性能。量化可以在不损失性能的情况下显著降低神经网络中运算和操作数的精度（权重、偏置等）。每层的输入、权重、偏置、总和以及输出均可以从浮点转移到定点，减少位宽。使用定点运算的好处是大大降低了实现复杂度，从而节省用于信号路由的资源以及用于数学运算的资源和延迟。

训练好的网络在部署到推理加速器之前再量化，是训练后量化（PTQ）。可以对整个网络应用相同的量化，也可以设置每层和每种参数类型的精度（即异构量化）。通常，极端PTQ会导致相当大的精度损失。压缩量与保持模型精度需要进行平衡，并且可以容忍模型精度降低多少是一个特定于应用的问题。量化感知训练（QAT），可在降低网络组件数值精度的同时限制性能损失。前向传递的训练期间使用量化的权重和偏置，而在反向传递中使用全精度，以便在损失最小化过程中向最佳点漂移。

本发明对这两种网络量化方法展开了研究，比较了不同方法在不同量化位宽下对网络性能的影响。基于此，进一步对压缩方法和量化方法展开联合研究。比如在不同量化位宽下，研究压缩方法对模型精度、鲁棒性的影响。通常对于较大的位宽，压缩对模型精度的影响非常小。但是，在极低的位宽度下，压缩会对模型性能产生负面影响。需要找到最佳的压缩和量化联合方案。与此同时，本专利提出的推理加速器将允许为网络的不同组件指定不同的数值精度。如图1所示，DWi是第i层的输入数据位宽，而WWi表示权重的位宽。并在顶层架构设计、计算引擎设计、存储管理设计以及参数化RTL组件IP等各个层次支持灵活的量化配置。

（4）抗辐射数字芯片设计与实现

本部分将分别对TID和SEE采取不同的措施，以提高芯片的抗辐射能力。

TID缓解。有参考文献的测量结果表明，65 nm CMOS工艺库中所有标准单元的平均时间延迟在200 Mrad照射后增加。因此，除了采用先进节点的CMOS工艺之外，在芯片实现时应避免使用最小尺寸标准单元。使用代工厂提供的最坏情况库来模拟辐射损伤产生的影响。并使用并发多模式多工艺角静态时序分析来确保时序性能，预留更大的时序裕度。

SEE缓解。缓解SEE是芯片实现中的一个关键步骤，以在探测器前端环境中实现有效性能。TMR是一种保护数字电路免受SEE不良影响的技术。将使用两种不同的TMR实现：简单TMR模块，具有三重寄存器和多数表决器，如图4a所示；以及完全的TMR模块，如图4b所示，模块内的所有组合逻辑都是三重的，由三个多数表决器使用，并形成三重寄存器的输入，来自寄存器输出的反馈可实现自动更正。状态会定时刷新的一些控制路径，以及周期性到达芯片的输入数据不需要自动更正功能，以减少硬件开销。那些一旦配置或加载后，很长时间不会刷新的关键数据则使用自动更正功能来确保由于单粒子翻转而导致的寄存器错误不会随时间累积。

本发明提出了在探测器前端部署抗辐射、低延迟、高效的卷积神经网络推理加速芯片，来提高未来探测器硬件的智能化水平，采用以硬件为中心、自下而上的方法，精细控制推理加速芯片的设计，并为此提出了基于细粒度的流式架构、细粒度的存储管理、灵活的压缩和量化，以及抗辐射数字芯片设计技术，在实现抗辐射、低延迟推理的同时，实现高吞吐量和低片上内存消耗，使下一代新型智能探测器可以在前端实施基于神经网络算法的实时分析触发，不仅可以提高寻找新物理特征的能力，还将带来探测器成本、功耗、物质量的降低，并为未来新型低成本、高性能探测器架构的探索开启广泛的可能性，为抗辐射、低延迟神经网络推理加速芯片的核心技术、前沿技术积累宝贵经验，为未来建设国际大科学装置、展开大型国际合作实验和促进国民经济相关领域发展提供技术支撑。

本发明基于细粒度的流式架构可以在实现低延迟的同时提供高吞吐量和较低的硬件开销，包括顶层架构设计和计算引擎设计。通过顶层架构设计来平衡有限的片上内存资源和对大尺寸输入的支持，并在顶层架构设计中实现合理的批并行和层并行，从而通过提高并行性来提高吞吐量。考虑到低延迟和低硬件开销，计算引擎实现卷积核并行和通道并行的二维并行方案。

本发明细粒度的存储管理主要采用基于列的缓存方案和自适应分层存储系统两种技术。基于列的缓存方案，通过在芯片上缓存输入特征图的切片，而非整个输入特征，既节省片上内存，又减少了缓存更多数据带来的延迟。并通过少量切片的提前缓存，避免出现数据供给不足造成的延迟。自适应分层存储系统通过在计算密集型阵列和外部存储器之间插入缓存区，来减少片外权重数据访问的延迟，并在必要时生成乒乓缓存。

本发明灵活的压缩和量化用来进一步提高神经网络推理的效率。网络压缩可以通过去掉冗余的网络分支等方法减少神经网络模型的大小。量化可以显著降低神经网络中运算和操作数的精度，同时保持神经网络的性能。通过训练后量化、量化感知训练等方法降低神经网络不同部分的位宽，大大降低了实现复杂度，从而节省了神经网络加速器中用于信号路径的开销以及用于数学运算的资源和延迟。

本发明为了保证高辐射环境下探测器前端电路的可靠性，抗辐射数字芯片设计分别对总电离辐射剂量效应（TID）和单粒子事件效应（SEE）缓解采取不同的措施。考虑到所有数字标准单元的平均时间延迟在辐照后增加，实现芯片时需要避免使用最小尺寸单元，并为电路保留充分的时序裕度，以在整个实验寿命期间正常工作。SEE缓解将采用两种不同规格的三模冗余（TMR）技术，在提供保护的同时尽量降低硬件开销。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种抗辐射低延迟神经网络推理加速芯片，其特征在于，所述神经网络推理加速芯片设置在探测器前端，具体包括：

以及外部存储单元：用于存储整个神经网络的权重；

以及

分别对辐射的总剂量效应TID和单粒子效应SEE采取措施的抗辐射模块，包括：

TID缓解子模块：采用先进节点的CMOS工艺，避免使用小尺寸标准单元，预留更大的时序裕度；

SEE缓解子模块：使用两种不同的TMR实现：简单TMR模块，具有三重寄存器和多数表决器，以及完全的TMR模块，模块内的所有组合逻辑都是三重的，由三个多数表决器使用，并形成三重寄存器的输入，来自寄存器输出的反馈可实现自动更正，状态会定时刷新的控制路径，以及周期性到达芯片的输入数据不需要自动更正功能，而一旦配置或加载后，长时间不会刷新的关键数据则使用自动更正功能来确保由于单粒子翻转而导致的寄存器错误不会随时间累积；

每个流式架构单元包括：

神经网络子单元：用于实现计算引擎阵列，能够完成卷积层或全连接层的并行计算，卷积层和全连接层使用相同的循环结构，使用并行计算策略；

权重缓存：与外部存储单元连接，用于从外部存储器中抽取计算当前特征图切片所需的权重；

并行计算时，并行性来自于6个维度，具体包括：

层并行性通过在结束N层的执行之前启动N+1层以流水线方式执行，并对主要的层实施并行化，其余的层合并到主要层，减少流水线的级数来降低延迟，实现参数化的RTL设计；

卷积层4个级别循环计算的展开提供另外4个并发源，全连接计算的循环展开提供另外4个并发源，卷积核循环Loop-4、输入通道循环Loop-3、沿输入宽、高维度扫描操作的循环Loop-2和卷积核窗口内乘法累加操作的循环Loop-1，并行展开卷积层外两层的计算循环，即卷积核循环Loop-4和输入通道循环Loop-3，外两层计算循环的展开仅需缓存输入特征图的切片就可以启动流水线开始卷积运算；

卷积核并行是从权重中一次取多个卷积核，与特征图进行并行计算；

输入通道并行是从输入特征图中一次取多个数据通道，与卷积核进行并行计算；

卷积层外两层即卷积核循环Loop-4和输入通道循环Loop-3的并行展开，为此定义两个参数，卷积核并行度因子KPF和通道并行度因子CPF，分别表示在流水线级内处理的卷积核的数量和输入通道的数量，使计算引擎阵列实现二维并行方案，并调整每个流水线阶段的资源开销，其中，计算引擎阵列由多个计算引擎构成，每个计算引擎用于处理有CPF个通道的输入特征图，计算引擎阵列中计算引擎的数目由KPF决定，将计算引擎以硬件为中心、自下而上，构建参数化RTL级IP，基于IP构建神经网络层，判断不同CPF和KPF对推理延迟、吞吐量、硬件开销的影响。

2.根据权利要求1所述的一种抗辐射低延迟神经网络推理加速芯片，其特征在于：流式架构消耗三种类型的资源：计算资源、片上存储器和外部存储器，该架构具备有两个数据路径，一个路径用于将输入特征图横向传递给计算单元，另一个路径将权重纵向传递给计算单元。

3.根据权利要求2所述的一种抗辐射低延迟神经网络推理加速芯片，其特征在于：神经网络子单元包括：

多个并行的计算引擎：实现卷积计算或者全连接计算的并行加速，每个计算引擎的输入数据来自所述的特征图切片和权重。

4.根据权利要求3所述的一种抗辐射低延迟神经网络推理加速芯片，其特征在于：基于细粒度列的缓存方法具体包括：

在芯片上保留部分输入特征图，在开始计算之前至少缓存两“列”；

随后，下一个切片将在释放第一个切片占用的空间后开始缓存以形成下一“列”，整形缓存区所需的大小等于两“列”的大小。

5.根据权利要求4所述的一种抗辐射低延迟神经网络推理加速芯片，其特征在于：自适应分层存储方法具体包括：在计算密集型IP阵列和外部存储器之间插入缓存区，权重缓冲器用于连续缓存DRAM中的权重，在每个层的输入端提供可选的乒乓缓存，当所需的权重超过某个阈值，就会生成乒乓缓存；

网络压缩采用参数剪枝、低秩分解、紧凑卷积滤波器和知识蒸馏联合方式，参数剪枝基于特定的排序和正则化选择性地去除参数，具体为基于幅度的剪枝，包括通过将张量中最小权重的值设置为零来消除权重张量中的冗余权重；低秩分解为使用矩阵分解来估计信息参数；紧凑卷积滤波器指用特殊结构卷积滤波器保存参数；知识蒸馏指使用大网络提炼的知识训练紧凑网络。

6.根据权利要求5所述的一种抗辐射低延迟神经网络推理加速芯片，其特征在于：还包括网络量化，用于将每层的输入、权重、偏置、总和以及输出均从浮点转移到定点；网络量化具体包括训练后量化PTQ和量化感知训练QAT，

训练后量化PTQ将训练好的网络在部署到推理加速器之前再量化，用于对整个网络应用相同的量化，或设置每层和每种参数类型的精度，即异构量化；

量化感知训练QAT用于在降低网络组件数值精度的同时限制性能损失，前向传递的训练期间使用量化的权重和偏置，而在反向传递中使用全精度，以在损失最小化过程中向最佳点漂移。