CN117909145A

CN117909145A - Ai芯片单粒子翻转影响评估方法和系统

Info

Publication number: CN117909145A
Application number: CN202311652431.1A
Authority: CN
Inventors: 蔡毓龙; 吴炎来; 张冬冬; 卢健; 卞泽宇
Original assignee: Shanghai Engineering Center for Microsatellites; Innovation Academy for Microsatellites of CAS
Current assignee: Shanghai Engineering Center for Microsatellites; Innovation Academy for Microsatellites of CAS
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-04-19

Abstract

本发明公开了AI芯片单粒子翻转影响评估方法和系统，该方法采用地面模拟辐照试验结合软件故障注入的方法，包括通过地面辐照试验获取AI芯片存储单元SEU数量和在轨时长关系，以及通过SEU软件故障注入建立AI芯片存储单元SEU数量和其推理准确度退化关系，从而实现评估AI芯片在轨时长与其推理准确度退化之间额关系。采用本方案可将AI芯片SEU影响评估成本降低至辐照试验评估的10％以内，评估时间由2个月缩短至1周；可根据AI模型特点开展尽可能多的重复SEU故障注入，大大提高了获取的AI芯片推理准确度退化数据的置信度；提出的评估方法通用性强，器件类型覆盖基于不同硬件加速器的AI芯片，算法覆盖MLP、CNN、DNN不同类型的神经网络算法。

Description

AI芯片单粒子翻转影响评估方法和系统

技术领域

本发明涉及计算机领域，尤其涉及AI芯片单粒子翻转影响评估方法和系统。

背景技术

人工智能(Artificial Intelligent，AI)芯片广泛应用于航天器中，然而空间辐射粒子入射AI芯片会导致其存储单元发生单粒子翻转(Single Event upset,SEU)，进而影响AI芯片推理准确度。

地面模拟空间辐射粒子辐照试验方法是评估AI芯片空间SEU影响的有效手段。目前常用的AI芯片SEU地面模拟试验评估方法主要参照QJ10005-2008《宇航用半导体器件重离子单粒子效应试验指南》。针对AI芯片SEU评估，地面试验方法存在一个明显的缺陷：由于传统单次SEU辐照试验获得的AI芯片准确度变化范围大，需要开展重复多次(几十次)SEU辐照试验。但数十次重复SEU辐照试验成本高达百万元人民币，显然地面辐照试验方法不具有可行性。

发明内容

为了克服上述技术缺陷，本发明的目的在于提供AI芯片单粒子翻转影响评估方法和系统。

为此，本发明的一个方面提供AI芯片单粒子翻转影响评估方法，包括以下步骤：

步骤S1，进行AI芯片SEU重离子辐照试验，获得存储单元SEU发生截面；

步骤S2，根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率，建立存储单元SEU数量与在轨时长关系；

步骤S3，对AI芯片做大数据训练，获得训练后固化的神经网络参数；

步骤S4，随机翻转AI芯片中一定数量的神经网络参数存储位的值，然后AI芯片重复多次识别新的推理数据集，直到获取的AI芯片推理准确度数据置信度满足任务要求；

步骤S5，增大注入到AI芯片中的SEU数量，重复步骤S4,直到SEU数量范围覆盖任务要求；

步骤S6，比较SEU故障注入前后AI芯片推理准确度变化，对AI芯片推理准确度退化情况进行分类，建立存储单元SEU数量和AI芯片不同准确度退化情况的关系。

进一步的，AI芯片存储单元的SEU截面σ(cm2/bit)的计算公式如下：

σ＝N/(F·M·cosθ)

式中，N为SEU统计数，F为单位面积离子数(ions/cm2)，M为被辐照器件的存储容量(bit)，θ为束流方向与被辐照器件表面法线的夹角。

进一步的，根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率R(upset/bit/day)：

其中，Lmin、Lmax分别为舱内重离子的最小和最大LET值，Φ(L)为重离子全向通量。

进一步的，所述AI芯片推理准确度退化情况的分类是将SEU发生后准确度情况分为三类：良性情况、差情况、关键情况。

进一步的，AI芯片推理退化情况的概率为：

式中p1[x]表示AI芯片神经网络参数中有x个SEU情况下模型退化的概率，flag_iter[i]表示第i次的推理准确度是否退化，n表示对每一个SEU神经网络参数做了n次随机SEU故障注入测试。

本发明的另一个方面提供AI芯片单粒子翻转影响评估系统，包括以下模块：地面模拟试验评估模块和软件故障注入模块，其中：

地面模拟试验评估模块，用于建立存储单元SEU数量与在轨时长的关系，包括以下组件：

辐照试验组件，用于进行AI芯片SEU重离子辐照试验，获得存储单元SEU发生截面；

评估组件，根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率，建立存储单元SEU数量与在轨时长关系；

软件故障注入模块，用于建立存储单元SEU数量与网络准确度退化关系，包括以下组件：

训练数据组件，用于对AI芯片做大数据训练，获得训练后固化的神经网络参数；

随机注入组件，用于随机翻转AI芯片中一定数量的神经网络参数存储位的值，然后AI芯片重复多次识别新的推理数据集，直到获取的AI芯片推理准确度数据置信度满足任务要求；再增大注入到AI芯片中的SEU数量，重复前面所述随机翻转并进行所述识别新的推理数据集的操作,直到SEU数量范围覆盖任务要求；

推理数据组件，用于比较SEU故障注入前后AI芯片推理准确度变化，对AI芯片推理准确度退化情况进行分类，建立存储单元SEU数量和AI芯片不同准确度退化情况的关系。

σ＝N/(F·M·cosθ)

进一步的，AI芯片推理退化情况的概率为：

采用了上述技术方案后，与现有技术相比，具有以下有益效果：

1.提出的评估方法可将AI芯片SEU影响评估成本降低至辐照试验评估的10％以内，评估时间由2个月缩短至1周；

2.提出的评估方法可根据AI模型特点开展尽可能多的重复SEU故障注入，大大提高了获取的AI芯片推理准确度退化数据的置信度；

3.提出的评估方法将AI芯片推理准确度退化情况细分为三种：良性情况、差情况和关键情况。这样有利于结合航天任务需求，精细化评估SEU对AI芯片性能影响；

4.提出的评估方法通用性强，器件类型覆盖基于不同硬件加速器(FPGA、GPU、CPU)的AI芯片，算法覆盖MLP、CNN、DNN不同类型的神经网络算法。

附图说明

图1为AI芯片单粒子翻转影响评估方法流程图。

图2为AI芯片单粒子翻转影响评估原理示意图。

图3为GEO轨道下器件翻转率图。

图4为器件SEU数量和推理准确度不同退化情况的关系图。

图5为器件在轨时长和推理准确度不同退化情况的关系图。

具体实施方式

以下结合附图与具体实施例进一步阐述本发明的优点。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

本发明提供了一种快速低成本评估AI芯片SEU影响的方法。该方法采用地面模拟辐照试验结合软件故障注入的方法，包括通过地面辐照试验获取AI芯片存储单元SEU数量和在轨时长关系，以及通过SEU软件故障注入建立AI芯片存储单元SEU数量和其推理准确度退化关键两大部分。

如图1所示为本发明的流程图，包括以下步骤：

本评估方法包括地面模拟试验评估和软件故障注入两大部分，其中地面模拟试验评估依据QJ10005-2008方法，通过对AI芯片开展一次SEU重离子辐照试验获取存储单元SEU发生率。试验中通过比较判断辐照过程中AI芯片存储单元预存数据SEU数量(记为N)，AI芯片存储单元的单粒子翻转截面σ(cm2/bit)的计算公式如下：

σ＝N/(F·M·cosθ) (1)

式中，N为单粒子翻转统计数，F为单位面积离子数(ions/cm2)，M为被辐照器件的存储容量(bit)，θ为束流方向与被辐照器件表面法线的夹角。然后根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率R(upset/bit/day)：

其中，Lmin、Lmax分别为舱内重离子的最小和最大LET值，Φ(L)为重离子全向通量。结合AI芯片存储单元总位数，建立存储单元SEU数量(x)与在轨时长(T)的关系。

然后通过软件SEU故障注入方法，获得AI芯片中神经网络参数发生x个SEU后AI芯片推理准确度退化情况。SEU故障注入过程中，首先对AI芯片开展大数据训练，获得训练后固化的神经网络参数。然后随机改变一定数量的神经网络参数存储位的值(位翻转注入)，SEU故障注入后的AI芯片识别新数据集，并重复多次此步骤，直到获取的AI芯片推理准确度数据置信度满足任务要求。最后，比较SEU故障注入前后AI芯片推理准确度变化，分类AI芯片推理准确度退化情况(良性情况、差情况、关键情况)，建立存储单元SEU数量和AI芯片不同准确度退化情况的关系。AI芯片推理退化情况的概率：

其原理示意图如图2所示。综合辐照试验和软件仿真注入的结果，建立在轨时长和AI芯片不同推理准确度退化情况的关系，实现快速低成本评估某轨道环境下X年后SEU对AI芯片的影响。

本实施例首先通过地面辐照试验获取宇航常用FPGA(可以设计搭载神经网络)的存储单元SEU概率。由试验可知，重离子辐照试验测得典型应用状态下28nm的FPGA BRAM位SEU概率约为1E-6upset/bit/day，如图3所示。然后建立SEU故障注入数量和器件在轨时长对应关系。

依据AI芯片推理准确度变化和具体航天任务接受度，我们将SEU发生后准确度情况分为三类：良性(benign)情况、差(poor)情况、关键(critical)情况。选用的神经网络模型为LeNet-5，SEU故障注入后推理准确度退化情况如图4所示。

结合图3和图4，建立在轨时长和AI芯片不同推理准确度退化情况的关系，如图5所示。

从上面的实施例可见，采用本评估方法具有以下优点：

应当注意的是，本发明的实施例有较佳的实施性，且并非对本发明作任何形式的限制，任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例，但凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰，均仍属于本发明技术方案的范围内。

Claims

1.AI芯片单粒子翻转影响评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的AI芯片单粒子翻转影响评估方法，其特征在于，AI芯片存储单元的SEU截面σ(cm2/bit)的计算公式如下：

σ＝N/(F·M·cosθ)

3.根据权利要求2所述的AI芯片单粒子翻转影响评估方法，其特征在于，根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率R(upset/bit/day)：

4.根据权利要求1所述的AI芯片单粒子翻转影响评估方法，其特征在于，所述AI芯片推理准确度退化情况的分类是将SEU发生后准确度情况分为三类：良性情况、差情况、关键情况。

5.根据权利要求1所述的AI芯片单粒子翻转影响评估方法，其特征在于，AI芯片推理退化情况的概率为：

6.AI芯片单粒子翻转影响评估系统，其特征在于，包括以下模块：地面模拟试验评估模块和软件故障注入模块，其中：

7.根据权利要求6所述的AI芯片单粒子翻转影响评估系统，其特征在于，AI芯片存储单元的SEU截面σ(cm2/bit)的计算公式如下：

σ＝N/(F·M·cosθ)

8.根据权利要求7所述的AI芯片单粒子翻转影响评估系统，其特征在于，根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率R(upset/bit/day)：

9.根据权利要求6所述的AI芯片单粒子翻转影响评估系统，其特征在于，所述AI芯片推理准确度退化情况的分类是将SEU发生后准确度情况分为三类：良性情况、差情况、关键情况。

10.根据权利要求6所述的AI芯片单粒子翻转影响评估系统，其特征在于，AI芯片推理退化情况的概率为：