CN117909145A - Ai芯片单粒子翻转影响评估方法和系统 - Google Patents

Ai芯片单粒子翻转影响评估方法和系统 Download PDF

Info

Publication number
CN117909145A
CN117909145A CN202311652431.1A CN202311652431A CN117909145A CN 117909145 A CN117909145 A CN 117909145A CN 202311652431 A CN202311652431 A CN 202311652431A CN 117909145 A CN117909145 A CN 117909145A
Authority
CN
China
Prior art keywords
chip
seu
reasoning
accuracy
conditions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311652431.1A
Other languages
English (en)
Inventor
蔡毓龙
吴炎来
张冬冬
卢健
卞泽宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Engineering Center for Microsatellites
Innovation Academy for Microsatellites of CAS
Original Assignee
Shanghai Engineering Center for Microsatellites
Innovation Academy for Microsatellites of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Engineering Center for Microsatellites, Innovation Academy for Microsatellites of CAS filed Critical Shanghai Engineering Center for Microsatellites
Priority to CN202311652431.1A priority Critical patent/CN117909145A/zh
Publication of CN117909145A publication Critical patent/CN117909145A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了AI芯片单粒子翻转影响评估方法和系统,该方法采用地面模拟辐照试验结合软件故障注入的方法,包括通过地面辐照试验获取AI芯片存储单元SEU数量和在轨时长关系,以及通过SEU软件故障注入建立AI芯片存储单元SEU数量和其推理准确度退化关系,从而实现评估AI芯片在轨时长与其推理准确度退化之间额关系。采用本方案可将AI芯片SEU影响评估成本降低至辐照试验评估的10%以内,评估时间由2个月缩短至1周;可根据AI模型特点开展尽可能多的重复SEU故障注入,大大提高了获取的AI芯片推理准确度退化数据的置信度;提出的评估方法通用性强,器件类型覆盖基于不同硬件加速器的AI芯片,算法覆盖MLP、CNN、DNN不同类型的神经网络算法。

Description

AI芯片单粒子翻转影响评估方法和系统
技术领域
本发明涉及计算机领域,尤其涉及AI芯片单粒子翻转影响评估方法和系统。
背景技术
人工智能(Artificial Intelligent,AI)芯片广泛应用于航天器中,然而空间辐射粒子入射AI芯片会导致其存储单元发生单粒子翻转(Single Event upset,SEU),进而影响AI芯片推理准确度。
地面模拟空间辐射粒子辐照试验方法是评估AI芯片空间SEU影响的有效手段。目前常用的AI芯片SEU地面模拟试验评估方法主要参照QJ10005-2008《宇航用半导体器件重离子单粒子效应试验指南》。针对AI芯片SEU评估,地面试验方法存在一个明显的缺陷:由于传统单次SEU辐照试验获得的AI芯片准确度变化范围大,需要开展重复多次(几十次)SEU辐照试验。但数十次重复SEU辐照试验成本高达百万元人民币,显然地面辐照试验方法不具有可行性。
发明内容
为了克服上述技术缺陷,本发明的目的在于提供AI芯片单粒子翻转影响评估方法和系统。
为此,本发明的一个方面提供AI芯片单粒子翻转影响评估方法,包括以下步骤:
步骤S1,进行AI芯片SEU重离子辐照试验,获得存储单元SEU发生截面;
步骤S2,根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率,建立存储单元SEU数量与在轨时长关系;
步骤S3,对AI芯片做大数据训练,获得训练后固化的神经网络参数;
步骤S4,随机翻转AI芯片中一定数量的神经网络参数存储位的值,然后AI芯片重复多次识别新的推理数据集,直到获取的AI芯片推理准确度数据置信度满足任务要求;
步骤S5,增大注入到AI芯片中的SEU数量,重复步骤S4,直到SEU数量范围覆盖任务要求;
步骤S6,比较SEU故障注入前后AI芯片推理准确度变化,对AI芯片推理准确度退化情况进行分类,建立存储单元SEU数量和AI芯片不同准确度退化情况的关系。
进一步的,AI芯片存储单元的SEU截面σ(cm2/bit)的计算公式如下:
σ=N/(F·M·cosθ)
式中,N为SEU统计数,F为单位面积离子数(ions/cm2),M为被辐照器件的存储容量(bit),θ为束流方向与被辐照器件表面法线的夹角。
进一步的,根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率R(upset/bit/day):
其中,Lmin、Lmax分别为舱内重离子的最小和最大LET值,Φ(L)为重离子全向通量。
进一步的,所述AI芯片推理准确度退化情况的分类是将SEU发生后准确度情况分为三类:良性情况、差情况、关键情况。
进一步的,AI芯片推理退化情况的概率为:
式中p1[x]表示AI芯片神经网络参数中有x个SEU情况下模型退化的概率,flag_iter[i]表示第i次的推理准确度是否退化,n表示对每一个SEU神经网络参数做了n次随机SEU故障注入测试。
本发明的另一个方面提供AI芯片单粒子翻转影响评估系统,包括以下模块:地面模拟试验评估模块和软件故障注入模块,其中:
地面模拟试验评估模块,用于建立存储单元SEU数量与在轨时长的关系,包括以下组件:
辐照试验组件,用于进行AI芯片SEU重离子辐照试验,获得存储单元SEU发生截面;
评估组件,根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率,建立存储单元SEU数量与在轨时长关系;
软件故障注入模块,用于建立存储单元SEU数量与网络准确度退化关系,包括以下组件:
训练数据组件,用于对AI芯片做大数据训练,获得训练后固化的神经网络参数;
随机注入组件,用于随机翻转AI芯片中一定数量的神经网络参数存储位的值,然后AI芯片重复多次识别新的推理数据集,直到获取的AI芯片推理准确度数据置信度满足任务要求;再增大注入到AI芯片中的SEU数量,重复前面所述随机翻转并进行所述识别新的推理数据集的操作,直到SEU数量范围覆盖任务要求;
推理数据组件,用于比较SEU故障注入前后AI芯片推理准确度变化,对AI芯片推理准确度退化情况进行分类,建立存储单元SEU数量和AI芯片不同准确度退化情况的关系。
进一步的,AI芯片存储单元的SEU截面σ(cm2/bit)的计算公式如下:
σ=N/(F·M·cosθ)
式中,N为SEU统计数,F为单位面积离子数(ions/cm2),M为被辐照器件的存储容量(bit),θ为束流方向与被辐照器件表面法线的夹角。
进一步的,根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率R(upset/bit/day):
其中,Lmin、Lmax分别为舱内重离子的最小和最大LET值,Φ(L)为重离子全向通量。
进一步的,所述AI芯片推理准确度退化情况的分类是将SEU发生后准确度情况分为三类:良性情况、差情况、关键情况。
进一步的,AI芯片推理退化情况的概率为:
式中p1[x]表示AI芯片神经网络参数中有x个SEU情况下模型退化的概率,flag_iter[i]表示第i次的推理准确度是否退化,n表示对每一个SEU神经网络参数做了n次随机SEU故障注入测试。
采用了上述技术方案后,与现有技术相比,具有以下有益效果:
1.提出的评估方法可将AI芯片SEU影响评估成本降低至辐照试验评估的10%以内,评估时间由2个月缩短至1周;
2.提出的评估方法可根据AI模型特点开展尽可能多的重复SEU故障注入,大大提高了获取的AI芯片推理准确度退化数据的置信度;
3.提出的评估方法将AI芯片推理准确度退化情况细分为三种:良性情况、差情况和关键情况。这样有利于结合航天任务需求,精细化评估SEU对AI芯片性能影响;
4.提出的评估方法通用性强,器件类型覆盖基于不同硬件加速器(FPGA、GPU、CPU)的AI芯片,算法覆盖MLP、CNN、DNN不同类型的神经网络算法。
附图说明
图1为AI芯片单粒子翻转影响评估方法流程图。
图2为AI芯片单粒子翻转影响评估原理示意图。
图3为GEO轨道下器件翻转率图。
图4为器件SEU数量和推理准确度不同退化情况的关系图。
图5为器件在轨时长和推理准确度不同退化情况的关系图。
具体实施方式
以下结合附图与具体实施例进一步阐述本发明的优点。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
本发明提供了一种快速低成本评估AI芯片SEU影响的方法。该方法采用地面模拟辐照试验结合软件故障注入的方法,包括通过地面辐照试验获取AI芯片存储单元SEU数量和在轨时长关系,以及通过SEU软件故障注入建立AI芯片存储单元SEU数量和其推理准确度退化关键两大部分。
如图1所示为本发明的流程图,包括以下步骤:
步骤S1,进行AI芯片SEU重离子辐照试验,获得存储单元SEU发生截面;
步骤S2,根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率,建立存储单元SEU数量与在轨时长关系;
步骤S3,对AI芯片做大数据训练,获得训练后固化的神经网络参数;
步骤S4,随机翻转AI芯片中一定数量的神经网络参数存储位的值,然后AI芯片重复多次识别新的推理数据集,直到获取的AI芯片推理准确度数据置信度满足任务要求;
步骤S5,增大注入到AI芯片中的SEU数量,重复步骤S4,直到SEU数量范围覆盖任务要求;
步骤S6,比较SEU故障注入前后AI芯片推理准确度变化,对AI芯片推理准确度退化情况进行分类,建立存储单元SEU数量和AI芯片不同准确度退化情况的关系。
本评估方法包括地面模拟试验评估和软件故障注入两大部分,其中地面模拟试验评估依据QJ10005-2008方法,通过对AI芯片开展一次SEU重离子辐照试验获取存储单元SEU发生率。试验中通过比较判断辐照过程中AI芯片存储单元预存数据SEU数量(记为N),AI芯片存储单元的单粒子翻转截面σ(cm2/bit)的计算公式如下:
σ=N/(F·M·cosθ) (1)
式中,N为单粒子翻转统计数,F为单位面积离子数(ions/cm2),M为被辐照器件的存储容量(bit),θ为束流方向与被辐照器件表面法线的夹角。然后根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率R(upset/bit/day):
其中,Lmin、Lmax分别为舱内重离子的最小和最大LET值,Φ(L)为重离子全向通量。结合AI芯片存储单元总位数,建立存储单元SEU数量(x)与在轨时长(T)的关系。
然后通过软件SEU故障注入方法,获得AI芯片中神经网络参数发生x个SEU后AI芯片推理准确度退化情况。SEU故障注入过程中,首先对AI芯片开展大数据训练,获得训练后固化的神经网络参数。然后随机改变一定数量的神经网络参数存储位的值(位翻转注入),SEU故障注入后的AI芯片识别新数据集,并重复多次此步骤,直到获取的AI芯片推理准确度数据置信度满足任务要求。最后,比较SEU故障注入前后AI芯片推理准确度变化,分类AI芯片推理准确度退化情况(良性情况、差情况、关键情况),建立存储单元SEU数量和AI芯片不同准确度退化情况的关系。AI芯片推理退化情况的概率:
式中p1[x]表示AI芯片神经网络参数中有x个SEU情况下模型退化的概率,flag_iter[i]表示第i次的推理准确度是否退化,n表示对每一个SEU神经网络参数做了n次随机SEU故障注入测试。
其原理示意图如图2所示。综合辐照试验和软件仿真注入的结果,建立在轨时长和AI芯片不同推理准确度退化情况的关系,实现快速低成本评估某轨道环境下X年后SEU对AI芯片的影响。
本实施例首先通过地面辐照试验获取宇航常用FPGA(可以设计搭载神经网络)的存储单元SEU概率。由试验可知,重离子辐照试验测得典型应用状态下28nm的FPGA BRAM位SEU概率约为1E-6upset/bit/day,如图3所示。然后建立SEU故障注入数量和器件在轨时长对应关系。
依据AI芯片推理准确度变化和具体航天任务接受度,我们将SEU发生后准确度情况分为三类:良性(benign)情况、差(poor)情况、关键(critical)情况。选用的神经网络模型为LeNet-5,SEU故障注入后推理准确度退化情况如图4所示。
结合图3和图4,建立在轨时长和AI芯片不同推理准确度退化情况的关系,如图5所示。
从上面的实施例可见,采用本评估方法具有以下优点:
1.提出的评估方法可将AI芯片SEU影响评估成本降低至辐照试验评估的10%以内,评估时间由2个月缩短至1周;
2.提出的评估方法可根据AI模型特点开展尽可能多的重复SEU故障注入,大大提高了获取的AI芯片推理准确度退化数据的置信度;
3.提出的评估方法将AI芯片推理准确度退化情况细分为三种:良性情况、差情况和关键情况。这样有利于结合航天任务需求,精细化评估SEU对AI芯片性能影响;
4.提出的评估方法通用性强,器件类型覆盖基于不同硬件加速器(FPGA、GPU、CPU)的AI芯片,算法覆盖MLP、CNN、DNN不同类型的神经网络算法。
应当注意的是,本发明的实施例有较佳的实施性,且并非对本发明作任何形式的限制,任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例,但凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.AI芯片单粒子翻转影响评估方法,其特征在于,包括以下步骤:
步骤S1,进行AI芯片SEU重离子辐照试验,获得存储单元SEU发生截面;
步骤S2,根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率,建立存储单元SEU数量与在轨时长关系;
步骤S3,对AI芯片做大数据训练,获得训练后固化的神经网络参数;
步骤S4,随机翻转AI芯片中一定数量的神经网络参数存储位的值,然后AI芯片重复多次识别新的推理数据集,直到获取的AI芯片推理准确度数据置信度满足任务要求;
步骤S5,增大注入到AI芯片中的SEU数量,重复步骤S4,直到SEU数量范围覆盖任务要求;
步骤S6,比较SEU故障注入前后AI芯片推理准确度变化,对AI芯片推理准确度退化情况进行分类,建立存储单元SEU数量和AI芯片不同准确度退化情况的关系。
2.根据权利要求1所述的AI芯片单粒子翻转影响评估方法,其特征在于,AI芯片存储单元的SEU截面σ(cm2/bit)的计算公式如下:
σ=N/(F·M·cosθ)
式中,N为SEU统计数,F为单位面积离子数(ions/cm2),M为被辐照器件的存储容量(bit),θ为束流方向与被辐照器件表面法线的夹角。
3.根据权利要求2所述的AI芯片单粒子翻转影响评估方法,其特征在于,根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率R(upset/bit/day):
其中,Lmin、Lmax分别为舱内重离子的最小和最大LET值,Φ(L)为重离子全向通量。
4.根据权利要求1所述的AI芯片单粒子翻转影响评估方法,其特征在于,所述AI芯片推理准确度退化情况的分类是将SEU发生后准确度情况分为三类:良性情况、差情况、关键情况。
5.根据权利要求1所述的AI芯片单粒子翻转影响评估方法,其特征在于,AI芯片推理退化情况的概率为:
式中p1[x]表示AI芯片神经网络参数中有x个SEU情况下模型退化的概率,flag_iter[i]表示第i次的推理准确度是否退化,n表示对每一个SEU神经网络参数做了n次随机SEU故障注入测试。
6.AI芯片单粒子翻转影响评估系统,其特征在于,包括以下模块:地面模拟试验评估模块和软件故障注入模块,其中:
地面模拟试验评估模块,用于建立存储单元SEU数量与在轨时长的关系,包括以下组件:
辐照试验组件,用于进行AI芯片SEU重离子辐照试验,获得存储单元SEU发生截面;
评估组件,根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率,建立存储单元SEU数量与在轨时长关系;
软件故障注入模块,用于建立存储单元SEU数量与网络准确度退化关系,包括以下组件:
训练数据组件,用于对AI芯片做大数据训练,获得训练后固化的神经网络参数;
随机注入组件,用于随机翻转AI芯片中一定数量的神经网络参数存储位的值,然后AI芯片重复多次识别新的推理数据集,直到获取的AI芯片推理准确度数据置信度满足任务要求;再增大注入到AI芯片中的SEU数量,重复前面所述随机翻转并进行所述识别新的推理数据集的操作,直到SEU数量范围覆盖任务要求;
推理数据组件,用于比较SEU故障注入前后AI芯片推理准确度变化,对AI芯片推理准确度退化情况进行分类,建立存储单元SEU数量和AI芯片不同准确度退化情况的关系。
7.根据权利要求6所述的AI芯片单粒子翻转影响评估系统,其特征在于,AI芯片存储单元的SEU截面σ(cm2/bit)的计算公式如下:
σ=N/(F·M·cosθ)
式中,N为SEU统计数,F为单位面积离子数(ions/cm2),M为被辐照器件的存储容量(bit),θ为束流方向与被辐照器件表面法线的夹角。
8.根据权利要求7所述的AI芯片单粒子翻转影响评估系统,其特征在于,根据轨道辐射粒子能谱环境计算存储单元单个位SEU发生概率R(upset/bit/day):
其中,Lmin、Lmax分别为舱内重离子的最小和最大LET值,Φ(L)为重离子全向通量。
9.根据权利要求6所述的AI芯片单粒子翻转影响评估系统,其特征在于,所述AI芯片推理准确度退化情况的分类是将SEU发生后准确度情况分为三类:良性情况、差情况、关键情况。
10.根据权利要求6所述的AI芯片单粒子翻转影响评估系统,其特征在于,AI芯片推理退化情况的概率为:
式中p1[x]表示AI芯片神经网络参数中有x个SEU情况下模型退化的概率,flag_iter[i]表示第i次的推理准确度是否退化,n表示对每一个SEU神经网络参数做了n次随机SEU故障注入测试。
CN202311652431.1A 2023-12-05 2023-12-05 Ai芯片单粒子翻转影响评估方法和系统 Pending CN117909145A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311652431.1A CN117909145A (zh) 2023-12-05 2023-12-05 Ai芯片单粒子翻转影响评估方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311652431.1A CN117909145A (zh) 2023-12-05 2023-12-05 Ai芯片单粒子翻转影响评估方法和系统

Publications (1)

Publication Number Publication Date
CN117909145A true CN117909145A (zh) 2024-04-19

Family

ID=90695524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311652431.1A Pending CN117909145A (zh) 2023-12-05 2023-12-05 Ai芯片单粒子翻转影响评估方法和系统

Country Status (1)

Country Link
CN (1) CN117909145A (zh)

Similar Documents

Publication Publication Date Title
Hwang et al. System-level simulation of hardware spiking neural network based on synaptic transistors and I&F neuron circuits
Libano et al. Selective hardening for neural networks in FPGAs
Neggaz et al. A reliability study on CNNs for critical embedded systems
Yuan et al. Improving dnn fault tolerance using weight pruning and differential crossbar mapping for reram-based edge ai
Cheng et al. Understanding the design of IBM neurosynaptic system and its tradeoffs: A user perspective
CN111310902B (zh) 神经网络模型的训练方法、边坡位移预测方法及相关装置
US20220222536A1 (en) Trusted graph data node classification method, system, computer device and application
CN104317662A (zh) Sram型fpga在轨单粒子翻转防护量化评估方法
CN117909145A (zh) Ai芯片单粒子翻转影响评估方法和系统
Lopes et al. Reliability analysis on case-study traffic sign convolutional neural network on APSoC
Siddique et al. Improving reliability of spiking neural networks through fault aware threshold voltage optimization
Li et al. A new QPSO based BP neural network for face detection
Madhiarasan et al. New criteria for estimating the hidden layer neuron numbers for recursive radial basis function networks and its application in wind speed forecasting
Shi et al. Faster detection method of driver smoking based on decomposed YOLOv5
Sakai et al. DropOut and DropConnect for reliable neuromorphic inference under communication constraints in network connectivity
CN110287453A (zh) 一种基于蒙特卡罗方法的货包跌落角度分析方法及系统
Linares Barranco et al. Guest editorial-Special issue on neural networks hardware implementations
Tran et al. Design of neuromorphic logic networks and fault-tolerant computing
Wang et al. Fault-tolerant deep neural networks for processing-in-memory based autonomous edge systems
Ahmed et al. Neuroscrub: Mitigating retention failures using approximate scrubbing in neuromorphic fabric based on resistive memories
CN114861570A (zh) 一种空间碎片环境平均演化预测及星座影响分析方法
Kiliç et al. A Robust Data-Driven Approach for Fault Detection in Photovoltaic Arrays
Satpathy et al. Effects of disorder on x-ray absorption spectra
Gu et al. Applying rough-set concept to neural-network-based transient-stability classification of power systems
Barbashov et al. Features of the model of main functional failures of digital CMOS VLSIs under the action of ionizing radiation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination