CN112115009B

CN112115009B - 一种用于神经网络处理器的故障检测方法

Info

Publication number: CN112115009B
Application number: CN202010809877.0A
Authority: CN
Inventors: 李雯; 王颖; 李华伟; 李晓维
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2022-02-18
Anticipated expiration: 2040-08-13
Also published as: CN112115009A

Abstract

本发明提供一种用于神经网络处理器的故障检测方法，所述检测方法包括:S1、根据待检测处理器的应用场景，获取该场景中对故障敏感的测试样本组成的测试集；S2、将所述测试集输入待检测处理器中进行神经网络推理；S3、计算待检测处理器对测试集进行神经网络推断后的分类置信度与无故障神经网络处理器对测试集进行神经网络推断后的分类置信度的置信度偏差，根据所述置信度偏差判断待检测处理器是否发生故障。其中，置信度偏差大于预设的偏差阈值的待检测处理器被判定为发生了故障。基于本发明，深度学习处理器只需要完成神经网络推断计算就可以高效地检测故障的发生，显著降低了故障检测的开销，提高了检测精度。

Description

一种用于神经网络处理器的故障检测方法

技术领域

本发明涉及深度学习领域，具体来说涉及深度学习处理器故障测试领域，更具体地说，涉及一种神经网络处理器的故障检测方法。

背景技术

随着深度学习算法、存算一体化技术和近似计算技术的不断成熟，专用神经网络处理器凭借其在性能、成本上的优势，被广泛应用在生产、生活的各个方面。然而新兴技术在极大改善处理器性能的同时，也带来了明显的可靠性问题。新兴制造工艺的不成熟、环境噪声、器件老化等问题都可能导致深度学习处理器发生故障。特别是在目前流行的基于忆阻器的神经网络芯片中，神经元细胞不可避免的会受到制造工艺的影响，使得其存储的神经网络参数偏离其理想值，最终导致严重的系统故障。即便处理器采用基于传统的CMOS(互补金属氧化物半导体)技术，SRAM(静态随机存储器)单元也有可能由于损耗、环境变化等原因出现故障。

在处理器可靠性领域，存储器故障可以根据故障原因分成永久性故障和瞬时故障。永久性故障是指由制造缺陷或者或电路老化造成的不可恢复的故障。对于可变电阻式随机存取存储器(ReRAM)，永久故障会导致ReRAM单元的电阻固定在高阻态(stuck-at-0故障)或者低阻态(stuck-at-1故障)，无法表示正确的存储值。对于CMOS存储器，永久故障会使存储单元中的存储值固定在极大(stuck-at-1故障)或极小值(stuck-at-0故障)。而瞬态故障，往往是由于不正确的读写操作造成的读干扰或者写干扰，导致存储单元存储的数值发生改变。相比于不可修复的永久性故障来说，瞬态故障是可调的，可以通过重新写入数值来修复。

如图1所示，各种故障会发生在处理器的整个生命周期且不可避免，这些故障产生的原因包括但不限于制造缺陷、工艺偏差、“读”扰动、“写”扰动、老化、耐久力退化等。一旦故障没有被及时检测出来，处理器将面临着崩溃的风险。对于故障敏感的深度学习处理器，已被训练好的神经网络参数被存储在存储器单元中，一旦某个存储单元发生故障，该存储单元存储的神经网络参数值会发生改变，计算错误将逐层传播并最终导致整个深度学习系统的崩溃。2017年有研究表明，瞬时故障会导致基于ReRAM的深度神经网络处理器的精度下降48％以上。

现有存储器故障检测技术主要是通过对存储器进行逐存储单元故障分析进行检测，从而保证在整个处理器生命期间所有的故障都能被分析检测处理，保障处理器的正常运行。检测方法主要有传统的内建自测试(Built-in Self Test，BIST)检测和针对ReRAM存储器的功耗感知潜通路测试技术。

存储器BIST技术：在待测电路内部设置专用的测试生成、施加、分析和控制结构，从而使待测电路可以完成自身测试。测试电路将预先设定好的测试向量按照一定的顺序施加到被测存储单元上，然后通过对比观测结果与预设结果，判断故障的位置和类型。这种方法可以精准地检测故障的发生并判断出故障的类型，但是同时存在缺点：1)使用这种方法的时间开销由存储单元的数目决定，对于配有大存储容量的处理器来说，故障检测所需要的时间较长，无法满足周期性实时故障检测的需求；2)这种方法需要对每一个存储单元进行多次读写，在一定程度上会加剧存储器的老化问题，加大故障发生的概率。

功耗感知潜通路测试技术:这种方法通过同时打开一组忆阻器，然后分析累计的潜通路电流来判断故障忆阻器的位置。虽然这种方法可以同时测试多个ReRAM单元，但是需要额外安装单独的忆阻器开关，带来了显著的硬件开销，因此不适用于资源紧缺的边缘计算设备。

从上述分析可知，现有的故障检测方法主要存在以下问题：第一，检测开销巨大，大部分方法需要对单元进行逐个“写-读-验证”操作，检测时间开销巨大。第二，一些硬件保障方法会带来额外的硬件开销，不适用于资源紧缺的边缘计算设备。以上两点直接导致现有的检测方法无法同时满足周期性实时检测深度学习处理器故障的可靠性与性能需求。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种新的神经网络处理器故障检测方法。

根据本发明的第一方面，提供一种用于神经网络处理器的故障检测方法，所述检测方法包括:S1、根据待检测处理器的应用场景，获取该场景中对故障敏感的测试样本组成的测试集；S2、将所述测试集输入待检测处理器中进行神经网络推理；S3、计算待检测处理器对测试集进行神经网络推断后的分类置信度与无故障神经网络处理器对测试集进行神经网络推断后的分类置信度的置信度偏差，根据所述置信度偏差判断待检测处理器是否发生故障。其中，置信度偏差大于预设的偏差阈值的待检测处理器被判定为发生了故障。

优选的，所述测试集是针对应用场景预先生成的测试集，生成所述测试集的方法包括如下步骤：P1、根据待检测处理器的应用场景的资源限制以及检测精度要求，设置测试样本集的大小；P2、在应用场景的原始正常数据样本中添加扰动生成多个初始测试样本；P3、对应用场景对应的原始神经网络模型随机进行不同的故障设置以生成多个不同的模拟故障神经网络模型；P4、用所有的模拟故障神经网络模型对每一个初始测试样本进行神经网络推断，统计每一个初始测试样本对所有模拟故障神经网络模型的故障检测精度，将故障检测精度大于预设的故障检测精度阈值的初始测试样本放入测试样本集。

其中，在所述步骤P2中，在原始正常数据样本基础上，沿神经网络模型的分类判断方向添加指定的扰动以产生对神经网络模型参数变动敏感的初始测试样本。

所述步骤P3通过在原始神经网络模型上修改神经网络参数值以模拟不同故障的发生情况来生成模拟故障神经网络模型。优选的，所述故障模拟神经网络模型的生成个数大于等于100。

所述故障检测精度是测试样本成功检测出故障的模拟故障神经网络的个数在所有模拟故障神经网络中的占比。优选的，所述故障检测精度阈值设置为大于等于90％。

根据本发明的第二方面，提供一种用于神经网络处理器的实时故障检测装置，包括：实时故障检测模块，用于在处理器空闲时唤醒故障检测，按照本发明第一方面所述的方法对处理器进行故障检测；测试样本生成模块，用于生成故障检测所需的测试样本并将通过故障检测效果评估的测试样本组成测试集。

与现有技术相比，本发明的优点在于：

深度学习处理器只需要完成神经网络推断计算就可以高效地检测故障的发生，显著降低了故障检测的开销。本发明没有对原有处理器结构做出改变，相比于传统存储器检测技术，本发明在系统功能层面对深度学习处理器中的存储器故障进行有效检测，在保障检测精度的同时，将检测效率上提高了10倍以上。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的故障检测方法流程示意图；

图2为根据本发明实施例的初始测试样本生成过程示意图；

图3为根据本发明实施例的置信度偏差对比示例示意图；

图4为根据本发明实施例的测试样本集生成过程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

发明人在对深度学习处理器(也叫神经网络处理器)进行可靠性研究时，发现现有故障检测技术对处理器的性能影响很大，在实际场景中实用性不高，如背景技术所述，这是由于为了保证对故障的检测精度，传统故障检测技术需要对每一个存储单元进行可靠性测试，测试时间随着存储单元线性增加。发明人通过对深度神经网络的特征进行分析发现，存储单元故障情况可以通过对深度学习处理器对测试样本推断后产生的结果进行分析得出。这样，在测试过程中，处理器不需要对每一个存储单元进行访问，从而显著降低故障检测对处理器性能带来的影响。

根据本发明的一个实施例，如图1所示，本发明提供一种用于神经网络处理器的故障检测方法，概括说来，包括如下步骤：T1、向待检测处理器输入测试样本并执行神经网络推断操作；T2、获取处理器输出的分类置信度并计算置信度偏差；T3、判断置信度偏差是否大于或等于预先设定的偏差阈值，如果是，则处理器出现了故障，未通过故障检测，反之，处理器通过故障检测。

优选的，将测试样本周期性的输入处理器执行神经网络推断操作以检测处理器故障的发生情况，实现故障实时检测。

其中，测试样本是处理器应用场景中对应的对故障敏感的测试样本。针对不同的应用场景，测试样本也不一样，例如，在图像分类应用领域，测试样本就是一系列图片；在视频分类应用领域，测试样本就是一系列视频片段。根据本发明的一个实施例，测试样本集中的测试样本是通过在原始样本中按照分类器分类方向添加特定的“扰动”生成的多个对故障敏感的测试样本组成，而且，为了保障故障检测的精度以及准确性，生成的测试样本要经过故障检测效果检验后将效果好的用于处理器故障测试。根据本发明的一个实施例，测试样本集的生成包括如下步骤：

首先，根据处理器的应用场景的资源限制即检测精度要求，设置测试样本集的大小(以N表示)。

然后，从处理器应用场景对应的数据集中随机选取N个原始正常数据样本，并在原始正常数据样本中沿分类器分类方向添加特定的“扰动”生成N个对故障敏感的初始测试样本。根据本发明的一个实施例，如图2所示，使用FGSM样本产生方法，通过沿着梯度方向修改原始样本，生成具有神经网络参数噪声敏感的测试样本。FGSM方法的具体计算方式如下：首先通过计算神经网络模型对输入样本的导数，然后用符号函数计算模型梯度的具体方向，再将求得的梯度方向与步长相乘，最后将“扰动”添加在原始输入样本上。FGSM方法的计算表达如下：

其中测试样本x′是通过对原有样本x添加“扰动”产生的。“扰动”

是模型误差函数J(x,y)梯度的方向。由于测试样本是根据误差函数的梯度产生的，对模型参数的变动相比于原始图像更加敏感。即便神经网络模型的参数发生了微小的变动，都会使测试样本的推断输出发生改变。因此，通过分析深度学习处理器对测试样本的推断结果就可以很容易地判断当前深度学习加速器的故障发生情况，显著提高了故障检测的效率。

第三，对应用场景对应的原始神经网络模型随机进行不同的故障设置以生成多个不同的模拟故障神经网络模型(也叫评估模型)，例如随机将原始神经网络模型的存储单元1设置为1故障，存储单元2设置为0故障，存储单元3设置为0故障等，随机设置存储单元的故障以生成多个模拟故障神经网络模型，优选的，模拟故障神经网络模型的个数应不低于100个，在资源需求能够满足的情况下，模拟故障神经网络的个数应该尽量多，以便能够模拟更多的故障情况，更好的保障故障检测精度。其中，所谓的故障设置是指在原始模型中随机注入故障，根据不同故障(如：存储单元固定为1故障、存储单元固定为0故障，存储值发生偏移等故障)的特点，在原有神经网络模型的基础上，人为修改神经网络参数值，模拟故障深度学习处理器的故障发生情况。其中，存储单元固定为1/0故障是通过将故障参数固定在参数的极大值/极小值来模拟；存储值偏移故障则通过将神经网络参数添加高斯噪声来模拟。通过随机注入不同的故障，本发明可以获得用于评估测试样本检测精度的大量评估模型。

第四，用生成的所有的模拟故障神经网络模型对每一个初始测试样本进行神经网络推断，统计每一个初始测试样本对所有模拟故障神经网络模型的故障检测精度，将故障检测精度大于预设的故障检测精度阈值的初始测试样本放入测试样本集。由于神经网络参数的变动会直接影响神经网络的推断结果。因此我们可以通过分析神经网络输出的针对该样本的推断结果与预设推断结果(无硬件故障发生的神经网络推断结果)的差异，获得当前评估模型的故障发生情况。如果当前评估模型对输入测试样本的推断结果与预设推断结果差距足够小，则说明该深度学习处理器运行正常，否则，说明该深度学习处理器发生故障。例如，如图3所示，以图像识别应用为例，当深度神经网络发生故障时，测试样本被分类为类别“0”的置信度从0.97变成了0.11，置信度变化(88％)超过预先设定的阈值(一般为3％-5％)，说明处理器存储器发生故障。通过统计该测试样本对所有评估模型故障情况的判断正确率(即故障检测精度)，获得该测试样本的故障检测效果。只有当测试样本集的故障检测精度超过应用场景要求的检测精度，该测试样本集才可以用于深度学习处理器故障检测；否则需要重新生成测试样本集。根据本发明的一个实施例，如图4所示，将一个初始测试样本分布输入所有的评估模型中，根据每一个评估模型的推断结果分析故障检测结果，故障检测结果包括故障和正常两种，统计检测结构为故障的数量并计算故障检测正确率(即故障检测精度)，故障检测精度为结果为故障的数量在所有故障检测结果数量中的占比，或者说故障检测精度是该检测样本成功检测出故障的评估模型的数量在所有评估模型中的占比。由于所有的评估模型都已经设置了故障，如果利用测试样本对评估模型进行故障分析时能够得到故障的分析结果，说明该测试样本能够成功检测出模型故障，能够检测出故障的数量越多，说明该测试样本的检测效果越好。本发明设置了故障检测精度阈值来筛选效果好的测试样本组成测试集用于神经网络处理器的故障检测，优选的，故障检测精度阈值不能低于90％,即能够放入测试集中的测试样本至少能够检测出90％的模拟故障神经网络模型有故障。

测试样本集通过评估后，就可以存储在深度学习处理器中进行故障检测了。

根据本发明的一个实施例，本发明提供一种用于神经网络处理器的实时故障检测装置，安装在神经网络处理器上，包括：测试样本生成模块，用于生成对故障敏感的测试样本；实时故障检测模块，用于在处理器空闲时唤醒故障检测，将所述测试样本生成模块生成的测试样本输入处理器进行故障检测。其中，优选的，测试样本生成模块生成的测试样本通过故障检测效果检验后组成测试集，提供给实时故障检测模块用于对处理器进行故障检测，测试集中的测试样本的效果越好，故障检测的精度越高。

具体地说，实时故障检测模块会在处理器空闲时被唤醒以满足处理器实时故障检测的需求。通过将测试样本生成模块产生的测试样本周期性地输入到处理器中进行计算，分析输出置信度，比较输出结果与理想结果(处理器无故障时的输出结果)的差异，判断处理器故障发生情况。通过这种功能性测试的方式可以及时有效地检测出处理器的故障发生情况，并且避免了传统故障检测方法带来的巨大时间开销和存储器磨损。

通过本发明，深度学习处理器只需要完成神经网络推断计算就可以高效地检测故障的发生，显著降低了故障检测的开销。本发明没有对原有处理器结构做出改变，相比于传统存储器检测技术，本发明在系统功能层面对深度学习处理器中的存储器故障进行有效检测，在保障检测精度的同时，将检测效率上提高了10倍以上。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于神经网络处理器的故障检测方法，其特征在于，所述检测方法包括:

S1、根据待检测处理器的应用场景，获取该场景中对故障敏感的测试样本组成的测试集；其中，所述测试集是针对应用场景预先生成的测试集，生成所述测试集的方法包括如下步骤：P1、根据待检测处理器的应用场景的资源限制以及检测精度要求，设置测试样本集的大小；P2、在应用场景的原始正常数据样本中添加扰动生成多个初始测试样本；P3、对应用场景对应的原始神经网络模型随机进行不同的故障设置以生成多个不同的模拟故障神经网络模型；P4、用所有的模拟故障神经网络模型对每一个初始测试样本进行神经网络推断，统计每一个初始测试样本对所有模拟故障神经网络模型的故障检测精度，将故障检测精度大于预设的故障检测精度阈值的初始测试样本放入测试样本集；

S2、将所述测试集输入待检测处理器中进行神经网络推理；

S3、计算待检测处理器对测试集进行神经网络推断后的分类置信度与无故障神经网络处理器对测试集进行神经网络推断后的分类置信度的置信度偏差，根据所述置信度偏差判断待检测处理器是否发生故障。

2.根据权利要求1所述的一种用于神经网络处理器的故障检测方法,其特征在于，在所述步骤P2中，在原始正常数据样本基础上，沿神经网络模型的分类判断方向添加指定的扰动以产生对神经网络模型参数变动敏感的初始测试样本。

3.根据权利要求1所述的一种用于神经网络处理器的故障检测方法,其特征在于，所述步骤P3通过在原始神经网络模型上修改神经网络参数值以模拟不同故障的发生情况来生成模拟故障神经网络模型。

4.根据权利要求1所述的一种用于神经网络处理器的故障检测方法，其特征在于，所述故障模拟神经网络模型的生成个数大于等于100。

5.根据权利要求1所述的一种用于神经网络处理器的故障检测方法，其特征在于，所述故障检测精度是测试样本成功检测出故障的模拟故障神经网络的个数在所有模拟故障神经网络中的占比。

6.根据权利要求5所述的一种用于神经网络处理器的故障检测方法，其特征在于，所述故障检测精度阈值设置为大于等于90％。

7.根据权利要求1所述的一种用于神经网络处理器的故障检测方法，其特征在于，置信度偏差大于预设的偏差阈值的待检测处理器被判定为发生了故障。

8.一种用于神经网络处理器的实时故障检测装置，其特征在于，包括：

实时故障检测模块，用于在处理器空闲时唤醒故障检测，按照权利要求1至7任一所述的方法对处理器进行故障检测。

9.根据权利要求8所述的一种用于神经网络处理器的实时故障检测装置，其特征在于，所述装置还包括：

测试样本生成模块，用于生成故障检测所需的测试样本并将通过故障检测效果评估的测试样本组成测试集。

10.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至7任一所述方法的步骤。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至7中任一项所述方法的步骤。