CN111476368A

CN111476368A - 一种脉冲神经网络权重图像化比较预测及网络抗干扰方法

Info

Publication number: CN111476368A
Application number: CN202010281351.XA
Authority: CN
Inventors: 李凡; 匡平; 郑庭颖; 何明耘; 徐翔
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-07-31
Anticipated expiration: 2040-04-10
Also published as: CN111476368B

Abstract

本发明公开了面向图像识别任务领域一种脉冲神经网络权重图像化比较预测及网络抗干扰方法，所述的方法包括以下步骤：1)对训练的脉冲神经网络使用权重图像化比较WGC方案进行预测；2)对模型训练得到的权重进行增强处理。提出权重图像化比较的网络预测方案，通过将新测试数据与网络学习到的每个过滤器二维化权重做图像相似度比较，输出最相近的过滤器映射的标签类别完成对数据的类别预测。本发明验证了该方案下的两种指标的表现。结果表明该方案对于提升网络的预测精度和训练收敛表现有着显著的帮助。通过对权重采取若干组的干扰添加，使得网络得以在标准训练集训练后能够相当好地应对测试数据的较大扰动干扰，显著提升了网络的鲁棒性。

Description

一种脉冲神经网络权重图像化比较预测及网络抗干扰方法

技术领域

本发明涉及面向图像识别任务技术领域，具体为一种脉冲神经网络权重图像化比较预测及网络抗干扰方法。

背景技术

为了实现脉冲神经网络(SpikingNeuralNetwork，SNN)在MNIST上面的无监督图像识别任务，PeterU.Diehl和MatthewCook在2015年设计并提出了一种基于STDP的SNN无监督学习算法，即一种基于能够在神经形态芯片(neuromorphicchips)上部署的生物神经系统的结构和机制(LIF神经元，电导突触，指数型动态特性，横向抑制，可调节发射阈值)的STDP无监督学习SNN神经网络算法，6400个神经元实现对MNIST数据集95％的识别分类精度。为了方便本发明称Diehl和Cook所提出的网络结构和算法为DC网络。包括神经元和突触模型、网络结构、学习机制、学习平衡性、输入编码、分类。

Diehl和Cook提出的方案使得基于脉冲神经元的网络成功用于了图像识别领域，且具有良好的规模可伸缩性，网络的准确度是可以随规模增大提升的(但是有一定上限)，100/400/1600/6400个兴奋性神经元对应的预测精度分别为82.9％/87.0％/91.9％/95.0％。但其仍有相当的局限性，具体包括：

神经元数量的优势尚未发挥出来。

这种方案使兴奋层中的单个神经元能够学习独特的数据表示，或者说是一种图像模式。神经元将其学到的模式编码进连接其的突触权重中(通过STDP规则学习得到)，这种神经元-突触的组合类似一个“过滤器”，因为它更有可能响应与自身学习的模式相近的图像。模式的学习是建立在整张图像级别上的。

由于网络将所有标签样本整合到一起进行无监督学习，对于模式简单的数字图像学习较为容易，会有较多的神经元学习到类似的模式，使得某些神经元学习到重复冗余的模式，浪费了神经元数量的优势。此外对于模式复杂的数字图像，神经元很难以在无监督环境充分提取到原型特征，使得学习到模式较为模糊和散乱，不能保证有神经元能够对其有持续的响应，从而浪费了较多复杂模式样本。一个100神经元网络学习到的针对MNIST数据的过滤器群例子如图7所示，每个神经元的输入连接突触的权重分布使用颜色深浅表示。

从图7中可以看到，对于简单的模式样本(例如数字1)，有数个神经元学习到的模式非常接近，从而造成了神经元数量的浪费。而对于复杂模式的样本(例如数字5)，有多个神经元学习到的模式模糊且不完整，例如第三行的第四个神经元虽然学习到了数字5的模式，但是并没有充分地提取该模式的特征，权重图像比较模糊。

正因为网络尚未充分发挥其表征数据集的优势，其在标准MNIST测试集上的准确率较低，Diehl和Cook展示的准确率如下表所示：

表1不同神经元个数的D&C网络测试准确率

可以看出该网络存在一个上限(大约在95左右)。随着神经元数量的递增，准确率的增长越来越缓慢，要使用6400神经元才能接近其网络的最佳潜能。而当神经元数量较小时，网络的表现并不佳，100、400、1600神经元都未能达到较为理想的测试准确率。

由于在每一时间步只允许一个神经元脉冲，则在某一神经元正在学习模式的时候，即该神经元收输入激发脉冲时，其余神经元因抑制作用只能等待。即是每一个样本只能激发一个神经元的持续响应，这种学习方式是典型的串行性学习，网络几乎没有并行性学习能力。又因为权重更新只在神经元脉冲时才启动，即每一时间步仅有一个一个神经元的连接突触权重接受更新，学习效率低下。

在原始工作中，Diehl和Cook说明了每一组神经元个数的学习轮次(epoch)，即需要重复输入训练集的次数，轮次的设置如下表所示：

表2各神经元个数的D&C网络训练所需轮次

兴奋性神经元数量	训练轮次(次)
		100	2/3(使用40000个样本进行训练)
400	3
		1600	7
6400	15

如表可见，当网络规模增大时，网络训练耗时增长迅速，训练效率也越发缓慢，而当仅训练一轮时，各规模网络的测试准确率如下表所示：

表3各神经元个数的D&C网络仅一轮训练后的测试准确率

兴奋性神经元数量	一轮训练的测试准确率(％)
		100	82.70
400	86.87
		1600	90.18
6400	65.30

当网络规模逐渐增大时，仅一轮训练很难达到理想的效果。

基于此，本发明设计了一种权重图像化比较预测及网络抗干扰方法，以解决上述提到的问题。

发明内容

本发明的目的在于提供一种脉冲神经网络权重图像化比较预测及网络抗干扰方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种脉冲神经网络权重图像化比较预测及网络抗干扰方法，所述的方法的包括以下步骤：

1)对训练的脉冲神经网络(以任务拆分式脉冲神经网络(TaskEquipartitionNetwork，TEN)为例)使用权重图像化比较(WeightGraphicalComparison，WGC)方案进行预测；

2)对模型训练得到的权重进行增强处理。

优选的，所述权重图像化比较为通过计算每个过滤器权重的二维化图像与输入的二维标准化图像的相似度值，找到最接近输入图像的过滤器，输出该过滤器内神经元映射的标签作为输入图像的预测标签，预测结果p表示为如下公式：

其中，s(*)表示映射函数，w_i表示第i个神经元过滤器权重的二维标准化图像，x表示标准化输入图像，f(*)表示相似度计算函数，值越高代表两个图像之间相似度程度越高，argmax函数选取相似度值最高的过滤器的索引下标i；

对于相似度函数的选择，使用峰值信噪比PSNR以及结构相似度SSIM来计算，计算两张图像I、K的PSNR值的公式为：

其中，MSE表示两张图像的均方误差，MAX_I表示图像I的最大像素值，计算两张图像x、y的SSIM值的计算公式为：

SSIM(x,y)＝[l(x,y)]^α[c(x,y)]^β[s(x,y)]^γ

其中，l(x,y)比较x和y的亮度，c(x,y)比较x和y的对比度，s(x,y)比较x和y的结构，α＞0,β＞0,γ＞0调整l(x,y)、c(x,y)和s(x,y)的重要参数，μ_x及μ_y、σ_x及σ_y分别为x和y的平均值和标准差，σ_xy为x和y的协方差，C₁、C2、C3皆为常数，用于维持l(x,y)、c(x,y)、s(x,y)的稳定。

优选的，所述任务拆分式脉冲神经网络(TaskEquipartitionNetwork，TEN)配合WGC进行训练具体流程步骤如下：

1)记录训练集样本总数，记为NS；

2)初始化样本编号j＝0，初始化更新周期数UI，映射函数固定为s(NI_i)＝i，其中NI_i表示第i个子网络；

3)从训练集中选取编号为j的样本；

4)首先关闭网络训练，利用当前网络状态与映射函数s(*)预测该样本，预测方法采用WGC，记录预测结果；

5)预测后开启网络训练，将该样本输入到网络中进行学习，使用STDP规则更新网络权重；

6)j＝j+1；

7)检查是否jmodUI＝0，若是，输出当前UI样本的平均预测准确率作为训练曲线描点；若否，则进行下一步；

8)检查是否j<NS，若是，则回到步骤3，若否则结束训练。

优选的，定义：Wⁿ表示具有n个兴奋神经元的网络权重，

表示该权重中索引下标[i,j)的权重过滤器群，θ为一组干扰操作的参数选取，A(W，θ)表示对权重W做一次参数为θ的随机干扰添加的操作，其依次对每一个过滤器权重添加干扰，得到一组干扰后的权重，权重增强的具体流程为：

1)模型在标准训练集上进行训练，模型拥有n个神经元，权重为Wⁿ；

2)设定一个增强权重的组数k，在网络训练结束后，搭建一个同结构的初始网络，但神经元个数为n×k，权重表示为W^kn；

3)选定干扰项，设定各干扰项初始化程度参数θ₀；

4)利用当前参数设定值θ₀对Wⁿ中每一个过滤器做一次随机形变操作，即A(Wⁿ，θ⁰)，结果记为Wⁿ⁰，指定

即将Wⁿ⁰拷贝到新网络权重中索引0-n的过滤器权重中；

5)加大干扰程度记为θ₁，再做

继续加大程度重复该操作，直到

此时新网络的所有权重均来自于原始网络权重的不同操作；

6)使用新网络作为最终权重增强后的网络，使用该网络来进行干扰测试集的测试。

优选的，所述选定的干扰项包括：随机噪声、随机裁切、随机旋转，所述干扰项的程度参数包括Sigma参数、Scale参数和Angle参数。

与现有技术相比，本发明的有益效果是：

1、提出权重图像化比较的网络预测方案。通过将新测试数据与网络学习到的每个过滤器二维化权重做图像相似度比较，输出最相近的过滤器映射的标签类别完成对数据的类别预测。同时，本发明验证了该方案下的两种指标的各自表现。结果表明该方案对于提升网络的预测精度和训练收敛表现有着显著的帮助。

2、对任务拆分网络的抗干扰、网络鲁棒性进行提升改进，通过对权重采取若干组的干扰添加，使得网络得以在标准训练集训练后能够相当好地应对测试数据的较大扰动干扰，显著提升了网络的鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明WGC预测流程图；

图2为本发明一个权重增强的结果示例图；

图3为本发明100神经元TEN网络学习到的过滤器权重示意图；

图4为本发明不同干扰参数组合下的数据示例图；

图5为本发明不同神经元个数的DC网络使用两种评价方法的训练准确度图；

图6为本发明不同神经元个数的TEN与DC网络在WGC方案下的训练准确率曲线图；

图7为现有100神经元DC网络学习到的权重过滤器示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

请参阅图1-3，本发明提供一种技术方案：一种脉冲神经网络权重图像化比较预测及网络抗干扰方法，所述的方法的包括以下步骤：

1)对训练的脉冲神经网络(以任务拆分式脉冲神经网络(Task EquipartitionNetwork，TEN)为例)使用权重图像化比较(Weight Graphical Comparison，WGC)方案进行预测；

2)对模型训练得到的权重进行增强处理。

本实施例中，权重图像化比较为通过计算每个过滤器权重的二维化图像与输入的二维标准化图像的相似度值，找到最接近输入图像的过滤器，输出该过滤器内神经元映射的标签作为输入图像的预测标签，预测结果p表示为如下公式：

SSIM(x,y)＝[l(x,y)]^α[c(x,y)]^β[s(x,y)]^γ

本实施例中，所述TEN配合WGC进行训练具体流程步骤如下：

1)记录训练集样本总数，记为NS；

3)从训练集中选取编号为j的样本；

6)j＝j+1；

8)检查是否j<NS，若是，则回到步骤3，若否则结束训练。

本实施例中，定义：Wⁿ表示具有n个兴奋神经元的网络权重，

3)选定干扰项，设定各干扰项初始化程度参数θ₀；

即将Wⁿ⁰拷贝到新网络权重中索引0-n的过滤器权重中；

5)加大干扰程度记为θ₁，再做

继续加大程度重复该操作，直到

此时新网络的所有权重均来自于原始网络权重的不同操作；

选定的干扰项包括：随机噪声(Random Noise)、随机裁切(Random Cropping)(即从原图中选取一个随机区域作为保留区域，其余区域剔除，并将保留区域扩大到原图大小)、随机旋转(Random Rotate)，干扰项的程度参数包括Sigma参数、Scale参数和Angle参数。Sigma参数为随机噪声的方差，值越大表示干扰程度越大，值为0表示无噪声添加；Scale参数为随机裁切的保留区域占全图的比例，值越小代表干扰程度越大，值为1表示无裁切；Angle参数表示最大随机旋转角度，值越大表示干扰程度越大，值为0表示无旋转。将初始化参数作为当前形变设定值。

本发明选取k-5，且各组的形变参数分别为下表所示：

表4权重增强的参数设定

其中，Sigma＝0，Scale＝1，Angle＝0即表示标准测试集，即本发明增强后的权重中包含一组原始未处理权重Wⁿ。一个权重增强后的案例如图2所示：左边为原始25神经元网络，右边为权重增强后的结果。

使用WGC方案，新入的测试数据并不输入到网络中进行处理，而仅仅使用了网络的权重部分和神经元的标签映射关系，兴奋层、抑制层以及其他链接结构等均抛弃掉了，这使得预测所需时间大大减少了，处理样本的计算量高于相似度的计算量，且需要存储的信息大大减少了。

在DC网络上使用WGC流程仍然较为复杂，原因在于WGC需要映射函数s(*)，而DC网络需要通过标签映射过程才能获得。而在TEN网络上使用WGC就相当简便了，因为TEN网络预测公式中的s(*)无需通过神经元标签映射得到。由于TEN网络预先就根据类别个数将网络拆分为了M个子网络，每个子网络便自带有映射关系，例如子网络0内的所有神经元都被映射为了标签0，省去了全部的神经元标签映射操作，节省了较多训练时间。

TEN配合使用WGC可减少步骤操作复杂度，省去映射过程，对于TEN+两步表征过程效果更佳明显，显著降低了网络训练流出复杂度与时间开销。

实施例2

如图3所示，展示了一个100神经元的TEN学习到的过滤器群，其中第l行表示第l个子网络学习到过滤器。可以看到，正因为TEN结构的引入，各类别具有同等容量的模式表征能力(都为10个)，这种结果对于WGC方案有着显著的提升。

为了比较DC网络与TEN，以及WGC与原始衡量方案，本发明设置了不同神经元个数的测试实验。其中，神经元个数从100神经元到1000神经元不等，对DC网络的实验设置为：

100-625神经元网络均在MNIST训练集上训练1个轮次(epoch)，900和1000神经元网络训练2个轮次，1600神经元训练3轮。

网络使用两步表征过程和WGC法进行测试，每组实验均进行3次独立实验，记录两种方案下的网络的平均准确率。

对于TEN网络的设置为：

100神经元网络仅使用12000个训练集样本进行训练，200神经元网络训练20000张样本，400神经元网络训练40000张样本，625-1000神经元网络训练1轮，1600神经元网络训练2轮。

网络使用WGC法进行测试，每组实验均进行3次独立实验，记录平均测试准确率。

测试比较的结果展示在了下表中。为了方便起见，后续图表中，两步表征方案使用raw表示。

表5不同神经元个数的D&C与TEN网络的不同衡量方案的测试准确率

其中每行内加粗数字代表改行最优准确率数值，加粗且加下划线表示次优数值，下同。此外在神经元个数一列中，带括号的表格中，括号外数字代表D&C网络神经元个数，括号内数字表示实际的TEN网络神经元个数。

注意到，对于WGC法中的PSNR衡量指标来说，TEN在不同规模的网络下均显著地优于DC网络，这种优势在网络规模小的时候表现尤为突出，在100神经元尺度下，TEN准确率提升了7.71％的PSNR准确率，提升较为明显。

同时比较在DC网络上的两步表征过程与PSNR指标可以看出，在不同规模的网络下PSNR法均显著性地提升了DC网络的网络表现。

此外，虽然SSIM法在DC网络上相较于两步表征过程或许有着些许测试准确率的下降，但是却在TEN上得到了发挥，当TEN网络规模逐渐增大时，SSIM的优势越发体现出来。

本发明通过WGC对比传统两步表征过程方案具有更快的收敛速度，如图5所示，该图展示了WGC中PSNR指标与两步表征过程方案(raw)在255、400、9000的DC网络上的训练准确率曲线，每训练一个周期(250样本)的样本记录一次下一周期样本的平均预测准确率，正如上文提及的那样。

本发明训练曲线进行了平滑处理：使用公式ACC_i′＝(1-f)*ACC_i+f*ACC_i′_-1对第i次记录的准确率平滑操作，其中ACC_i′表示第i次平滑后的准确率，ACC_i表示第i次原始记录的准确率。我们选取f值为0.8。可以看到WGC方案的准确率迅速地与原始方案拉开了距离，并且几乎所有尺寸的网络的准确率在23000样本左右均已经超过了90％。WGC显著地加快了网络的收敛速度。

此外，本发明同样比较了TEN与DC网络使用WGC的差异，比较结果如图6所示。明显注意到WGC在TEN上收敛速度进一步提升，显著地快于DC网络的收敛速度。例如对于900神经元的两种来说网络，任务拆分网络在4000-5000样本时就已经越过了90％，而此时DC网络只有大约80％准确率，更不用说两步表征方案在此时仅有大约50％。由于任务拆分网络中划分出了多个子网络，训练时抑制仅在一部分神经元(10分之1的总体网络规模)起作用，从而加速了网络过滤器的学习。除此之外，需要注意到TEN对于训练集规模同样有着优势，如上面提到的，100、200、400神经元拆分网络仅用了相当少的数据进行训练，甚至100神经元的训练集规模只有同等大小的DC的5分之1。

通过网络结构、学习策略与新评价指标的使用，显著缩减网络收敛时长与轮次，同时降低网络对训练样本数量的依赖。

为了验证不同网络结构的鲁棒性差异，我们让TEN和DC网络均在标准MNIST训练集上进行训练，训练集未做任何处理，而在测试时，我们对测试集添加一些干扰因素，类似于对抗样本(Adversarial Samples)，使用这些干扰测试集对训练好的网络进行测试。记录网络在不同干扰程度下的测试准确率。

我们选定的干扰项包括：随机噪声(Random Noise)、随机裁切(Random Cropping)(即从原图中选取一个随机区域作为保留区域，其余区域剔除，并将保留区域扩大到原图大小)、随机旋转(Random Rotate)。

各选取的干扰项的程度参数：Sigma参数为随机噪声的方差，值越大表示干扰程度越大；Scale参数为随机裁切的保留区域占全图的比例，值越小代表干扰程度越大；Angle参数表示最大随机旋转角度，值越大表示干扰程度越大。我们设定了不同组的参数选择，每组有着不同的变形程度，各组的参数选取以及数据示例如图4所示：

对于测试模型，本发明选取同为1000神经元的TEN与DC网络，3个TEN网络，3个DC网络，每个网络均独立训练(不同的随机初始化权重参数)。每个网络的干扰测试集均由标准MNIST测试集独立随机生成。且使用多组的干扰参数生成多组干扰测试集，记(15，0.8，10)表示Sigma＝15、Scale＝0.8和Angle＝10的干扰参数选择。

测试是记录相同结构的3个网络的平均测试准确率。均选取WGC作为预测方案，测试结果如下：

表6 1000神经元DC与TEN网络在WGC方案下的干扰测试准确率

可以注意到，对于轻微的数据集抖动，两种网络结构的PSNR准确率均尚有可观的准确率。但随着变形程度的增加，PSNR准确率有着较为明显的降低。但TEN相较DC网络有着明显的鲁棒性优势，不同干扰程度下均有着高于DC网络的测试准确率。

另外可以注意到的是，SSIM方案由于其计算方式的显著性不同，其有着最佳的稳定性与鲁棒性，尤其在TEN上，其在最大变形程度下亦保持着可观的准确率表现。此外，SSIM有着非常出色的抗噪声能力，第一组与第四组的结果可以加以佐证，甚至在高噪声干扰的情况下，SSIM的准确率也有所提高。

结果表明TEN的网络结构对鲁棒性有着不错的贡献，且PSNR的抗干扰能力要明显弱于SSIM法。

为了解决PSNR指标的低鲁棒性，本发明使用了上文提到的权重增强法，增强组数和每组的干扰参数设置同样如上文所述。经过权重增强后的干扰测试结果见下表所示：

表7 1000神经元DC与TEN网络权重增强后的干扰测试准确率

结果可见权重增强的提升是显而易见的，尤其对于PSNR方法来说，其显著地提高了高干扰数据的测试准确率，尤其对(50,0.8,15)的干扰参数组来说，提升了17.79％。同样，对于SSIM来说，帮助也是非常明显的。注意到对于低形变甚至无形变测试数据，所有WGC方案并没有明显地下降，可见权重增强法确实能明显提升网络的抗干扰能力即网络的鲁棒性。

同样从结果中能够看出TEN网络具有更好的鲁棒性。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。