CN114998659B

CN114998659B - 随时间在线训练脉冲神经网络模型的图像数据分类方法

Info

Publication number: CN114998659B
Application number: CN202210694741.9A
Authority: CN
Inventors: 林宙辰; 肖命清; 孟庆晏; 张宗鹏; 贺笛
Original assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou; Peking University
Current assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou; Peking University
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2024-05-24
Anticipated expiration: 2042-06-17
Also published as: CN114998659A

Abstract

本发明公布了一种随时间在线训练脉冲神经网络模型的图像数据分类方法，构建脉冲神经网络模型并设计随时间在线方法训练模型；再利用训练好的模型对图像数据进行分类和识别，有效提升图像数据的分类和识别性能；其中图像数据包括计算机图像数据和神经形态的图像视觉数据。通过本发明提供的方法，可以在训练脉冲神经网络SNN模型时，极大地减小训练内存的开销，将训练得到的模型用于计算机图像数据和神经形态图像视觉数据的分类与识别等视觉任务，能够提高分类与识别性能、降低识别系统的处理延迟，能实现高效节能的图像视觉数据分类与识别系统。

Description

随时间在线训练脉冲神经网络模型的图像数据分类方法

技术领域

本发明属于模式识别、机器学习、人工智能、图像处理及神经形态计算技术领域，涉及计算机图像数据分类技术和神经形态的图像视觉数据分类技术，具体涉及一种随时间在线训练脉冲神经网络模型的图像及神经形态数据分类方法。

背景技术

脉冲神经网络(SNN)被认为是第三代神经网络模型，并在最近几年受到了越来越多的关注。SNN模型由受大脑启发的脉冲神经元组成，这些神经元模拟生物神经元，通过发放脉冲信号进行相互之间的信息传递，从而支持事件驱动的计算方式，能够在神经形态芯片上用较低的能量消耗实现高效的计算。SNN模型可以高效节能地处理常见的计算机图像数据和神经形态的图像视觉数据(neuromorphic vision data)，后者是一种模仿人类视觉感知的基于脉冲时间的数据，通常由神经形态照相机产生。

泄漏整合激活模型(LIF)是SNN最常用的脉冲神经元模型。每个LIF神经元以一个微分方程维护一个膜电位并整合输入的电流，其对于膜电位的动态由如下方程描述：

其中u是膜电位，I是输入的电流，V_th是神经元脉冲发放的阈值，R和τ_m分别是电阻和时间常数。神经元将在膜电位u达到阈值V_th的时刻t^f发放一个脉冲信号，而膜电位将重置为静息电位u＝u_rest，静息电位一般取为0。神经元发放的脉冲序列可由狄拉克δ函数表示为一个SNN模型由相互连接的脉冲神经元组成，神经元之间有连接的权重。本发明考虑简单的电流模型I_i(t)＝∑_jw_ijs_j(t)+b_i，其中下标i表示第i个神经元，w_ij是神经元j到神经元i之间连接的权重，b_i是偏置项。上述微分方程经过离散化后，SNN模型的计算形式可表示为：

其中H(x)是Heaviside阶跃函数，s_i[t]是神经元i在时刻t的二值的脉冲信号，λ＜1是一个和常数τ_m与离散时间步长相关的泄漏项(通常可取为)。常数R，τ_m和时间步长被吸收进权重和偏置。膜电位重置操作被实现为减去阈值的形式。

然而，由于复杂的神经元模型具有离散的产生脉冲信号的过程，SNN模型的监督训练是极具挑战性的。此前有一些方法被提出以解决SNN监督训练的问题。其中，一类主流的方法是随时间反向传播(BPTT)并使用替代梯度(SG)处理脉冲信号不可微的问题。这些方法沿时间方向展开脉冲神经元的迭代计算表达式，沿展开的计算图进行误差反向传播，并使用替代导数近似不可微的脉冲发放函数的导数。例如Wu等人(Wu et al.Spatio-temporalbackpropagation for training high-performance spiking neuralnetworks.Frontiers in Neuroscience，2018.)提出了四种替代脉冲发放二值函数的导数的连续函数。但是，由于这些方法需要保存展开的计算图，他们在训练的过程中将受制于大量的和时间步数成正比的内存开销，同时这些方法使用近似的替代梯度进行优化的方式缺乏足够的理论保证。另一系列的工作在神经元的脉冲信号表示之间建立一种闭式的映射关系，如(加权)放电率或放电时间，这将和传统的人工神经网络(ANN)的形式相类似。从而SNN可以通过脉冲信号表示之间的等价的映射计算梯度进行优化，或者从一个训练好的等价的ANN进行转换。这些方法的优化过程相比替代梯度的方法更清晰。然而，他们训练的模型相比使用SG的BPTT的方法，在推理时都需要更大的时间步数来取得类似的效果，因此他们将受制于较高的延迟，且如果脉冲信号表示是基于放电率的，也将需要更多的能量消耗。对于这两类方法，另一个关键的缺点在于，他们都和生物上的在线学习是不一致的，而这也是神经形态芯片上的学习法则(Davies et al.Loihi：A neuromorphic manycore processorwith on-chip learning.IEEE Micro，2018.)。我们需要保持在线学习的性质，从而为在神经形态芯片上训练高性能的SNN模型进行铺路。

因此，现有基于脉冲神经网络的图像视觉数据分类技术或者需要较大的内存开销以训练得到高性能低延迟的SNN模型，或者需要较高延迟的推理以取得高性能，现有技术尚未出现能够保持随时间在线学习的性质对SNN模型进行训练，从而能够以低内存开销训练得到高性能和低延迟的SNN模型，进行高效节能的图像视觉数据分类与识别任务的技术。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于随时间在线训练的脉冲神经网络模型进行图像视觉数据分类的方法，方法取名为OTTT(Online Training ThroughTime)。通过本发明提供的方法，可以在训练SNN模型时极大地减小训练内存的开销，将训练得到的模型用于计算机图像数据和神经形态图像视觉数据的分类与识别等视觉任务，能够提高分类与识别性能、降低识别系统的处理延迟，能实现高效节能的图像视觉数据分类与识别系统。

本发明将计算机图像数据和神经形态的图像视觉数据两种数据类型统称为图像数据。本发明中涉及的神经形态数据通常由神经形态照相机将计算机图像数据进行转换而生成得到。神经形态数据使用脉冲序列，即值为0或1的时间序列，来表示图像中每个像素点位置的信息。本发明通过脉冲神经网络常用的LIF神经元模型，构建前馈型或反馈型脉冲神经网络模型，它的输入为图像数据(计算机图像数据或者神经形态图像视觉数据)，输出为预测得到的数据分类结果；通过本发明方法，构建模型并进行高效的训练，可以利用得到的高性能、低延迟的脉冲神经网络模型进行图像视觉数据的有效分类与识别，提高图像分类与识别效率。

为方便起见，本发明定义如下术语名称及参数：

x[t]：离散情况下，在时刻t时的输入图像数据样本向量；

y：输入图像数据样本的标签向量；

u[t]：离散情况下，一组脉冲神经元在时刻t时的膜电位向量；

s[t]：离散情况下，一组脉冲神经元在时刻t时的脉冲信号向量；

离散情况下，一组脉冲神经元在时刻t时记录的神经元活动向量；

T：脉冲神经网络的总离散时间步数；

λ：离散情况下，脉冲神经元的泄漏项参数；

V_th：神经元发放脉冲的阈值；

N：前锁或反锁型脉冲神经网络模型中神经元的总层数；

向量上标l：前馈或反馈型脉冲神经网络模型中层数的标号，可作为上标，如u^l[t]表示第l层神经元的膜电位向量等，l＝0表示输入层，l＝N表示输出层；

W^l：第l层到第l+1层神经元前馈连接的权重矩阵，l＝0表示输入层到第一层隐层的连接权重；

广义的任意第l_i层到任意第l_j层神经元的前馈或反馈连接的权重矩阵；

b^l：第l层的偏置向量；

L：模型训练时的总损失；

L[t]：在时刻t时模型训练的损失；

模型训练时模型的输出与输入图像数据样本标签之间的损失函数；

在时刻t时第l_j层神经元膜电位的梯度；

在时刻t时模型参数W^l的梯度；

在时刻t时模型参数/>的梯度。

本发明提供的技术方案是：

一种随时间在线训练脉冲神经网络模型的图像数据分类方法，基于构建的前馈或反馈型SNN模型并通过提出的方法训练模型，实现高性能、低延迟且高效节能地进行计算机图像数据与神经形态图像视觉数据的分类和识别，有效提升图像视觉数据的分类和识别性能；包括以下步骤：

1)将图像或神经形态数据分为训练样本和测试样本；

2)对训练样本进行预处理，进行标准数据增强：

21)对于图像数据，预处理可采用常用技术，如减去图像数据集的像素值的均值并除以标准差；数据增强可采用标准增强技术，如在图像每边增加4个零值像素，再进行随机裁剪；对图像进行随机水平翻转；对图像进行随机中心旋转等；

22)对于神经形态数据，预处理可采用常用技术，如累积一段时间的脉冲数据以减小时间分辨率；

本发明中，通过神经形态照相机将计算机图像数据转换生成神经形态数据。神经形态数据的像素点使用脉冲序列(即值为0或1的时间序列)来表示。

3)构建前馈或反馈型脉冲神经网络模型；并采用权重标准化的方法，将构建的网络模型权重矩阵进行重参数化：

本发明考虑LIF脉冲神经元模型，构建前馈型脉冲神经网络和反馈型脉冲神经网络模型，同时采用权重标准化的技术，模型包括输入层、隐层、输出层；步骤如下：

31)构建网络的输入层：

网络的输入层的输入是预处理后的神经形态数据或者实值的计算机图像。

32)构建前馈型或反馈型的网络的隐层：

对于前馈型脉冲神经网络，构建多组(N-1组)脉冲神经元作为不同的隐层，输入层与隐层和隐层与隐层之间具有前馈连接，最后第N-1层隐层与输出层具有前馈连接。

对于反馈型脉冲神经网络，构建多组(N-1组)脉冲神经元作为不同的隐层，输入层与隐层和隐层与隐层之间具有前馈连接，最后第N-1层隐层与输出层具有前馈连接，第N-1层隐层与第1层隐层具有反馈连接。

以上输入层与隐层、隐层与隐层、隐层与输出层之间的连接均代表任意的线性操作，可以包括全连接的神经网络层、卷积神经网络层等等。

33)构建网络的输出层：

网络的输出层采用一组不会发放脉冲和重置膜电位的神经元，这可以通过将脉冲神经元的脉冲发放阈值设为无穷大的方式实现，神经元数量和图像数据分类的类别数相同(每个神经元对应一个类别)，并使用累积的神经元膜电位的大小作为图像数据分类的标准。第N-1层隐层与输出层之间采用全连接的形式。输出层即为网络最后的分类层。在时刻t时模型的输出为u^N[t]＝W^N-1s^N-1[t]+b^N，模型最后将根据总时间T后累积的神经元膜电位对图像数据进行分类，选择最大膜电位的神经元对应的类别(即对神经元膜电位向量取argmax运算操作)作为预测的图像数据分类类别。

34)采用权重标准化的技术，将构建的网络模型权重矩阵进行重参数化：

在上述步骤3)构建的前馈或反馈型脉冲神经网络的基础上，采用对前馈连接权重的权重标准化技术(Brock et al.Characterizing signal propagation to close theperformance gap in unnormalized resnets.International Conference on LearningRepresentations，2021.)。采用权重标准化的方法将脉冲神经网络神经元之间连接的权重矩阵重参数化，表示为：

其中，为重参数化后的权重矩阵第i行第j列位置的元素；W_i，j为原始权重矩阵第i行第j列位置的元素；/>和/>分别是权重矩阵沿输入维度计算的均值和方差，M是权重矩阵输入维度的大小，γ是一个通过分析信号传播的性质决定的缩放系数，本发明具体实施时采用γ＝2.74，α是一个额外的可学习的系数，其初始化为1。

4)通过随时间在线训练的方法训练步骤3)构建并重参数化的脉冲神经网络模型：

基于步骤3)中构建的前馈或反馈型脉冲神经网络，通过随时间在线训练的方法计算每个时刻损失函数关于权重的梯度，对网络进行训练，包括如下步骤：

41)在每个离散时刻t，对模型输入图像样本数据x[t]，模型逐层根据神经元连接(前馈或反馈)的输入更新脉冲神经元的膜电位u^l[t]、产生脉冲s^l[t]、前传脉冲信号，同时每个神经元通过如下方式记录神经元活动，表示为：

其中，为第l层神经元在时刻t时记录的神经元活动向量；s^l[t]为第l层神经元在时刻t时的脉冲信号向量；

42)然后在每个时刻t，根据最后输出层的输出计算即时的损失函数逐层计算并反向传播对神经元膜电位的即时梯度，得到每一层关于膜电位的梯度，其中关于第l层膜电位的梯度可表示为：

其中即时的反向传播仅针对前馈连接，不考虑反馈连接；Π为连乘符号；上标表示转置操作；对于不可微的计算的求导/>将逐元素使用替代梯度/> 或/>进行计算，其中前者的替代梯度可以近似脉冲神经元之间基于脉冲信号表示的闭式的映射关系的导数。本发明训练模型的总损失是各时刻的即时损失的累和/>当损失函数/>是一个凸函数(如交叉熵)时，该总损失是此前常用的基于平均放电率的损失的一个理论上界。

43)接着，在每个时刻t，根据步骤41)中记录的神经元活动和步骤42)中计算的关于神经元膜电位的梯度，计算对脉冲神经网络连接权重的即时梯度：

其中式5代表前馈型脉冲神经网络的情况，式6代表广义的任意连接脉冲神经网络(包括前馈和反馈型)的情况，其含义均表示使用连接的后神经元膜电位的梯度(即式5中的第l+1层神经元膜电位的梯度和式6中的第l_j层神经元膜电位的梯度/>)和连接的前神经元的记录的神经元活动(即式5中的第l层的记录的神经元活动/>和式6中的第l_i层的记录的神经元活动/>)计算连接权重的即时梯度。可以证明这样计算的梯度在一定条件下能够为基于脉冲信号表示构建的优化问题提供下降的方向。

44)使用离散时刻的即时梯度对模型进行训练优化；

根据上述步骤41)～43)，可以得到各个离散时刻t关于脉冲神经网络连接权重的即时梯度。本发明利用这些即时梯度，使用基于梯度的优化算法，如随机梯度下降法(SGD)或其变体，对模型进行训练优化。对于具体训练的实施，可以选择在每个时刻t即时地使用基于梯度的方法对参数进行更新，然后再进行下一个时刻的计算，本发明将这种具体实现称为OTTT₀；也可以先累积所有T个时刻的梯度，然后再使用基于梯度的方法对参数进行更新，本发明将这种具体实现称为OTTT_A。

该脉冲神经网络的构建和训练可以在深度学习框架PyTorch下实现。

5)利用步骤3)和步骤4)构建并训练好的脉冲神经网络模型，对测试图像或神经形态数据样本进行识别，在每个离散时刻t，对模型输入图像样本数据x[t]，模型逐层根据神经元连接(前馈或反馈)的输入更新脉冲神经元的膜电位u^l[t]、产生脉冲s^l[t]、前传脉冲信号，总时间T后从输出层得到预测的数据分类标签，由此实现图像数据分类，其中测试样本无需经过数据增强。

本发明的有益效果是：

本发明提供了一种用于图像及神经形态数据分类的随时间在线训练脉冲神经网络模型的技术。本发明构建基于LIF神经元模型的前馈型或反馈型脉冲神经网络，在每个时刻即时地计算模型参数的梯度，从而能够随时间在线训练脉冲神经网络模型。新型的训练方法称为OTTT，在具体实施上有OTTT₀和OTTT_A两种形式。

本发明提出的方法在训练SNN模型时仅需要与时间步数无关的恒定的低内存开销，能够避免脉冲神经网络模型常见的训练困难问题，如沿着随时间展开的计算图反向传播需要大量的内存消耗，并且能够训练得到高性能、低延迟且高效节能的脉冲神经网络模型。在图像识别任务数据集CIFAR-10，CIFAR-100，ImageNet上，以及神经形态数据分类任务数据集DVS-CIFAR10上，本发明训练的脉冲神经网络模型与现有的训练算法训练的模型相比，能够以更少的训练内存开销取得更好的高性能且低延迟的结果。

附图说明

图1是本发明提出的OTTT方法前向和反向传播的计算示意图及其与常用方法BPTT的比较：

其中(a)为常用的BPTT方法前向计算的示意图，(b)为提出的OTTT方法前向计算的示意图，(c)为常用的BPTT方法反向计算的示意图，(d)为提出的OTTT方法反向计算的示意图。

图2是本发明实现通过OTTT方法训练构建的脉冲神经网络的流程框图。

图3是本发明的OTTT方法在GPU上训练不同时间步数的脉冲神经网络模型的内存开销及其与常用方法BPTT的比较。

图4是本发明在ImageNet数据集上训练的模型在不同的推理时的时间步数下的性能表现。

图5是本发明在CIFAR-10数据集上训练的模型的平均放电率统计信息及其与常用方法BPTT的比较。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供了一种随时间在线训练脉冲神经网络模型的图像数据分类方法，基于构建的前馈或反馈型SNN模型并通过提出的方法训练模型，实现高性能、低延迟且高效节能地进行计算机图像数据与神经形态图像视觉数据的分类与识别等视觉任务，有效提升图像视觉数据的分类和识别性能。包括以下步骤：

步骤1：将图像数据分为训练样本和测试样本，本实施例所有数据集为CIFAR-10，CIFAR-100，ImageNet和DVS-CIFAR10数据集，其中CIFAR-10和CIFAR-100均由60,000张大小为32×32的RGB彩色图像组成，其中训练数据50,000张，测试数据10,000张，类别分别为10类和100类；ImageNet由1,281,167张训练图像和50,000张验证图像组成，图像均为RGB彩色图像，类别为1000类；DVS-CIFAR10由10,000个神经形态数据组成，空间分辨率大小为128×128，具有ON和OFF事件脉冲两个通道，类别为10类，本发明遵从常用的方式将数据集划分为9,000个训练样本和1,000个测试样本。

步骤2：对训练样本进行预处理和数据增强。对CIFAR-10和CIFAR-100的图像数据，预处理包括：减去图像训练数据集的像素值的均值并除以标准差，数据增强操作包括：在图片每边增加4个零值像素，然后进行随机裁剪；对图片进行随机水平翻转；对图像进行cutout数据增强操作(Improved regularization of convolutional neural networkswith cutout)。对ImageNet的图像数据，训练图像的预处理和数据增强包括：对图像随机缩放并裁剪至224×224大小；减去图像训练数据集的像素值的均值并除以标准差；对图片进行随机水平翻转，测试图像的预处理包括：首先将图像缩放至256×256大小，然后中心裁剪至224×224大小；减去图像数据集的像素值的均值并除以标准差。对神经形态数据集DVS-CIFAR10，预处理包括：遵从Fang等人的方法(Incorporating learnable membrane timeconstant to enhance learning of spiking neural networks)累积脉冲数据以降低时间分辨率至10个离散的时间步数；通过插值将空间分辨率降低至48×48大小；减去训练数据集的各空间位置的信号的均值并除以标准差，数据增强包括：在数据的空间分辨率上每边增加4个零值，然后在空间分辨率上进行随机裁剪。

步骤3：构建前馈或反馈型脉冲神经网络，并采用权重标准化的方法，将构建的网络模型权重矩阵进行重参数化。本发明考虑LIF脉冲神经元模型，构建前馈型脉冲神经网络和反馈型脉冲神经网络模型，同时采用权重标准化的技术，模型包括输入层、隐层、输出层，步骤如下：

1)构建网络的输入层：

对于图像数据，网络的输入层的输入在各个时刻都是实值的图像数据，可以视作隐层神经元输入的电流信号；对于神经形态数据，网络的输入层的输入是经上述预处理后的各个时刻的神经形态脉冲信号。

2)构建前馈型或反馈型的网络的隐层：

以上输入层与隐层、隐层与隐层、隐层与输出层之间的连接均代表任意的线性操作，可以包括全连接的神经网络层、卷积神经网络层等等。对于反馈型的网络，本发明简单地考虑第N-1层隐层到第1层隐层的反馈在一个离散的时间步长内。

本发明将采用VGG型的前馈型网络结构(Very deep convolutional networksfor large-scale image recognition)，NF-ResNet型的前馈型网络结构(Characterizingsignal propagation to close the performance gap in unnormalized resnets)，以及基于VGG型网络结构添加上述的反馈连接构成的反馈型VGG-F网络结构。

3)构建网络的输出层：

4)采用权重标准化的技术：

在上述步骤2构建的前馈或反馈型脉冲神经网络的基础上，采用对前馈连接权重的权重标准化技术(Brock et al.Characterizing signal propagation to close theperformance gap in unnormalized resnets.International Conference on LearningRepresentations，2021.)。采用权重标准化的方法将脉冲神经网络神经元之间连接的权重矩阵重参数化，表示为：

其中，为重参数化后的权重矩阵第i行第j列位置的元素；W_i，j为原始权重矩阵第i行第j列位置的元素；/>和/>分别是权重矩阵沿输入维度计算的均值和方差，M是权重矩阵输入维度的大小，γ是一个通过分析信号传播的性质决定的缩放系数，本发明具体实施时采用γ＝2.74，α是一个额外的可学习的系数，其初始化为1。本发明对VGG网络架构的所有连接和VGG-F网络架构的前馈连接施加权重标准化技术，对NF-ResNet网络架构的连接遵从其标准的方式施加权重标准化技术。

本实施例中，对于CIFAR-10，CIFAR-100和DVS-CIFAR10数据集，本发明使用VGG型的脉冲神经网络，网络结构为[64C3-128C3-AP2-256C3-AP2-512C3-512C3-AP2-512C3-512C3-GAP-FC]，其中“64C3”等符号表示输出为64通道、卷积核大小为3的卷积层运算，“AP2”表示步长为2的平均池化，“GAP”表示全局平均池化，“FC”表示最后到输出层的全连接层运算，最后输出层的维度为类别数大小。对于CIFAR-100数据集，本发明还将使用VGG-F型的脉冲神经网络，VGG-F在上述VGG网络结构的基础上添加了从最后一层隐层(全局平均池化之前)到第一层隐层的反馈连接，其为输入为512通道、输出为64通道、卷积核大小为3的卷积层运算。对于ImageNet数据集，本发明使用NF-ResNet-34型的脉冲神经网络，具体的结构实现遵从提出者提供的伪代码(Characterizing signal propagation to close theperformance gap in unnormalized resnets)。

步骤4：将预处理和数据增强过的训练样本在步骤3)构建并重参数化的脉冲神经网络上通过随时间在线训练的方法进行训练。基于步骤3中构建的前馈或反馈型脉冲神经网络，通过随时间在线训练的方法计算每个时刻损失函数关于权重的梯度，对网络进行训练，包括如下步骤：

1)在每个离散时刻t，对模型输入图像样本数据x[t]，模型逐层根据神经元连接(前馈或反馈)的输入更新脉冲神经元的膜电位u^l[t]、产生脉冲s^l[t]、前传脉冲信号，同时每个神经元通过如下方式记录神经元活动，表示为：

2)然后在每个时刻t，根据最后输出层的输出计算即时的损失函数逐层计算并反向传播对神经元膜电位的即时梯度，得到每一层关于膜电位的梯度，其中关于第l层膜电位的梯度可表示为：

其中即时的反向传播仅针对前馈连接，不考虑反馈连接；Π为连乘符号；上标表示转置操作；对于不可微的计算的求导/>将逐元素使用替代梯度/>或/>进行计算，其中前者的替代梯度可以近似脉冲神经元之间基于脉冲信号表示的闭式的映射关系的导数。本发明训练模型的总损失是各时刻的即时损失的累和当损失函数/>是一个凸函数(如交叉熵)时，该总损失是此前常用的基于平均放电率的损失的一个理论上界。

本实施例中，对于CIFAR-10，CIFAR-100和DVS-CIFAR10数据集，损失的计算函数采用对经过softmax函数后的交叉熵(CE)损失函数和均方误差(MSE)损失函数加权相加的形式，即其中对CIFAR-10和CIFAR-100数据集加权系数β取为0.05，对DVS-CIFARI0数据集取为0.001。对于ImageNet数据集，损失的计算函数采用交叉熵损失函数。替代梯度默认使用/>

3)接着，在每个时刻t，根据步骤41)中记录的神经元活动和步骤42)中计算的关于神经元膜电位的梯度，计算对脉冲神经网络连接权重的即时梯度：

其中式9代表前馈型脉冲神经网络的情况，式10代表广义的任意连接脉冲神经网络(包括前馈和反馈型)的情况，其含义均表示使用连接的后神经元膜电位的梯度(即式5中的第l+1层神经元膜电位的梯度和式6中的第l_j层神经元膜电位的梯度/>)和连接的前神经元的记录的神经元活动(即式5中的第l层的记录的神经元活动/>阳式6中的第l_i层的记录的神经元活动/>)计算连接权重的即时梯度。可以证明这样计算的梯度在一定条件下能够为基于脉冲信号表示构建的优化问题提供下降的方向。

4)使用离散时刻的即时梯度对模型进行训练优化。根据上述步骤，可以得到各个离散时刻t关于脉冲神经网络连接权重的即时梯度。本发明利用这些即时梯度，使用基于梯度的优化算法，如随机梯度下降法(SGD)或其变体，对模型进行训练优化。对于具体训练的实施，可以选择在每个时刻t即时地使用基于梯度的方法对参数进行更新，然后再进行下一个时刻的计算，本发明将这种具体实现称为OTTT₀；也可以先累积所有T个时刻的梯度，然后再使用基于梯度的方法对参数进行更新，本发明将这种具体实现称为OTTT_A。本实施例将同时考虑这两种实现。

本实施例中使用带动量的随机梯度下降算法进行模型的训练，动量为0.9。对于CIFAR-10，CIFAR-100和DVS-CIFAR10数据集，训练过程迭代300轮，默认的批大小为128，即每128个样本为一个批次，初始学习率为0.1，并采用cosine annealing scheduler的学习率调节器将学习率逐渐减小至0(对于批大小为1的实验，初始学习率将线性地缩小为0.1/128)。对于ImageNet数据集，训练过程迭代100轮，采用的批大小为256，初始学习率为0.1，在第30、60、90轮时分别衰减至0.01，0.001和0.0001，同时设置权重衰减因子为0.00002。网络参数的初始化遵从常用的Kaiming初始化，对于反馈型的VGG-F网络，反馈连接初始化为0。此外，对于DVS-CIFAR10数据集，训练过程中将在每层采用丢弃法(dropout)，丢弃率取为0.1。脉冲神经元的超参数设为V_th＝1和λ＝0.5。该脉冲神经网络的构建和训练可以在深度学习框架PyTorch下实现。

步骤5：利用步骤3和步骤4构建并训练好的脉冲神经网络模型，对测试图像或神经形态数据样本进行识别，在每个离散时刻t，对模型输入图像样本数据x[t]，模型逐层根据神经元连接(前馈或反馈)的输入更新脉冲神经元的膜电位u^l[t]、产生脉冲s^l[t]、前传脉冲信号，总时间T后从输出层得到预测的数据分类标签，由此实现图像数据分类，其中测试样本无需经过数据增强。

图3给出了本发明的OTTT方法在GPU上训练不同时间步数的脉冲神经网络模型的内存开销及其与常用方法BPTT的比较。可以看出，本发明的方法仅需要与时间步数无关的常数的训练内存开销，而BPTT需要的内存开销与时间步数呈线性增长。因此，本发明的方法可以极大地节省脉冲神经网络训练过程中的内存开销。

表1，表2，表3，表4分别给出了本发明的方法(具体实现包括OTTT₀和OTTT_A)训练的脉冲神经网络模型和使用BPTT在相同设定下训练的模型以及其他代表性的脉冲神经网络模型在CIFAR-10，CIFAR-100，ImageNet和DVS-CIFAR10数据集上的分类正确率比较：

表1 CIFAR-10数据集上的比较结果，本发明的结果根据3次实验统计得到

模型训练方法	网络架构	时间步数	正确率：均值±标准差(最佳)	参数量
					ANN-SNN	VGG-16	16	(92.29％)	40M
BPTT	ResNet-19	6	(93.16％)	14.5M
					BPTT	9层CNN	8	(93.50％)	36M
BPTT	VGG	6	92.78±0.34％(93.23％)	9.2M
					OTTT_A	VGG	6	93.52±0.06％(93.58％)	9.2M
OTTT₀	VGG	6	93.49±0.17％(93.73％)	9.2M

表2 CIFAR-100数据集上的比较结果，本发明的结果根据3次实验统计得到

表3 ImageNet数据集上的比较结果

模型训练方法	网络架构	时间步数	正确率	参数量
					ANN-SNN	ResNet-34	32	64.54％	22M
Hybrid Training	ResNet-34	250	61.48％	22M
					BPTT	ResNet-34	6	63.72％	22M
OTTT_A	NF-ResNet-34	6	65.15％	22M
					OTTT₀	NF-ResNet-34	6	64.16％	22M

表4 DVS-CIFAR10数据集上的比较结果，本发明的结果根据3次实验统计得到

从表中可以看出，和同样训练设定下的BPTT相比，本发明的OTTT方法训练的脉冲神经网络模型在各个数据集上可以表现地更好，和其他的脉冲神经网络模型相比，本发明的方法训练的模型可以取得高性能且低延迟的更好的结果。这说明了本发明提出的训练方法的有效性，训练得到的模型可用于高性能、低延迟且高效节能地进行图像数据的分类识别等任务。

表5给出了本发明的方法(此处具体实现为OTTT₀)训练的反馈型VGG-F脉冲神经网络模型在CIFAR-100数据集上的分类正确率结果：

表5 CIFAR-100数据集上VGG-F网络的结果，本发明的结果根据3次实验统计得到

网络架构	时间步数	正确率：均值±标准差(最佳)	参数量
				VGG	6	71.05±0.06％(71.11％)	9.3M
VGG-F	6	72.63±0.23％(72.94％)	9.6M

从表中可以看出本发明的方法既可以有效训练前馈型脉冲神经网络模型，也可以有效训练反馈型脉冲神经网络模型，且反馈型的VGG-F模型由于引入了反馈连接，可以在CIFAR-100数据集上取得更好的结果。

表6给出了本发明的方法在CIFAR-10数据集上用不同批大小仅训练20轮(使用相同的随机种子)的分类正确率结果：

表6 CIFAR-10数据集上使用不同批大小仅训练20轮的结果

模型训练方法	批大小	正确率
			OTTT_A/OTTT₀	128	88.20％/88.62％
OTTT_A/OTTT₀	1	88.07％/88.50％

从表中可以看出本发明的方法同样可以有效地在批大小为1的设定下训练得到高性能的模型，这说明了本发明的方法实现完全在线训练的潜力，即不仅训练在时间上是在线，同时每次训练也仅使用一个在线样本。

图4给出了本发明在ImageNet数据集上训练的模型在不同的推理时的时间步数下的性能表现。从图中可以看出，在训练过程中设定为6个时间步数训练的模型，在测试推理时可以通过更多的推理时间步数取得更好的结果。

图5给出了本发明在CIFAR-10数据集上训练的模型每层的平均放电率统计信息及其与BPTT方法训练的模型的统计信息的比较。从图中可以看出，本发明的方法训练的模型在前几层的放电率比BPTT更高，在后续几层的放电率比BPTT更低。总体上，本发明的方法训练的模型的平均放电率为0.19，使用6个时间步数时每个神经元平均发放1.1个脉冲信号，这暗示了模型的低能耗。同时，考虑到模型后层的神经元比前层的神经元具有更多的突触操作(因为随着层数的增加，通道数也在增加)，本发明的OTTT方法训练的模型和BPTT方法训练的模型具有基本相同的突触操作数(前者1.98×10⁸，后者1.93×10⁸)。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种随时间在线训练脉冲神经网络模型的图像数据分类方法，其特征是，构建脉冲神经网络模型并设计随时间在线方法训练所述模型；再利用训练好的模型对图像数据进行分类和识别，有效提升图像数据的分类和识别性能；所述图像数据包括计算机图像数据和神经形态的图像视觉数据；所述图像数据分类方法包括以下步骤：

1)将图像数据分为训练样本和测试样本；

2)对训练样本进行预处理，并进行标准数据增强处理；

3)构建前馈或反馈型脉冲神经网络模型，包括输入层、隐层和输出层；并采用权重标准化的方法，将所构建模型的权重矩阵进行重参数化；包括步骤如下：

31)构建网络模型的输入层，用于将步骤2)处理后得到的图像数据输入到网络模型；

32)构建网络模型的隐层：包括构建多组脉冲神经元作为不同的隐层；输入层与隐层、隐层与隐层之间均具有前馈连接；

对于反馈型脉冲神经网络，最后的一层隐层与第一层隐层具有反馈连接；

所述连接均为任意的线性操作；

33)构建网络模型的输出层：

网络模型的输出层采用一组不发放脉冲和重置膜电位的神经元，神经元的数量等于图像数据分类的类别数，并使用累积的神经元膜电位大小作为图像数据分类的标准；

网络模型最后的一层隐层与输出层之间具有前馈连接，采用全连接的形式；

输出层即为网络模型的分类层；分类层用于根据累积的神经元膜电位进行分类，并选择最大膜电位的神经元对应的类别作为网络模型预测得到的图像数据分类类别；

34)采用权重标准化的方法，将构建的网络模型的权重矩阵进行重参数化：

采用对前馈连接权重的权重标准化的方法，将构建的前馈或反馈型脉冲神经网络神经元之间连接的权重矩阵重参数化；

4)通过设计随时间在线训练的方法训练步骤3)构建并重参数化的脉冲神经网络模型，计算每个时刻损失函数关于权重的梯度，完成对网络的训练；包括如下步骤：

41)在每个离散时刻，对模型输入的图像样本数据，模型逐层根据神经元连接的输入更新脉冲神经元的膜电位、产生脉冲和前传脉冲信号，同时每个神经元记录神经元活动；

42)在每个时刻，根据输出层的输出计算即时的损失函数，逐层计算并反向传播对神经元膜电位的即时梯度，得到每一层关于膜电位的梯度；其中即时的反向传播仅针对前馈连接；

训练模型的总损失是各时刻的即时损失的累和；

43)通过下式计算在每个时刻对脉冲神经网络连接权重的即时梯度：

其中，W^l为第l层到第l+1层神经元前馈连接的权重矩阵，l＝0表示输入层到第一层隐层的连接权重；向量上标l为前馈或反馈型脉冲神经网络模型中层数的标号，l＝0表示输入层，l＝N表示输出层；N为前馈或反馈型脉冲神经网络模型中神经元的总层数；为任意第l_i层到任意第l_j层神经元的前馈或反馈连接的权重矩阵；L[t]为在时刻t时模型训练的损失；/>表示在时刻t时模型参数/>的梯度；/>为在时刻t时第l_j层神经元膜电位的梯度；/>为离散情况下，一组脉冲神经元在时刻t时记录的神经元活动向量；

44)使用离散时刻的即时梯度，基于梯度的优化算法，对模型进行训练优化；

5)利用步骤3)和步骤4)构建并训练好的脉冲神经网络模型，对待测试的图像数据样本进行分类识别；待测试的图像数据样本无需经过数据增强处理；

在每个离散时刻，对模型输入图像样本数据，模型逐层根据神经元连接的输入更新脉冲神经元的膜电位、产生脉冲和前传脉冲信号，总时间后从输出层得到预测的数据分类标签，由此实现图像数据分类。

2.如权利要求1所述的图像数据分类方法，其特征是，步骤2)进一步包括如下步骤：

21)对图像数据进行预处理包括：减去图像数据集的像素值的均值并除以标准差；

对图像数据进行数据增强采用标准增强方法，包括：在图像每边增加零值像素，再进行随机裁剪；对图像进行随机水平翻转；对图像进行随机中心旋转；

22)对于神经形态数据进行预处理包括：累积一段时间的脉冲数据，以减小时间分辨率；

所述神经形态数据是通过神经形态照相机将计算机图像数据转换生成；神经形态数据的像素点使用脉冲序列表示；脉冲序列即值为0或1的时间序列。

3.如权利要求1所述的图像数据分类方法，其特征是，步骤3)具体是采用LIF脉冲神经元模型构建前馈或反馈型脉冲神经网络模型。

4.如权利要求3所述的图像数据分类方法，其特征是，步骤32)构建网络模型的隐层，具体是构建N-1组脉冲神经元作为不同的隐层。

5.如权利要求3所述的图像数据分类方法，其特征是，步骤33)构建网络模型的输出层采用的神经元，具体是通过将脉冲神经元的脉冲发放阈值设为无穷大的方式实现的；

在时刻t时模型的输出为u^N[t]＝W^N-1s^N-1[t]+b^N；其中，N为前馈或反馈型脉冲神经网络模型中神经元的总层数；u[t]为离散情况下，一组脉冲神经元在t个时间步长时的膜电位向量；s[t]为离散情况下，一组脉冲神经元在时刻t时的脉冲信号向量；b为偏置向量；

总时间T后累积的膜电位为

6.如权利要求3所述的图像数据分类方法，其特征是，步骤34)采用权重标准化的方法，将构建的网络模型权重矩阵进行重参数化，表示为：

其中，为重参数化后的权重矩阵第i行第j列位置的元素；W_i,j为原始权重矩阵第i行第j列位置的元素；/>和/>分别是权重矩阵沿输入维度计算的均值和方差，M是权重矩阵输入维度的大小，γ是通过分析信号传播的性质决定的缩放系数，α是可学习的系数。

7.如权利要求6所述的图像数据分类方法，其特征是，缩放系数的取值采用γ＝2.74。

8.如权利要求3所述的图像数据分类方法，其特征是，步骤41)中，每个神经元通过如下方式记录神经元活动，表示为：

其中，为第l层神经元在时刻t时记录的神经元活动向量；s^l[t]为第l层神经元在时刻t时的脉冲信号向量；λ为离散情况下，脉冲神经元的泄漏项参数；

计算即时的损失函数为：其中，y为输入图像数据样本的标签向量；/>为模型训练时模型的输出与输入图像数据样本标签之间的损失函数；T为脉冲神经网络的总离散时间步数；

得到关于第l层膜电位的梯度表示为：

其中，为在t时刻时第l_j层神经元膜电位的梯度；Π为连乘符号；对于不可微的计算的求导，将逐元素使用替代梯度/>或/> 进行计算，其中替代梯度近似脉冲神经元之间基于脉冲信号表示的闭式的映射关系的导数；

训练模型的总损失是各时刻的即时损失的累和，表示为

9.如权利要求8所述的图像数据分类方法，其特征是，步骤43)中，计算在时刻t对前馈型脉冲神经网络连接权重的即时梯度，表示为：

其中，为第l+1层神经元膜电位的梯度。

10.如权利要求8所述的图像数据分类方法，其特征是，步骤44)中使用离散时刻的即时梯度对模型进行训练优化；具体是：

在每个时刻即时地使用基于梯度的方法对参数进行更新，然后再进行下一个时刻的计算；

或先累积所有时刻的梯度，再使用基于梯度的方法对参数进行更新。