CN116433980A

CN116433980A - 脉冲神经网络结构的图像分类方法、装置、设备及介质

Info

Publication number: CN116433980A
Application number: CN202310416687.6A
Authority: CN
Inventors: 尚德龙; 满益耒; 周玉梅
Original assignee: Zhongke Nanjing Intelligent Technology Research Institute
Current assignee: Zhongke Nanjing Intelligent Technology Research Institute
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-07-14

Abstract

本发明公开了脉冲神经网络结构的图像分类方法、装置、设备及介质，其方法包括：获取预设的图像数据集，并对图像数据集进行标准化处理生成标准化数据集；将标准化数据集按预设的比例划分为训练集和测试集；定义可微分脉冲神经网络结构的搜索空间，将训练集输入搜索空间，利用梯度下降算法进行可微分脉冲神经网络结构的搜索；基于搜索获取的可微分脉冲神经网络结构，引入注意力机制构建图像分类模型；通过训练集对构建的图像分类模型进行训练，将测试集输入训练后的图像分类模型，生成图像分类结果；本发明能够实现在脉冲神经网络领域的可微分神经网络结构搜索算法，同时提升图像分类的准确性。

Description

脉冲神经网络结构的图像分类方法、装置、设备及介质

技术领域

本发明涉及一种脉冲神经网络结构的图像分类方法、装置、设备及介质，属于神经网络技术领域。

背景技术

图像分类是使用计算机视觉和机器学习算法从图像中抽取意义的任务。看似简单，但是这是计算机视觉领域的核心问题之一，为其他视觉领域中的问题(比如物体检测和分割)做技术基础。近年来，针对图像分类任务，深度学习的繁荣，尤其是神经网络的发展，颠覆了传统方式对图像分类的时代，将卷积神经网络的浪潮推到了历史最高点。但是大热的深度神经网络，虽然将以前很另人头疼的特征提取自动化了，但卷积神经网络结构的设计很大程度上还是需要手工设计，且依赖经验，这些人工设计的神经网络结构往往都是次优的。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种脉冲神经网络结构的图像分类方法、装置、设备及介质，能够实现在脉冲神经网络领域的可微分神经网络结构搜索算法，并在搜索后进入融合通道和时间的注意力机制从而提升模型的分类准确率。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种脉冲神经网络结构的图像分类方法，包括：

获取预设的图像数据集，并对图像数据集进行标准化处理生成标准化数据集；

将标准化数据集按预设的比例划分为训练集和测试集；

定义可微分脉冲神经网络结构的搜索空间，将训练集输入搜索空间，利用梯度下降算法进行可微分脉冲神经网络结构的搜索；

基于搜索获取的可微分脉冲神经网络结构，引入注意力机制构建图像分类模型；

通过训练集对构建的图像分类模型进行训练，将测试集输入训练后的图像分类模型，生成图像分类结果。

可选的，所述对图像数据集进行标准化处理生成标准化数据集包括：

将图像数据集中各图像统一为预设的尺寸，生成样本数据集；

计算样本数据集的均值和标准差，根据均值和标准差对样本数据集中各图像进行图像标准化，生成标准化数据集；

其中，所述图像标准化包括：

x^*＝(x-μ)/σ

式中，x为样本数据集中图像，x^*为x的标准化图像，μ、σ分别为样本数据集的均值和方差。

可选的，所述定义可微分脉冲神经网络结构的搜索空间包括：

可微分脉冲神经网络结构包括多个串联的Cell单元，所述Cell单元为NormalCell或Reduce Cell，所述Reduce Cell位于可微分脉冲神经网络结构的中间位置；所述Normal Cell用于让其输出与输入的特征图相比尺寸一致，所述Reduce cell用于让其输出与输入的特征图相比尺寸减半。

可选的，所述Cell单元为多个节点构成的有向无环图，每个所述节点为可微分脉冲神经网络结构中一个特征图的表示；所述有向无环图包括2个输入节点、n-3个中间节点以及1个输出节点；所述输出节点通过对所有中间节点进行通道合并得到，所述中间节点的表达式为：

式中，x⁽ⁱ⁾、x^(j)为第i、j个节点，

为有向边(i，j)应用于x^(j)的操作；

通过Softmax函数将搜索空间由离散转化为连续，计算得到：

式中，O为有向边的操作集，

分别为有向边(i，j)的第o、o′个操作的结构参数，o(x^(j))为应用于x^(j)的操作输出；

其中，所述有向边的操作集包括：

最大池化操作、平均池化操作、跳接操作、可分离卷积操作、空洞卷积操作以及空操作，其中，各项操作的卷积核为3×3、5×5、7×7，在各项操作后进行批正则化处理。

可选的，所述利用梯度下降算法进行可微分脉冲神经网络结构的搜索包括：

初始化可微分脉冲神经网络结构中各有向边对应的结构参数；

在初始化的可微分脉冲神经网络结构后增加全局平均池化层和全连接层，构建神经网络模型；

对神经网络模型进行迭代优化，获取优化后的各有向边对应的结构参数；

仅保留可微分脉冲神经网络结构中相连节点间结构参数最大的两条有向边，得到搜索的可微分脉冲神经网络结构；

其中，所述迭代优化的步骤包括：

将训练集中图像输入神经网络模型，获取图像分类预测X；

根据图像分类预测X与其对应的图像分类期望x计算损失l₁，基于损失l₁利用梯度下降算法更新结构参数；

其中，所述迭代优化的步骤的终止条件为损失l₁收敛或迭代次数大于预设的最大迭代次数N。

可选的，所述引入注意力机制构建图像分类模型包括：

在搜索获取的可微分脉冲神经网络结构后增加注意力层、全局平均池化层和全连接层，构建图像分类模型；

所述注意力层包括串联结构，所述串联结构包括全局平均池化层、1×1卷积层、Sigmoid激活层，所述串联结构的输入连接至注意力层的输入，所述串联结构的输出与注意力层的输入进行残差运算，将残差运算结果作为注意力层的输出；所述1×1卷积层用于在图像的通道和时间两个维度上做逐点卷积。

可选的，所述通过训练集对构建的图像分类模型进行训练包括：

初始化图像分类模型的模型权重；

对初始化的图像分类模型进行迭代训练；

其中，所述迭代训练的步骤包括：

将训练集中图像输入图像分类模型，获取图像分类预测Y；

根据图像分类预测Y与其对应的图像分类期望y计算损失l₂，基于损失l₂利用梯度下降算法更新模型权重；

其中，所述迭代训练的步骤的终止条件为损失l₂收敛或迭代次数大于预设的最大迭代次数M。

第二方面，本发明提供了一种脉冲神经网络结构的图像分类装置，所述装置包括：

数据获取模块，用于获取预设的图像数据集，并对图像数据集进行标准化处理生成标准化数据集；

数据划分模块，用于将标准化数据集按预设的比例划分为训练集和测试集；

结构搜索模块，用于定义可微分脉冲神经网络结构的搜索空间，将训练集输入搜索空间，利用梯度下降算法进行可微分脉冲神经网络结构的搜索；

模型构建模块，用于基于搜索获取的可微分脉冲神经网络结构，引入注意力机制构建图像分类模型；

训练测试模块，用于通过训练集对构建的图像分类模型进行训练，将测试集输入训练后的图像分类模型，生成图像分类结果。

第三方面，本发明提供了一种电子设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提供的一种脉冲神经网络结构的图像分类方法、装置、设备及介质，其方法受可微分神经网络结构搜索算法的启发，实现了在脉冲神经网络领域的可微分神经网络结构搜索算法，相对其他遗传算法、进化算法等方法在训练时间方面更具优势，在确定可微分脉冲神经网络结构后，通过引入融合通道和时间注意力机制的模块，能够在较小的模型参数量、时间窗内，达到高精度的分类准确率；其装置、设备及介质通过实现上述方法，能够实现方法相应的技术效果。

附图说明

图1是本发明实施例一提供的脉冲神经网络结构的图像分类方法的流程示意图；

图2是本发明实施例一提供的基于可微分脉冲神经网络结构的神经网络模型的结构示意图；

图3是本发明实施例一提供的Cell单元的有向无环图的结构示意图；

图4是本发明实施例一提供的利用梯度下降算法进行可微分脉冲神经网络结构的搜索流程图；

图5是本发明实施例一提供的引入注意力机制构建图像分类模型的结构示意图；

图6是本发明实施例一提供的注意力层Attention Block的结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，本发明实施例提供了一种脉冲神经网络结构的图像分类方法，包括以下步骤：

1、获取预设的图像数据集，并对图像数据集进行标准化处理生成标准化数据集；

本实施例预设的图像数据集，若为普通的图像数据集，还需要进行时间维度的广播；若为DVS(dynamic vision sensor)数据集，需要按帧切片，然后设定时间窗，然后获取相应的帧对应的图像。

具体的，对图像数据集进行标准化处理生成标准化数据集包括：

将图像数据集中各图像统一为预设的尺寸(本实施例设为32×32)，生成样本数据集；

图像标准化包括：

x^*＝(x-μ)/σ

式中，x为样本数据集中图像，x^*为x的标准化图像，μ、σ分别为样本数据集的均值和方差。以RGB图像为例，计算的对象为R、G、B三个通道各像素点的数值。

2、将标准化数据集按预设的比例划分为训练集和测试集。

3、定义可微分脉冲神经网络结构的搜索空间，将训练集输入搜索空间，利用梯度下降算法进行可微分脉冲神经网络结构的搜索；

具体的，定义可微分脉冲神经网络结构的搜索空间包括：

可微分脉冲神经网络结构包括多个串联的Cell单元，Cell单元为Normal Cell或Reduce Cell，Reduce Cell位于可微分脉冲神经网络结构的中间位置；Normal Cell用于让其输出与输入的特征图相比尺寸一致，Reduce cell用于让其输出与输入的特征图相比尺寸减半。

如图2所示，本实施例提供的可微分脉冲神经网络结构包括5个串联的Cell单元，第三层Cell单元为Reduce cell，其余为Normal Cell。

Cell单元为多个节点构成的有向无环图，每个节点为可微分脉冲神经网络结构中一个特征图的表示；有向无环图包括2个输入节点、n-3个中间节点以及1个输出节点。

如图3所示，本实施例提供的有向无环图包括7个节点，分别为2个输入节点I₁、I₂、4个中间节点b₁、b₂、b₃、b₄、1个输出节点；4个中间节点会逐个依赖前面的节点和输入节点，中间节点的表达式为：

式中，x⁽ⁱ⁾、x^(j)为第i、j个节点，

为有向边(i，j)应用于x^(j)的操作；若x⁽ⁱ⁾为中间节点b₂，则x^(j)为中间节点b₁、输入节点I₁、I₂，其他情况以此类推；

通过Softmax函数将搜索空间由离散转化为连续，计算得到：

式中，O为有向边的操作集，

输出节点通过对所有中间节点进行通道合并得到，因此输出节点的通道会变未之前的4倍。

其中，有向边的操作集包括：

最大池化操作、平均池化操作、跳接操作、可分离卷积操作、空洞卷积操作以及空操作，其中，各项操作的卷积核为3×3、5×5、7×7，在各项操作后进行批正则化处理，从而加速网络的收敛。

本实施例中采用max_pool3x3、avg_pool3x3、skip_connect、sep_conv3x3、sep_conv5x5、dil_conv3x3、dil_conv5x5和none操作共计8个操作。

4、基于搜索获取的可微分脉冲神经网络结构，引入注意力机制构建图像分类模型；

如图4所示，利用梯度下降算法进行可微分脉冲神经网络结构的搜索包括：

在初始化的可微分脉冲神经网络结构后增加全局平均池化层Global Averagepool和全连接层Dense，构建神经网络模型(如图2所示)；

仅保留可微分脉冲神经网络结构中相连节点间结构参数最大的两条有向边(结构参数越大，其对下一节点的重要性越大)，得到搜索的可微分脉冲神经网络结构；

其中，迭代优化的步骤包括：

将训练集中图像输入神经网络模型，获取图像分类预测X；

其中，迭代优化的步骤的终止条件为损失l₁收敛或迭代次数大于预设的最大迭代次数N。

本实施例中，可微分脉冲神经网络使用的神经元全部是(Leaky Integrate andFire，LIF)神经元，因此激活函数会全部替换为更具生物合理性的LIFSpike()函数，具体可描述为：

u^t，n＝τu^t-1，n(1-o^t-1，n)+I^t，n

o^t，n＝Spike(u^t，n-V_th)

I^t，n＝∑w*o^t，n-1

其中，u^t，n、u^t-1，n为第t、t-1个时刻第n层的膜电势，τ为膜电势常数，o^t，n、o^t-1，n为第t、t-1个时刻第n层的脉冲输出，V_th代表神经元发放脉冲的阈值，I^t，n为第t个时刻第n层的加权输入，Spike()为阶跃函数，当输入大于1时为1，反之为0；w为神经网络权值。

如图5所示，引入注意力机制构建图像分类模型包括：

在搜索获取的可微分脉冲神经网络结构后增加注意力层Attention Block、全局平均池化层Global Average pool和全连接层Dense，构建图像分类模型；

如图6所示，注意力层包括串联结构，串联结构包括全局平均池化层GlobalAverage pool、Conv1×1卷积层、Sigmoid激活层，串联结构的输入连接至注意力层的输入，串联结构的输出与注意力层的输入进行残差运算，将残差运算结果作为注意力层的输出；Conv1×1卷积层不同于传统的1×1卷积，用于在图像的通道和时间两个维度上做逐点卷积，然后经过Sigmoid激活层，最后与输入Input在通道和时间上做逐元素相乘，得到输出。

5、通过训练集对构建的图像分类模型进行训练，将测试集输入训练后的图像分类模型，生成图像分类结果；

具体的，通过训练集对构建的图像分类模型进行训练包括：

初始化图像分类模型的模型权重；

对初始化的图像分类模型进行迭代训练；

其中，迭代训练的步骤包括：

将训练集中图像输入图像分类模型，获取图像分类预测Y；

其中，迭代训练的步骤的终止条件为损失l₂收敛或迭代次数大于预设的最大迭代次数M。

通过本实施例提出的脉冲神经网络结构的图像分类方法，设计出来的神经网络结构相对传统的人工设计的网络往往性能更优，而可微分脉冲神经网络结构搜索相对进化算法、遗传算法等神经网络结构搜索算法在训练时间方面和GPU资源开销方面开销更小。实验结果表明，如表1所示，可微分脉冲神经网络结构搜索方法在模型参数量上更小，甚至在2个时间窗内就能超越大多数工作的准确率，通过引入融合通道和时间注意力模块还可以进一步增加模型的准确率。

可微分脉冲神经网络结构搜索方法有这些优点的原因有通过引入softmax层来离散化各个操作进行评分，而不是盲目的进行网络结构搜索，因此效率较高(训练时间、GPU资源开销相对进化算法较少)，而通过引入注意力模块能够进一步提升模型的准确率，即使在2个时间窗内也能达到不错的准确率。

表1：实验结果：

表1中，Ours(darts)为本实施例实现的脉冲神经网络的DifferentiableArchitecture Search，即可微分的架构搜索，Ours(darts+eca)为本实施例提出的darts融合ECA(Efficient Channel Attention)注意力机制。

实施例二：

本发明实施例提供了一种脉冲神经网络结构的图像分类装置，装置包括：

实施例三：

基于实施例一，本发明实施例提供了一种电子设备，包括处理器及存储介质；

存储介质用于存储指令；

处理器用于根据指令进行操作以执行根据上述方法的步骤。

实施例四：

基于实施例一，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种脉冲神经网络结构的图像分类方法，其特征在于，包括：

将标准化数据集按预设的比例划分为训练集和测试集；

2.根据权利要求1所述的可微分脉冲神经网络结构搜索方法，其特征在于，所述对图像数据集进行标准化处理生成标准化数据集包括：

其中，所述图像标准化包括：

x^*＝(x-μ)/σ

3.根据权利要求1所述的可微分脉冲神经网络结构搜索方法，其特征在于，所述定义可微分脉冲神经网络结构的搜索空间包括：

可微分脉冲神经网络结构包括多个串联的Cell单元，所述Cell单元为Normal Cell或Reduce Cell，所述Reduce Cell位于可微分脉冲神经网络结构的中间位置；所述NormalCell用于让其输出与输入的特征图相比尺寸一致，所述Reduce cell用于让其输出与输入的特征图相比尺寸减半。

4.根据权利要求3所述的可微分脉冲神经网络结构搜索方法，其特征在于，所述Cell单元为多个节点构成的有向无环图，每个所述节点为可微分脉冲神经网络结构中一个特征图的表示；所述有向无环图包括2个输入节点、n-3个中间节点以及1个输出节点；所述输出节点通过对所有中间节点进行通道合并得到，所述中间节点的表达式为：