CN116433980A - 脉冲神经网络结构的图像分类方法、装置、设备及介质 - Google Patents
脉冲神经网络结构的图像分类方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116433980A CN116433980A CN202310416687.6A CN202310416687A CN116433980A CN 116433980 A CN116433980 A CN 116433980A CN 202310416687 A CN202310416687 A CN 202310416687A CN 116433980 A CN116433980 A CN 116433980A
- Authority
- CN
- China
- Prior art keywords
- neural network
- image classification
- network structure
- image
- differentiable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000013145 classification model Methods 0.000 claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 abstract description 5
- 210000004027 cell Anatomy 0.000 description 23
- 230000006870 function Effects 0.000 description 9
- 230000004927 fusion Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010019233 Headaches Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了脉冲神经网络结构的图像分类方法、装置、设备及介质,其方法包括:获取预设的图像数据集,并对图像数据集进行标准化处理生成标准化数据集;将标准化数据集按预设的比例划分为训练集和测试集;定义可微分脉冲神经网络结构的搜索空间,将训练集输入搜索空间,利用梯度下降算法进行可微分脉冲神经网络结构的搜索;基于搜索获取的可微分脉冲神经网络结构,引入注意力机制构建图像分类模型;通过训练集对构建的图像分类模型进行训练,将测试集输入训练后的图像分类模型,生成图像分类结果;本发明能够实现在脉冲神经网络领域的可微分神经网络结构搜索算法,同时提升图像分类的准确性。
Description
技术领域
本发明涉及一种脉冲神经网络结构的图像分类方法、装置、设备及介质,属于神经网络技术领域。
背景技术
图像分类是使用计算机视觉和机器学习算法从图像中抽取意义的任务。看似简单,但是这是计算机视觉领域的核心问题之一,为其他视觉领域中的问题(比如物体检测和分割)做技术基础。近年来,针对图像分类任务,深度学习的繁荣,尤其是神经网络的发展,颠覆了传统方式对图像分类的时代,将卷积神经网络的浪潮推到了历史最高点。但是大热的深度神经网络,虽然将以前很另人头疼的特征提取自动化了,但卷积神经网络结构的设计很大程度上还是需要手工设计,且依赖经验,这些人工设计的神经网络结构往往都是次优的。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种脉冲神经网络结构的图像分类方法、装置、设备及介质,能够实现在脉冲神经网络领域的可微分神经网络结构搜索算法,并在搜索后进入融合通道和时间的注意力机制从而提升模型的分类准确率。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种脉冲神经网络结构的图像分类方法,包括:
获取预设的图像数据集,并对图像数据集进行标准化处理生成标准化数据集;
将标准化数据集按预设的比例划分为训练集和测试集;
定义可微分脉冲神经网络结构的搜索空间,将训练集输入搜索空间,利用梯度下降算法进行可微分脉冲神经网络结构的搜索;
基于搜索获取的可微分脉冲神经网络结构,引入注意力机制构建图像分类模型;
通过训练集对构建的图像分类模型进行训练,将测试集输入训练后的图像分类模型,生成图像分类结果。
可选的,所述对图像数据集进行标准化处理生成标准化数据集包括:
将图像数据集中各图像统一为预设的尺寸,生成样本数据集;
计算样本数据集的均值和标准差,根据均值和标准差对样本数据集中各图像进行图像标准化,生成标准化数据集;
其中,所述图像标准化包括:
x*=(x-μ)/σ
式中,x为样本数据集中图像,x*为x的标准化图像,μ、σ分别为样本数据集的均值和方差。
可选的,所述定义可微分脉冲神经网络结构的搜索空间包括:
可微分脉冲神经网络结构包括多个串联的Cell单元,所述Cell单元为NormalCell或Reduce Cell,所述Reduce Cell位于可微分脉冲神经网络结构的中间位置;所述Normal Cell用于让其输出与输入的特征图相比尺寸一致,所述Reduce cell用于让其输出与输入的特征图相比尺寸减半。
可选的,所述Cell单元为多个节点构成的有向无环图,每个所述节点为可微分脉冲神经网络结构中一个特征图的表示;所述有向无环图包括2个输入节点、n-3个中间节点以及1个输出节点;所述输出节点通过对所有中间节点进行通道合并得到,所述中间节点的表达式为:
通过Softmax函数将搜索空间由离散转化为连续,计算得到:
其中,所述有向边的操作集包括:
最大池化操作、平均池化操作、跳接操作、可分离卷积操作、空洞卷积操作以及空操作,其中,各项操作的卷积核为3×3、5×5、7×7,在各项操作后进行批正则化处理。
可选的,所述利用梯度下降算法进行可微分脉冲神经网络结构的搜索包括:
初始化可微分脉冲神经网络结构中各有向边对应的结构参数;
在初始化的可微分脉冲神经网络结构后增加全局平均池化层和全连接层,构建神经网络模型;
对神经网络模型进行迭代优化,获取优化后的各有向边对应的结构参数;
仅保留可微分脉冲神经网络结构中相连节点间结构参数最大的两条有向边,得到搜索的可微分脉冲神经网络结构;
其中,所述迭代优化的步骤包括:
将训练集中图像输入神经网络模型,获取图像分类预测X;
根据图像分类预测X与其对应的图像分类期望x计算损失l1,基于损失l1利用梯度下降算法更新结构参数;
其中,所述迭代优化的步骤的终止条件为损失l1收敛或迭代次数大于预设的最大迭代次数N。
可选的,所述引入注意力机制构建图像分类模型包括:
在搜索获取的可微分脉冲神经网络结构后增加注意力层、全局平均池化层和全连接层,构建图像分类模型;
所述注意力层包括串联结构,所述串联结构包括全局平均池化层、1×1卷积层、Sigmoid激活层,所述串联结构的输入连接至注意力层的输入,所述串联结构的输出与注意力层的输入进行残差运算,将残差运算结果作为注意力层的输出;所述1×1卷积层用于在图像的通道和时间两个维度上做逐点卷积。
可选的,所述通过训练集对构建的图像分类模型进行训练包括:
初始化图像分类模型的模型权重;
对初始化的图像分类模型进行迭代训练;
其中,所述迭代训练的步骤包括:
将训练集中图像输入图像分类模型,获取图像分类预测Y;
根据图像分类预测Y与其对应的图像分类期望y计算损失l2,基于损失l2利用梯度下降算法更新模型权重;
其中,所述迭代训练的步骤的终止条件为损失l2收敛或迭代次数大于预设的最大迭代次数M。
第二方面,本发明提供了一种脉冲神经网络结构的图像分类装置,所述装置包括:
数据获取模块,用于获取预设的图像数据集,并对图像数据集进行标准化处理生成标准化数据集;
数据划分模块,用于将标准化数据集按预设的比例划分为训练集和测试集;
结构搜索模块,用于定义可微分脉冲神经网络结构的搜索空间,将训练集输入搜索空间,利用梯度下降算法进行可微分脉冲神经网络结构的搜索;
模型构建模块,用于基于搜索获取的可微分脉冲神经网络结构,引入注意力机制构建图像分类模型;
训练测试模块,用于通过训练集对构建的图像分类模型进行训练,将测试集输入训练后的图像分类模型,生成图像分类结果。
第三方面,本发明提供了一种电子设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供的一种脉冲神经网络结构的图像分类方法、装置、设备及介质,其方法受可微分神经网络结构搜索算法的启发,实现了在脉冲神经网络领域的可微分神经网络结构搜索算法,相对其他遗传算法、进化算法等方法在训练时间方面更具优势,在确定可微分脉冲神经网络结构后,通过引入融合通道和时间注意力机制的模块,能够在较小的模型参数量、时间窗内,达到高精度的分类准确率;其装置、设备及介质通过实现上述方法,能够实现方法相应的技术效果。
附图说明
图1是本发明实施例一提供的脉冲神经网络结构的图像分类方法的流程示意图;
图2是本发明实施例一提供的基于可微分脉冲神经网络结构的神经网络模型的结构示意图;
图3是本发明实施例一提供的Cell单元的有向无环图的结构示意图;
图4是本发明实施例一提供的利用梯度下降算法进行可微分脉冲神经网络结构的搜索流程图;
图5是本发明实施例一提供的引入注意力机制构建图像分类模型的结构示意图;
图6是本发明实施例一提供的注意力层Attention Block的结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
如图1所示,本发明实施例提供了一种脉冲神经网络结构的图像分类方法,包括以下步骤:
1、获取预设的图像数据集,并对图像数据集进行标准化处理生成标准化数据集;
本实施例预设的图像数据集,若为普通的图像数据集,还需要进行时间维度的广播;若为DVS(dynamic vision sensor)数据集,需要按帧切片,然后设定时间窗,然后获取相应的帧对应的图像。
具体的,对图像数据集进行标准化处理生成标准化数据集包括:
将图像数据集中各图像统一为预设的尺寸(本实施例设为32×32),生成样本数据集;
计算样本数据集的均值和标准差,根据均值和标准差对样本数据集中各图像进行图像标准化,生成标准化数据集;
图像标准化包括:
x*=(x-μ)/σ
式中,x为样本数据集中图像,x*为x的标准化图像,μ、σ分别为样本数据集的均值和方差。以RGB图像为例,计算的对象为R、G、B三个通道各像素点的数值。
2、将标准化数据集按预设的比例划分为训练集和测试集。
3、定义可微分脉冲神经网络结构的搜索空间,将训练集输入搜索空间,利用梯度下降算法进行可微分脉冲神经网络结构的搜索;
具体的,定义可微分脉冲神经网络结构的搜索空间包括:
可微分脉冲神经网络结构包括多个串联的Cell单元,Cell单元为Normal Cell或Reduce Cell,Reduce Cell位于可微分脉冲神经网络结构的中间位置;Normal Cell用于让其输出与输入的特征图相比尺寸一致,Reduce cell用于让其输出与输入的特征图相比尺寸减半。
如图2所示,本实施例提供的可微分脉冲神经网络结构包括5个串联的Cell单元,第三层Cell单元为Reduce cell,其余为Normal Cell。
Cell单元为多个节点构成的有向无环图,每个节点为可微分脉冲神经网络结构中一个特征图的表示;有向无环图包括2个输入节点、n-3个中间节点以及1个输出节点。
如图3所示,本实施例提供的有向无环图包括7个节点,分别为2个输入节点I1、I2、4个中间节点b1、b2、b3、b4、1个输出节点;4个中间节点会逐个依赖前面的节点和输入节点,中间节点的表达式为:
通过Softmax函数将搜索空间由离散转化为连续,计算得到:
输出节点通过对所有中间节点进行通道合并得到,因此输出节点的通道会变未之前的4倍。
其中,有向边的操作集包括:
最大池化操作、平均池化操作、跳接操作、可分离卷积操作、空洞卷积操作以及空操作,其中,各项操作的卷积核为3×3、5×5、7×7,在各项操作后进行批正则化处理,从而加速网络的收敛。
本实施例中采用max_pool3x3、avg_pool3x3、skip_connect、sep_conv3x3、sep_conv5x5、dil_conv3x3、dil_conv5x5和none操作共计8个操作。
4、基于搜索获取的可微分脉冲神经网络结构,引入注意力机制构建图像分类模型;
如图4所示,利用梯度下降算法进行可微分脉冲神经网络结构的搜索包括:
初始化可微分脉冲神经网络结构中各有向边对应的结构参数;
在初始化的可微分脉冲神经网络结构后增加全局平均池化层Global Averagepool和全连接层Dense,构建神经网络模型(如图2所示);
对神经网络模型进行迭代优化,获取优化后的各有向边对应的结构参数;
仅保留可微分脉冲神经网络结构中相连节点间结构参数最大的两条有向边(结构参数越大,其对下一节点的重要性越大),得到搜索的可微分脉冲神经网络结构;
其中,迭代优化的步骤包括:
将训练集中图像输入神经网络模型,获取图像分类预测X;
根据图像分类预测X与其对应的图像分类期望x计算损失l1,基于损失l1利用梯度下降算法更新结构参数;
其中,迭代优化的步骤的终止条件为损失l1收敛或迭代次数大于预设的最大迭代次数N。
本实施例中,可微分脉冲神经网络使用的神经元全部是(Leaky Integrate andFire,LIF)神经元,因此激活函数会全部替换为更具生物合理性的LIFSpike()函数,具体可描述为:
ut,n=τut-1,n(1-ot-1,n)+It,n
ot,n=Spike(ut,n-Vth)
It,n=∑w*ot,n-1
其中,ut,n、ut-1,n为第t、t-1个时刻第n层的膜电势,τ为膜电势常数,ot,n、ot-1,n为第t、t-1个时刻第n层的脉冲输出,Vth代表神经元发放脉冲的阈值,It,n为第t个时刻第n层的加权输入,Spike()为阶跃函数,当输入大于1时为1,反之为0;w为神经网络权值。
如图5所示,引入注意力机制构建图像分类模型包括:
在搜索获取的可微分脉冲神经网络结构后增加注意力层Attention Block、全局平均池化层Global Average pool和全连接层Dense,构建图像分类模型;
如图6所示,注意力层包括串联结构,串联结构包括全局平均池化层GlobalAverage pool、Conv1×1卷积层、Sigmoid激活层,串联结构的输入连接至注意力层的输入,串联结构的输出与注意力层的输入进行残差运算,将残差运算结果作为注意力层的输出;Conv1×1卷积层不同于传统的1×1卷积,用于在图像的通道和时间两个维度上做逐点卷积,然后经过Sigmoid激活层,最后与输入Input在通道和时间上做逐元素相乘,得到输出。
5、通过训练集对构建的图像分类模型进行训练,将测试集输入训练后的图像分类模型,生成图像分类结果;
具体的,通过训练集对构建的图像分类模型进行训练包括:
初始化图像分类模型的模型权重;
对初始化的图像分类模型进行迭代训练;
其中,迭代训练的步骤包括:
将训练集中图像输入图像分类模型,获取图像分类预测Y;
根据图像分类预测Y与其对应的图像分类期望y计算损失l2,基于损失l2利用梯度下降算法更新模型权重;
其中,迭代训练的步骤的终止条件为损失l2收敛或迭代次数大于预设的最大迭代次数M。
通过本实施例提出的脉冲神经网络结构的图像分类方法,设计出来的神经网络结构相对传统的人工设计的网络往往性能更优,而可微分脉冲神经网络结构搜索相对进化算法、遗传算法等神经网络结构搜索算法在训练时间方面和GPU资源开销方面开销更小。实验结果表明,如表1所示,可微分脉冲神经网络结构搜索方法在模型参数量上更小,甚至在2个时间窗内就能超越大多数工作的准确率,通过引入融合通道和时间注意力模块还可以进一步增加模型的准确率。
可微分脉冲神经网络结构搜索方法有这些优点的原因有通过引入softmax层来离散化各个操作进行评分,而不是盲目的进行网络结构搜索,因此效率较高(训练时间、GPU资源开销相对进化算法较少),而通过引入注意力模块能够进一步提升模型的准确率,即使在2个时间窗内也能达到不错的准确率。
表1:实验结果:
表1中,Ours(darts)为本实施例实现的脉冲神经网络的DifferentiableArchitecture Search,即可微分的架构搜索,Ours(darts+eca)为本实施例提出的darts融合ECA(Efficient Channel Attention)注意力机制。
实施例二:
本发明实施例提供了一种脉冲神经网络结构的图像分类装置,装置包括:
数据获取模块,用于获取预设的图像数据集,并对图像数据集进行标准化处理生成标准化数据集;
数据划分模块,用于将标准化数据集按预设的比例划分为训练集和测试集;
结构搜索模块,用于定义可微分脉冲神经网络结构的搜索空间,将训练集输入搜索空间,利用梯度下降算法进行可微分脉冲神经网络结构的搜索;
模型构建模块,用于基于搜索获取的可微分脉冲神经网络结构,引入注意力机制构建图像分类模型;
训练测试模块,用于通过训练集对构建的图像分类模型进行训练,将测试集输入训练后的图像分类模型,生成图像分类结果。
实施例三:
基于实施例一,本发明实施例提供了一种电子设备,包括处理器及存储介质;
存储介质用于存储指令;
处理器用于根据指令进行操作以执行根据上述方法的步骤。
实施例四:
基于实施例一,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种脉冲神经网络结构的图像分类方法,其特征在于,包括:
获取预设的图像数据集,并对图像数据集进行标准化处理生成标准化数据集;
将标准化数据集按预设的比例划分为训练集和测试集;
定义可微分脉冲神经网络结构的搜索空间,将训练集输入搜索空间,利用梯度下降算法进行可微分脉冲神经网络结构的搜索;
基于搜索获取的可微分脉冲神经网络结构,引入注意力机制构建图像分类模型;
通过训练集对构建的图像分类模型进行训练,将测试集输入训练后的图像分类模型,生成图像分类结果。
2.根据权利要求1所述的可微分脉冲神经网络结构搜索方法,其特征在于,所述对图像数据集进行标准化处理生成标准化数据集包括:
将图像数据集中各图像统一为预设的尺寸,生成样本数据集;
计算样本数据集的均值和标准差,根据均值和标准差对样本数据集中各图像进行图像标准化,生成标准化数据集;
其中,所述图像标准化包括:
x*=(x-μ)/σ
式中,x为样本数据集中图像,x*为x的标准化图像,μ、σ分别为样本数据集的均值和方差。
3.根据权利要求1所述的可微分脉冲神经网络结构搜索方法,其特征在于,所述定义可微分脉冲神经网络结构的搜索空间包括:
可微分脉冲神经网络结构包括多个串联的Cell单元,所述Cell单元为Normal Cell或Reduce Cell,所述Reduce Cell位于可微分脉冲神经网络结构的中间位置;所述NormalCell用于让其输出与输入的特征图相比尺寸一致,所述Reduce cell用于让其输出与输入的特征图相比尺寸减半。
4.根据权利要求3所述的可微分脉冲神经网络结构搜索方法,其特征在于,所述Cell单元为多个节点构成的有向无环图,每个所述节点为可微分脉冲神经网络结构中一个特征图的表示;所述有向无环图包括2个输入节点、n-3个中间节点以及1个输出节点;所述输出节点通过对所有中间节点进行通道合并得到,所述中间节点的表达式为:
通过Softmax函数将搜索空间由离散转化为连续,计算得到:
其中,所述有向边的操作集包括:
最大池化操作、平均池化操作、跳接操作、可分离卷积操作、空洞卷积操作以及空操作,其中,各项操作的卷积核为3×3、5×5、7×7,在各项操作后进行批正则化处理。
5.根据权利要求4所述的可微分脉冲神经网络结构搜索方法,其特征在于,所述利用梯度下降算法进行可微分脉冲神经网络结构的搜索包括:
初始化可微分脉冲神经网络结构中各有向边对应的结构参数;
在初始化的可微分脉冲神经网络结构后增加全局平均池化层和全连接层,构建神经网络模型;
对神经网络模型进行迭代优化,获取优化后的各有向边对应的结构参数;
仅保留可微分脉冲神经网络结构中相连节点间结构参数最大的两条有向边,得到搜索的可微分脉冲神经网络结构;
其中,所述迭代优化的步骤包括:
将训练集中图像输入神经网络模型,获取图像分类预测X;
根据图像分类预测X与其对应的图像分类期望x计算损失l1,基于损失l1利用梯度下降算法更新结构参数;
其中,所述迭代优化的步骤的终止条件为损失l1收敛或迭代次数大于预设的最大迭代次数N。
6.根据权利要求1所述的可微分脉冲神经网络结构搜索方法,其特征在于,所述引入注意力机制构建图像分类模型包括:
在搜索获取的可微分脉冲神经网络结构后增加注意力层、全局平均池化层和全连接层,构建图像分类模型;
所述注意力层包括串联结构,所述串联结构包括全局平均池化层、1×1卷积层、Sigmoid激活层,所述串联结构的输入连接至注意力层的输入,所述串联结构的输出与注意力层的输入进行残差运算,将残差运算结果作为注意力层的输出;所述1×1卷积层用于在图像的通道和时间两个维度上做逐点卷积。
7.根据权利要求7所述的可微分脉冲神经网络结构搜索方法,其特征在于,所述通过训练集对构建的图像分类模型进行训练包括:
初始化图像分类模型的模型权重;
对初始化的图像分类模型进行迭代训练;
其中,所述迭代训练的步骤包括:
将训练集中图像输入图像分类模型,获取图像分类预测Y;
根据图像分类预测Y与其对应的图像分类期望y计算损失l2,基于损失l2利用梯度下降算法更新模型权重;
其中,所述迭代训练的步骤的终止条件为损失l2收敛或迭代次数大于预设的最大迭代次数M。
8.一种脉冲神经网络结构的图像分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取预设的图像数据集,并对图像数据集进行标准化处理生成标准化数据集;
数据划分模块,用于将标准化数据集按预设的比例划分为训练集和测试集;
结构搜索模块,用于定义可微分脉冲神经网络结构的搜索空间,将训练集输入搜索空间,利用梯度下降算法进行可微分脉冲神经网络结构的搜索;
模型构建模块,用于基于搜索获取的可微分脉冲神经网络结构,引入注意力机制构建图像分类模型;
训练测试模块,用于通过训练集对构建的图像分类模型进行训练,将测试集输入训练后的图像分类模型,生成图像分类结果。
9.一种电子设备,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310416687.6A CN116433980A (zh) | 2023-04-19 | 2023-04-19 | 脉冲神经网络结构的图像分类方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310416687.6A CN116433980A (zh) | 2023-04-19 | 2023-04-19 | 脉冲神经网络结构的图像分类方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116433980A true CN116433980A (zh) | 2023-07-14 |
Family
ID=87090480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310416687.6A Pending CN116433980A (zh) | 2023-04-19 | 2023-04-19 | 脉冲神经网络结构的图像分类方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116433980A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116645566A (zh) * | 2023-07-21 | 2023-08-25 | 中国科学院自动化研究所 | 基于全加法脉冲式Transformer的分类方法 |
-
2023
- 2023-04-19 CN CN202310416687.6A patent/CN116433980A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116645566A (zh) * | 2023-07-21 | 2023-08-25 | 中国科学院自动化研究所 | 基于全加法脉冲式Transformer的分类方法 |
CN116645566B (zh) * | 2023-07-21 | 2023-10-31 | 中国科学院自动化研究所 | 基于全加法脉冲式Transformer的分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN108681752B (zh) | 一种基于深度学习的图像场景标注方法 | |
CN108647742B (zh) | 基于轻量级神经网络的快速目标检测方法 | |
CN109543502B (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN112906720B (zh) | 基于图注意力网络的多标签图像识别方法 | |
CN113128558B (zh) | 基于浅层空间特征融合与自适应通道筛选的目标检测方法 | |
CN109740679B (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN109741341B (zh) | 一种基于超像素和长短时记忆网络的图像分割方法 | |
CN112101430A (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN111695640B (zh) | 地基云图识别模型训练方法及地基云图识别方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN110598746A (zh) | 一种基于ode求解器自适应的场景分类方法 | |
CN116433980A (zh) | 脉冲神经网络结构的图像分类方法、装置、设备及介质 | |
CN115797808A (zh) | 一种无人机巡检缺陷图像的识别方法、系统、装置及介质 | |
CN111192240B (zh) | 一种基于随机接入记忆的遥感图像目标检测方法 | |
CN111739037A (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN112364747A (zh) | 一种有限样本下的目标检测方法 | |
CN115240259A (zh) | 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统 | |
CN110728186A (zh) | 一种基于多网融合的火灾检测方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN115761654B (zh) | 一种车辆重识别方法 | |
CN110796716A (zh) | 一种基于多重残差网络和正则化迁移学习的图像着色方法 | |
CN115457366A (zh) | 基于图卷积神经网络的中草药多标签识别模型 | |
CN115616570A (zh) | 基于半监督生成对抗网络的sar目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |