CN113313119A - 图像识别方法、装置、设备、介质及产品 - Google Patents
图像识别方法、装置、设备、介质及产品 Download PDFInfo
- Publication number
- CN113313119A CN113313119A CN202110867883.6A CN202110867883A CN113313119A CN 113313119 A CN113313119 A CN 113313119A CN 202110867883 A CN202110867883 A CN 202110867883A CN 113313119 A CN113313119 A CN 113313119A
- Authority
- CN
- China
- Prior art keywords
- pulse
- small number
- image
- neural network
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种图像识别方法、装置、设备、介质及产品,该方法包括:获取包含目标物体的待识别图像;将待识别图像输入训练至收敛的少量脉冲神经网络模型FS‑RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率;少量脉冲神经网络模型FS‑RCNN中的至少一个神经网络由少量脉冲神经元构成;根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。本发明实施例的图像识别方法,采用的少量脉冲神经网络模型FS‑RCNN中至少一个神经网络由少量脉冲神经元构成,少量脉冲神经元在进行运算时,神经元向下传递信号的频率更低,脉冲数量更少,从而降低对算力的要求,提高运算速度。
Description
技术领域
本发明实施例涉及图像识别技术领域,尤其涉及一种图像识别方法、装置、设备、介质及产品。
背景技术
随着科技的不断发展,图像识别技术越来越重要,比如自动驾驶领域中,拥有精确的图像识别技术是实现自动驾驶的前提。目前图像识别技术中常用的识别方法是利用Faster RCNN(全称为:Faster Region Convolutional Neural Networks,中文为:更快的区域提议神经网络)网络,该网络需要先对整个原图提取特征,然后根据提取完毕的特征图生成感兴趣区域,从而根据各个感兴趣区域确定感兴趣区域属于哪种类别,是属于背景还是目标物体。
然而,Faster RCNN算法对图像识别设备的算力有着较高的要求。Faster RCNN算法在确定感兴趣区域时,极大的依赖于处理器计算的性能,无法通过网络训练加速,同时,由于对算力有较高的要求,实际的运算速度也较低。
发明内容
本发明提供一种图像识别方法、装置、设备、介质及产品,用以解决目前的图像识别方式对算力有较高的要求,实际的运算速度也较低的问题。
本发明实施例第一方面提供一种图像识别方法,包括:
获取包含目标物体的待识别图像;
将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率;所述少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成;
根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。
可选的,如上所述的方法,所述少量脉冲神经网络模型 FS-RCNN包括:少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络;其中,所述少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络都由少量脉冲神经元构成;
所述将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率,包括:
采用少量脉冲卷积神经网络提取所述待识别图像的特征,以生成待识别图像对应的特征图;
采用少量脉冲区域提议网络确定所述特征图中的多个感兴趣区域;
采用少量脉冲分类网络确定各所述感兴趣区域所属类别的概率。
可选的,如上所述的方法,所述少量脉冲卷积神经网络包括:一个少量脉冲卷积层、一个少量脉冲激活层和一个少量脉冲池化层;其中,少量脉冲卷积层、少量脉冲激活层和少量脉冲池化层由少量脉冲神经元构成;
所述采用少量脉冲卷积神经网络提取所述待识别图像的特征,以生成待识别图像对应的特征图,包括:
将待识别图像输入所述少量脉冲卷积层,以提取待识别图像的特征;
采用所述少量脉冲激活层将待识别图像的特征进行非线性化处理,以生成非线性化特征;
采用所述少量脉冲池化层将非线性化特征进行降维处理,以生成待识别图像对应的特征图。
可选的,如上所述的方法,所述少量脉冲卷积神经网络包括:第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层;
所述第一特征提取层、第二特征提取层以及第三特征提取层都包括两个少量脉冲卷积层、两个少量脉冲激活层和一个少量脉冲池化层;
所述第四特征提取层包括四个少量脉冲卷积层、四个少量脉冲激活层和一个少量脉冲池化层;
所述采用少量脉冲卷积神经网络提取所述待识别图像的特征,以生成待识别图像对应的特征图,包括:
采用所述第一特征提取层对待识别图像进行第一次特征提取,以输出待识别图像在进行特征提取后对应的第一尺度图和第一次提取的特征;
采用所述第二特征提取层对第一尺度图进行第二次特征提取,以输出第一尺度图在进行特征提取后对应的第二尺度图和第二次提取的特征;
采用所述第三特征提取层对第二尺度图进行第三次特征提取,以输出第二尺度图在进行特征提取后对应的第三尺度图和第三次提取的特征;
采用所述第四特征提取层对第三尺度图进行第四次特征提取,以输出第三尺度图在进行特征提取后对应的第四次提取的特征;
将第一次提取的特征、第二次提取的特征、第三次提取的特征和第四次提取的特征确定为待识别图像对应的特征图。
可选的,如上所述的方法,所述少量脉冲分类网络包括少量脉冲全连接层和归一化指数函数;所述少量脉冲全连接层由少量脉冲神经元构成;
所述采用少量脉冲分类网络确定各所述感兴趣区域所属类别的概率,包括:
采用少量脉冲全连接层对各所述感兴趣区域进行初步分类;
将初步分类后的各感兴趣区域输入归一化指数函数,以生成各感兴趣区域所属类别的概率。
可选的,如上所述的方法,所述根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体,包括:
从各感兴趣区域所属类别中确定与目标物体匹配的类别;
确定概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域;
从概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域中识别出目标物体。
可选的,如上所述的方法,所述将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN之前,还包括:
获取训练样本,所述训练样本中包括:包含目标物体的待识别图像样本;
将所述训练样本输入到预设少量脉冲神经网络模型 FS-RCNN中,以对所述预设少量脉冲神经网络模型 FS-RCNN进行训练;
根据所述预设少量脉冲神经网络模型 FS-RCNN输出的检测框位置偏移量和感兴趣区域所属类别的概率确定所述预设少量脉冲神经网络模型 FS-RCNN是否满足预设的收敛条件;
若所述预设少量脉冲神经网络模型 FS-RCNN满足收敛条件,则将满足收敛条件的预设少量脉冲神经网络模型 FS-RCNN确定为训练至收敛的少量脉冲神经网络模型 FS-RCNN。
本发明实施例第二方面提供一种图像识别装置,包括:
获取模块,用于获取包含目标物体的待识别图像;
输出模块,用于将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率;所述少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成;
识别模块,用于根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。
可选的,如上所述的装置,所述少量脉冲神经网络模型 FS-RCNN包括:少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络;其中,所述少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络都由少量脉冲神经元构成;
所述输出模块具体用于:
采用少量脉冲卷积神经网络提取所述待识别图像的特征,以生成待识别图像对应的特征图;采用少量脉冲区域提议网络确定所述特征图中的多个感兴趣区域;采用少量脉冲分类网络确定各所述感兴趣区域所属类别的概率。
可选的,如上所述的装置,所述少量脉冲卷积神经网络包括:一个少量脉冲卷积层、一个少量脉冲激活层和一个少量脉冲池化层;其中,少量脉冲卷积层、少量脉冲激活层和少量脉冲池化层由少量脉冲神经元构成;
所述输出模块在采用少量脉冲卷积神经网络提取所述待识别图像的特征,以生成待识别图像对应的特征图时,具体用于:
将待识别图像输入所述少量脉冲卷积层,以提取待识别图像的特征;采用所述少量脉冲激活层将待识别图像的特征进行非线性化处理,以生成非线性化特征;采用所述少量脉冲池化层将非线性化特征进行降维处理,以生成待识别图像对应的特征图。
可选的,如上所述的装置,所述少量脉冲卷积神经网络包括:第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层;所述第一特征提取层、第二特征提取层以及第三特征提取层都包括两个少量脉冲卷积层、两个少量脉冲激活层和一个少量脉冲池化层;所述第四特征提取层包括四个少量脉冲卷积层、四个少量脉冲激活层和一个少量脉冲池化层;
所述输出模块在采用少量脉冲卷积神经网络提取所述待识别图像的特征,以生成待识别图像对应的特征图时,具体用于:
采用所述第一特征提取层对待识别图像进行第一次特征提取,以输出待识别图像在进行特征提取后对应的第一尺度图和第一次提取的特征;采用所述第二特征提取层对第一尺度图进行第二次特征提取,以输出第一尺度图在进行特征提取后对应的第二尺度图和第二次提取的特征;采用所述第三特征提取层对第二尺度图进行第三次特征提取,以输出第二尺度图在进行特征提取后对应的第三尺度图和第三次提取的特征;采用所述第四特征提取层对第三尺度图进行第四次特征提取,以输出第三尺度图在进行特征提取后对应的第四次提取的特征;将第一次提取的特征、第二次提取的特征、第三次提取的特征和第四次提取的特征确定为待识别图像对应的特征图。
可选的,如上所述的装置,所述少量脉冲分类网络包括少量脉冲全连接层和归一化指数函数;所述少量脉冲全连接层由少量脉冲神经元构成;
所述输出模块在采用少量脉冲分类网络确定各所述感兴趣区域所属类别的概率时,具体用于:
采用少量脉冲全连接层对各所述感兴趣区域进行初步分类;将初步分类后的各感兴趣区域输入归一化指数函数,以生成各感兴趣区域所属类别的概率。
可选的,如上所述的装置,所述识别模块,具体用于:
从各感兴趣区域所属类别中确定与目标物体匹配的类别;确定概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域;从概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域中识别出目标物体。
可选的,如上所述的装置,所述图像识别装置,还包括:
训练模块,用于获取训练样本,所述训练样本中包括:包含目标物体的待识别图像样本;将所述训练样本输入到预设少量脉冲神经网络模型 FS-RCNN中,以对所述预设少量脉冲神经网络模型 FS-RCNN进行训练;根据所述预设少量脉冲神经网络模型 FS-RCNN输出的检测框位置偏移量和感兴趣区域所属类别的概率确定所述预设少量脉冲神经网络模型FS-RCNN是否满足预设的收敛条件;若所述预设少量脉冲神经网络模型 FS-RCNN满足收敛条件,则将满足收敛条件的预设少量脉冲神经网络模型 FS-RCNN确定为训练至收敛的少量脉冲神经网络模型 FS-RCNN。
本发明实施例第三方面提供一种电子设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行第一方面任一项所述的图像识别方法。
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的图像识别方法。
本发明实施例第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项所述的图像识别方法。
本发明实施例提供的一种图像识别方法、装置、设备、介质及产品,该方法包括:获取包含目标物体的待识别图像;将待识别图像输入训练至收敛的少量脉冲神经网络模型FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率;所述少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成;根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。本发明实施例的图像识别方法,由于采用的少量脉冲神经网络模型 FS-RCNN,而少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成,相比现有Faster RCNN采用的人工神经网络神经元,少量脉冲神经元在进行运算时,神经元向下传递信号的频率更低,脉冲数量更少,从而降低少量脉冲神经网络模型 FS-RCNN对算力的要求,提高运算速度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例的滑动窗口检测器的取样窗口示意图;
图2为可以实现本发明实施例的图像识别方法的场景图;
图3为本发明第一实施例提供的图像识别方法的流程示意图;
图4为本发明第二实施例提供的图像识别方法的流程示意图;
图5为本发明实施例的FasterRCNN网络的图像识别流程示意图;
图6a为本发明第二实施例提供的图像识别方法中人工神经网络神经元的示意图;
图6b为本发明第二实施例提供的图像识别方法中少量脉冲神经元的示意图;
图7为本发明第二实施例提供的图像识别方法中特征提取流程的示意图;
图8为本发明第三实施例提供的图像识别装置的结构示意图;
图9为本发明第四实施例提供的电子设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介绍。图像识别技术随着时间的推移在不断的发展进步。起初使用的是滑动窗口检测器 (英文全称为:sliding-windows detectors)。滑动窗口检测器利用可变(大多数时候是固定大小)的取样窗口,如图1中白色方框即为取样窗口,从左到右,从上到下滑动,截取窗口中的特征输入卷积神经网络(英文全称为:Convolutional Neural Networks,英文简称为:CNN)提取特征,随后直接交给支持向量机做分类,线性分类器来缩小边框。后来,为了提高运算效率,提出了区域提议神经网络(英文全称为:Region-Convolutional Neural Networks,英文简称为:RCNN),改上面的暴力滑动遍历所有区域变为使用提议区域的方法生成1000-3000个感兴趣区域(英文全称为:region of interest,英文简称为:ROI),基于训练好的CNN,生成ROI对应的特征图,随后基于全连接层来分类,同样用线性分类器缩小边框。由于RCNN还是需要大量的提议区域,比起暴力滑动窗口提升有限,因而,又提出了新的图像识别的神经网络模型FastRCNN。FastRCNN采用一个或多个特征提取器,先对整个原图提取特征,再在提取完毕的特征图上应用区域提议方法,这样就减少了ROI的个数,加快了速度。上述FastRCNN的短板在区域提议算法上,这是一个选择性搜索算法,极大的依赖处理器的性能而无法通过网络训练加速,实际测试上87%的时间都用在了选择性搜索生成ROI上。针对这个问题,提出了新的网络模型Faster RCNN。Faster RCNN运用内部网络RPN(全称为:Region ProposalNetwork,中文为:区域提议网络)来代替基于选择性搜索算法的区域提议搜索算法。 RPN网络以卷积网络的特征图输出作为输入。但实际应用下来大约只有0.5%的提升,运算速度提升较小。
目前常用的图像识别模型为Faster RCNN,而Faster RCNN对图像识别设备的算力有着较高的要求,实际的运算速度也较低。
所以针对现有技术中目前的图像识别方式对算力有较高的要求,实际的运算速度也较低的问题,发明人在研究中发现,为了解决目前的图像识别方式对算力有较高的要求,实际的运算速度也较低的问题,可以将少量脉冲神经元(英文全称为:Few-spikes Neuron,英文简称为:FS Neuron)替换Faster RCNN中的部分或全部人工神经网络神经元(英文全称为:Artificial Neural Network Neuron,英文简称为:ANN Neuron),从而将Faster RCNN转换为少量脉冲神经网络模型 FS-RCNN,以降低对算力的要求,提高运算速度。具体的,在进行图像识别时,首先获取包含目标物体的待识别图像。将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率。少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成。根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。本发明实施例的图像识别方法,由于采用的少量脉冲神经网络模型 FS-RCNN,而少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成,相比现有Faster RCNN采用的人工神经网络神经元,少量脉冲神经元在进行运算时,神经元向下传递信号的频率更低,脉冲数量更少,从而降低少量脉冲神经网络模型 FS-RCNN对算力的要求,提高运算速度。
发明人基于上述的创造性发现,提出了本申请的技术方案。
下面对本发明实施例提供的图像识别方法的应用场景进行介绍。如图2所示,其中,1为第一电子设备,2为第二电子设备。本发明实施例提供的图像识别方法对应的应用场景的网络架构中包括:第一电子设备1和第二电子设备2。第二电子设备2可以是车辆上的车辆终端,也可以是用户终端或其他电子设备。第二电子设备2存储有包含目标物体的待识别图像,并将包含目标物体的待识别图像发送至第一电子设备1。在进行图像识别时,第一电子设备1获取第二电子设备存储的待识别图像,并将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率。同时,根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。由于少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成,少量脉冲神经元在进行运算时,神经元向下传递信号的频率更低,脉冲数量更少,从而降低少量脉冲神经网络模型 FS-RCNN对算力的要求,提高运算速度。因而,第一电子设备可以是边缘计算设备,比如低功耗摄像头、工控机等,从而使算力不够的边缘计算设备也可以进行高效的图像识别。
下面结合说明书附图对本发明实施例进行介绍。
图3为本发明第一实施例提供的图像识别方法的流程示意图,如图3所示,本实施例中,本发明实施例的执行主体为图像识别装置,该图像识别装置可以集成在电子设备中。则本实施例提供的图像识别方法包括以下几个步骤:
步骤S101,获取包含目标物体的待识别图像。
本实施例中,待识别图像可以是图片或者视频帧,获取的方式可以是从拍摄图像的设备中获取,比如车辆的拍摄设备、用户终端的拍摄设备等,也可以是从存储有包含目标物体的待识别图像的数据库中获取得到。本实施例对此不作限定。
步骤S102,将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率。少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成。
本实施例中,感兴趣区域的内容与图1中取样窗口的内容类似,如果感兴趣区域的内容为目标物体,比如是一辆车,则该感兴趣区域所属类别为车,如果感兴趣区域的内容是单纯的背景,则感兴趣区域所属类别为背景。由于感兴趣区域选择的不同,感兴趣区域大小也可能不同,因而,少量脉冲神经网络模型 FS-RCNN输出的是各感兴趣区域所属类别的概率,即各感兴趣区域所属类别的可能性。
步骤S103,根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。
本实施例中,当确定出各感兴趣区域所属类别的概率后,可以从所属类别为目标物体的所有感兴趣区域对应的概率中,确定是否有概率满足预设的阈值,如果存在满足预设的阈值,则确定该感兴趣区域中的内容为目标物体。
本发明实施例提供的一种图像识别方法,该方法包括:获取包含目标物体的待识别图像。将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率。少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成。根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。本发明实施例的图像识别方法,由于采用的少量脉冲神经网络模型 FS-RCNN,而少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成,相比现有Faster RCNN采用的人工神经网络神经元,少量脉冲神经元在进行运算时,神经元向下传递信号的频率更低,脉冲数量更少,从而降低少量脉冲神经网络模型 FS-RCNN对算力的要求,提高运算速度。
图4为本发明第二实施例提供的图像识别方法的流程示意图,如图4所示,本实施例提供的图像识别方法,是在本发明上一实施例提供的图像识别方法的基础上,对各个步骤进行了进一步的细化。则本实施例提供的图像识别方法包括以下步骤。
步骤S201,获取包含目标物体的待识别图像。
本实施例中,步骤201的实现方式与本发明上一实施例中的步骤101的实现方式类似,在此不再一一赘述。
需要说明的是,少量脉冲神经网络模型 FS-RCNN包括:少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络。其中,少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络都由少量脉冲神经元构成。
步骤S202,采用少量脉冲卷积神经网络提取待识别图像的特征,以生成待识别图像对应的特征图。
本实施例中,少量脉冲卷积神经网络与图5中FasterRCNN网络的CNN特征提取部分对应。少量脉冲卷积神经网络是将FasterRCNN网络中的卷积神经网络中的ANN神经元替换为少量脉冲神经元形成的。如图5所示,FasterRCNN网络在进行图像识别时,依次经过图像输入-CNN网络的特征提取-生成总体特征图-通过RPN ROI提议算法确定感兴趣区域-通过ROI池化算法进行降维-全连接层输出感兴趣区域的类别概率以及检测的区域框的偏移量。从而识别出物体分类和更精确的区域框。本实施例的少量脉冲神经网络模型 FS-RCNN在对图像识别的总体流程与FasterRCNN网络相同。
为了更好的说明本发明实施例的图像识别方法,下面将结合图6a和图6b详细描述ANN神经元和少量脉冲神经元FS神经元之间的区别。
首先介绍传统的脉冲神经网络及其编码方式,与传统的标量神经网络传递数据的方式不同,传统的标量神经网络传递数据的方式本质上是对输入的标量数据做线性变换后,编码到激活函数上输出,而脉冲神经网络不以标量大小,以脉冲密度和时延形式表征输入输出,对于一个神经元而言,针对不同的输入和对应输入的权重,脉冲神经元在接受后会出现电位的跃升,当电位不为0时则会缓慢漏电,回到0点。同时,脉冲神经元具有动作电位的概念,即当电位跃升超过某个值时,该神经元也会生成一个脉冲,并将其传递给下一个神经元。神经元之间信号的强弱通常采用时延编码形式,及相对数值越大,则该神经元在对应时间区间里的发送位置就越靠前。对于神经网络学习所必须的反向传播步骤,大多数脉冲神经网络则基于突触的时间可塑性,简单来说即当接收神经元的动作电位产生于发送神经元后时,则认为其二者之间的关系存在强关联,需增加该神经通路上的权重。若接收神经元的动作电位产生于发送神经元前时,则认为二者之间的关联较弱,需减少该神经通路上的权重。
这种脉冲神经元完全模拟了生物中的神经信号传递方式,并且具有相当的神经科学理论基础和很强的适应性。在其应用层上,一种吸引人的做法是直接将一个表现优异、已训练完成的 CNN 转换成 SNN(全称为:Spiking Neuron Networks,中文为:脉冲神经网络)——使用同样的连接和权重。最常用而且到目前为止也是表现最好的转换方法是基于发射率编码的思想,这种方法是通过脉冲神经元的发射率来仿真 ANN 单元的模拟(analog)输出。然而,现有的大部分算法很难完全采用神经形态的编码实现,这主要由于时延编码的脉冲需要很高的时间精度才能将上述的权重以及信号强度精确地传递到下层神经元。此外,基于时延及发射率编码脉冲的数量将会倍增,在最终的网络中,脉冲的数量过多,会严重拖累网络性能,失去脉冲神经网络能耗低的优点(原来能耗低,是因为在一次正向传播中,未达到动作电位的神经元不会被激活,因此就省下了部分运算)。
基于这个问题,一种新型的将ANN转换为SNN的方法被提出,也被称作FS(全称为:Few Spikes,中文为:少量脉冲)转换,这与之前基于发射率和时延的编码方式完全不同,更加适合将ANN中常用的算法(CNN等)直接迁移到FS上来。FS转换的实现仅需使用logN个不同值的脉冲时间以及最多logN个用于传输1到N之间的整数的脉冲。在实践中,所需的脉冲数量甚至还可以更少,因为并非所有N个值的出现几率都是均等的。但是,FS 转换需要一种修改版的脉冲神经元模型——FS神经元,该神经元的内部动态针对使用少数脉冲仿真特定类型的ANN神经元进行过优化。
如图6a所示,图中为传统的ANN神经元,图6b中为改造的FS神经元,ANN神经元的本
质即为对所有输入以及对应输入的权重做线性叠加,并输出到下一层,即为:,
其中,x为叠加后的结果,i表示输入的标号,ω为输入,a为权重。
FS神经元的改造则致力于将输入输出对应ANN,但需要经过K个内部时间步,内部动态由各项固定参数即常用的超参数T(t),H(t)及d(t)定义,t为1到K个时间步中的任意离散整数值。内部动态各项参数通过函数变换,定义脉冲神经元产生的脉冲序列z(t),简单来说则为:若神经元在t时产生了动作电位,则 z(t)=1,否则 z(t)=0。产生动作电位(z(t)=1)的要求为在t时,v(t)>T(t),v(t)为膜电位,T(t)为动作电位阈值。
在算法的实现过程中,我们假设膜电位v(t)不漏电(及v(t)不会随时间线性衰减,以减少计算量),但如果在时间t后有脉冲激发,则会被重置下降到v(t)=v(t)-h(t),用公式可以表示为:
膜电位初始值依赖于外部输入,我们将其设为x,即v(1)=x,最终FS神经元在内部动态中在不同时间点产生的脉冲输出可被定义为:
如此,我们获得了一个类似ANN上层神经元输入的量z(t),再根据前文定义的d(t)(类似权重函数),我们即可获得FS在内部动态中经过K个时间步骤产生的总输出:
这样的FS内部动态模拟,可以用于直接替换CNN中的神经元,对于不同的仿真对象,只需要合理的选择T(t), H(t), 及d(t)超参数,并通过反向即可仿真各种激活函数。
使用FS 神经元改善ANN的主要优点如下:
与ANN相比,采用脉冲编码可以显著降低能源消耗,因为减少了神经元向下传递信号的频率,这点尤其体现在应用于神经形态硬件上的情况。考虑到神经形态芯片在边缘计算上应用的广阔前景,这种改进的脉冲编码算法将有很大的使用价值。
与传统的发射率时延编码相比:改善网络结构,无需巨大的网络结构,只需将对应的ANN神经元替换为FS神经元,便于在神经形态硬件上部署。同时,减少脉冲数量,脉冲数量比传统发射率实验编码相比至少下降25%,节能。并且,也可以编码负数的激活函数,实现完美ANN-SNN的迁移。
可选的,本实施例中,少量脉冲卷积神经网络包括:一个少量脉冲卷积层、一个少量脉冲激活层和一个少量脉冲池化层。其中,少量脉冲卷积层、少量脉冲激活层和少量脉冲池化层由少量脉冲神经元构成。
采用少量脉冲卷积神经网络提取待识别图像的特征,以生成待识别图像对应的特征图,包括:
将待识别图像输入少量脉冲卷积层,以提取待识别图像的特征。
采用少量脉冲激活层将待识别图像的特征进行非线性化处理,以生成非线性化特征。
采用少量脉冲池化层将非线性化特征进行降维处理,以生成待识别图像对应的特征图。
本实施例中,使用一个少量脉冲卷积层、一个少量脉冲激活层和一个少量脉冲池化层可以简化进行特征提取的少量脉冲卷积神经网络。虽然提取的特征数量较少,但也有简化神经网络的优点。待识别图像的特征包括该图像各像素的颜色等特征。由于少量脉冲卷积层在提取特征时,会产生超高的维度,同时,由于少量脉冲卷积层在提取特征时会产生线性组合,而线性组合的表达能力不够,因而需要通过少量脉冲激活层将待识别图像的特征进行非线性化处理。同时,利用少量脉冲池化层将非线性化特征进行降维处理,从而生成待识别图像对应的特征图。
可选的,本实施例中,少量脉冲卷积神经网络包括:第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层。
第一特征提取层、第二特征提取层以及第三特征提取层都包括两个少量脉冲卷积层、两个少量脉冲激活层和一个少量脉冲池化层。
第四特征提取层包括四个少量脉冲卷积层、四个少量脉冲激活层和一个少量脉冲池化层。
采用少量脉冲卷积神经网络提取待识别图像的特征,以生成待识别图像对应的特征图,包括:
采用第一特征提取层对待识别图像进行第一次特征提取,以输出待识别图像在进行特征提取后对应的第一尺度图和第一次提取的特征。
采用第二特征提取层对第一尺度图进行第二次特征提取,以输出第一尺度图在进行特征提取后对应的第二尺度图和第二次提取的特征。
采用第三特征提取层对第二尺度图进行第三次特征提取,以输出第二尺度图在进行特征提取后对应的第三尺度图和第三次提取的特征。
采用第四特征提取层对第三尺度图进行第四次特征提取,以输出第三尺度图在进行特征提取后对应的第四次提取的特征。
将第一次提取的特征、第二次提取的特征、第三次提取的特征和第四次提取的特征确定为待识别图像对应的特征图。
本实施例中,如图7所示,图7中Conv指少量脉冲卷积层,Relu指少量脉冲激活层,Pooling指少量脉冲池化层,MAX Pooling指少量脉冲池化层的池化降维处理。128*128为第一尺度图,64*64为第二尺度图,32*32为第三尺度图。本实施例以一般情况下图像大小为256*256进行举例。每次池化后输出的长宽变为1/2,从而形成各个大小的尺度图。少量脉冲卷积神经网络采用了十个少量脉冲卷积层、十个少量脉冲激活层以及四个少量脉冲池化层。相比FastRCNN采用的十三个卷积层、十三个激活层以及四个池化层,本实施例减少了网络层数,从而更适应边缘设备的算力。其次,FastRCNN特征提取的CNN中间层大小不一致,无法和最终提取的特征一起输入ROI进行训练,现在针对所有中间特征都可以进一步降维,形成不同尺度的图像,从而进行多尺度的特征提取。使其能作为有效特征输入后续ROI。这些操作一共可以提取第一次提取的特征、第二次提取的特征、第三次提取的特征和第四次提取的特征64+192+512+1536=2304个。而FastRCNN特征提取的特征数量一般为1536个。
步骤S203,采用少量脉冲区域提议网络确定特征图中的多个感兴趣区域。
本实施例中,感兴趣区域一般为多个,且数量较大。感兴趣区域中包含的内容可能是物体,也可能是背景。
少量脉冲区域提议网络根据总体特征图,采用FS脉冲RPN生成ROI(感兴趣区域),具体为:将特征图经过3*3的脉冲卷积层,随后分为两条线:
值得注意的一点是,通常来说通过3*3的卷积核会使卷积后的图像变为(M-2)*(N-2)大小,但是此处的特征提取会在图像外进行一次包边,即为在外层填充一圈(0,0,0)的像素,因此每次卷积的原始图像会变为(M+2)*(N+2)大小,经过一次卷积后大小仍然为M*N。
第一条线通过softmax激活函数对检测框分类,分为可能包含目标的检测框和背景检测框,这样就初步提取了检测目标候选的区域,具体步骤为经过18个不同的1*1卷积核生成18个输出,这样卷积输出的图像总大小为16*16*18,对于每个特征图的每个点,都有生成的18个参数,他们两两对应一个检测框,用于标明是否可能是包含目标的或者只有背景,这样所有提议的区域就都生成好了。
提议的区域会根据特征图的位置,重新反向映射回原图,等于特征图中的一个像素对应原图中的4个16个像素,若针对某个参数的“包含目标”“只含背景”分类,直观感受就是产生了一大堆方框,框内包含目标。
第二条线直接用于计算检测框的位置偏移,使其尽可能准确地定位到检测目标上,方法是经过36个1*1的脉冲卷积核,随后对于每个点,都有36个参数,他们每组4个对应一个检测框,代表检测框在上下左右四个维度上的偏移量(dx,dy,dw,dh)。
随后提议层综合所有可能包含目标的检测框和对应的偏移量,输入池化层,池化层将所有检测框映射回16*16的特征图尺度,随后水平竖直分割,最后进行最大池化处理,以实现固定长度输出(一般是7*7)。
步骤S204,采用少量脉冲分类网络确定各感兴趣区域所属类别的概率。
本实施例中,少量脉冲分类网络可以包括少量脉冲全连接层和归一化指数函数softmax。通过少量脉冲全连接层和归一化指数函数softmax可以对各感兴趣区域进行分类,从而确定各感兴趣区域所属类别的概率。
可选的,本实施例中,少量脉冲分类网络包括少量脉冲全连接层和归一化指数函数。少量脉冲全连接层由少量脉冲神经元构成。
采用少量脉冲分类网络确定各感兴趣区域所属类别的概率,包括:
采用少量脉冲全连接层对各感兴趣区域进行初步分类。
将初步分类后的各感兴趣区域输入归一化指数函数,以生成各感兴趣区域所属类别的概率。
本实施例中,少量脉冲全连接层是由少量脉冲神经元构成,相比FastRCNN中的全连接层,运算更快,效率更高。
步骤S205,从各感兴趣区域所属类别中确定与目标物体匹配的类别。
本实施例中,各感兴趣区域所属类别有多种,比如待识别图像中,存在香蕉、苹果、手机、显示器,如果目标物体是香蕉,则与目标物体匹配的类别为香蕉的类别,各感兴趣区域所属类别可以包括香蕉、苹果、手机、显示器、背景等类别。
步骤S206,确定概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域。
本实施例中,可以预先设置概率的阈值,比如设置为80,则当概率大于或等于80时,则判定该感兴趣区域确实包含目标物体。
步骤S207,从概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域中识别出目标物体。
本实施例中,当确定该感兴趣区域确实包含目标物体后,可以从该感兴趣区域识别出目标物体。
同时,本实施例,还提供对少量脉冲神经网络模型 FS-RCNN的训练流程,具体流程如下:
获取训练样本,训练样本中包括:包含目标物体的待识别图像样本。
将训练样本输入到预设少量脉冲神经网络模型 FS-RCNN中,以对预设少量脉冲神经网络模型 FS-RCNN进行训练。
根据预设少量脉冲神经网络模型 FS-RCNN输出的检测框位置偏移量和感兴趣区域所属类别的概率确定预设少量脉冲神经网络模型 FS-RCNN是否满足预设的收敛条件。
若预设少量脉冲神经网络模型 FS-RCNN满足收敛条件,则将满足收敛条件的预设少量脉冲神经网络模型 FS-RCNN确定为训练至收敛的少量脉冲神经网络模型 FS-RCNN。
本实施例中,在对少量脉冲神经网络模型 FS-RCNN训练时,是根据FS-RCNN的少量脉冲全连接层输出的检测框位置偏移量和感兴趣区域所属类别的概率来确定是否收敛。感兴趣区域所属类别的概率如果达到一定的数值,比如达到90左右,可以判定为收敛,同时,检测框位置偏移量如果达到近似为0,结合感兴趣区域所属类别的概率,综合判定为收敛。在训练过程中,检测框位置偏移量可以对下一次的预测提供帮助,一帮情况下是将重新检测框位置偏移量输入少量脉冲区域提议网络,从而更新检测框位置,使检测框能更完美的覆盖目标物体,也使感兴趣区域的内容更贴合目标物体。
本实施例提供的一种图像识别方法,通过将FastRCNN中的卷积神经网络中的卷积层、激活层和池化层内的ANN神经元替换为FS神经元,从而形成少量脉冲卷积神经网络的少量脉冲卷积层、少量脉冲激活层和少量脉冲池化层。相比现有Faster RCNN采用的ANN神经元,少量脉冲神经元在进行运算时,神经元向下传递信号的频率更低,脉冲数量更少,从而降低少量脉冲卷积神经网络对算力的要求,进而提高了FS-RCNN的运算速度。
图8为本发明第三实施例提供的图像识别装置的结构示意图,如图8所示,本实施例中,该图像识别装置300包括:
获取模块301,用于获取包含目标物体的待识别图像。
输出模块302,用于将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率。少量脉冲神经网络模型FS-RCNN中的至少一个神经网络由少量脉冲神经元构成。
识别模块303,用于根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。
本实施例提供的图像识别装置可以执行图2所示方法实施例的技术方案,其实现原理和技术效果与图2所示方法实施例类似,在此不再一一赘述。
同时,本发明提供的图像识别装置在上一实施例提供的图像识别装置的基础上,对图像识别装置300进行了进一步的细化。
可选的,本实施例中,少量脉冲神经网络模型 FS-RCNN包括:少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络。其中,少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络都由少量脉冲神经元构成。
输出模块302具体用于:
采用少量脉冲卷积神经网络提取待识别图像的特征,以生成待识别图像对应的特征图。采用少量脉冲区域提议网络确定特征图中的多个感兴趣区域。采用少量脉冲分类网络确定各感兴趣区域所属类别的概率。
可选的,本实施例中,少量脉冲卷积神经网络包括:一个少量脉冲卷积层、一个少量脉冲激活层和一个少量脉冲池化层。其中,少量脉冲卷积层、少量脉冲激活层和少量脉冲池化层由少量脉冲神经元构成。
输出模块302在采用少量脉冲卷积神经网络提取待识别图像的特征,以生成待识别图像对应的特征图时,具体用于:
将待识别图像输入少量脉冲卷积层,以提取待识别图像的特征。采用少量脉冲激活层将待识别图像的特征进行非线性化处理,以生成非线性化特征。采用少量脉冲池化层将非线性化特征进行降维处理,以生成待识别图像对应的特征图。
可选的,本实施例中,少量脉冲卷积神经网络包括:第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层。第一特征提取层、第二特征提取层以及第三特征提取层都包括两个少量脉冲卷积层、两个少量脉冲激活层和一个少量脉冲池化层。第四特征提取层包括四个少量脉冲卷积层、四个少量脉冲激活层和一个少量脉冲池化层。
输出模块302在采用少量脉冲卷积神经网络提取待识别图像的特征,以生成待识别图像对应的特征图时,具体用于:
采用第一特征提取层对待识别图像进行第一次特征提取,以输出待识别图像在进行特征提取后对应的第一尺度图和第一次提取的特征。采用第二特征提取层对第一尺度图进行第二次特征提取,以输出第一尺度图在进行特征提取后对应的第二尺度图和第二次提取的特征。采用第三特征提取层对第二尺度图进行第三次特征提取,以输出第二尺度图在进行特征提取后对应的第三尺度图和第三次提取的特征。采用第四特征提取层对第三尺度图进行第四次特征提取,以输出第三尺度图在进行特征提取后对应的第四次提取的特征。将第一次提取的特征、第二次提取的特征、第三次提取的特征和第四次提取的特征确定为待识别图像对应的特征图。
可选的,本实施例中,少量脉冲分类网络包括少量脉冲全连接层和归一化指数函数。少量脉冲全连接层由少量脉冲神经元构成。
输出模块302在采用少量脉冲分类网络确定各感兴趣区域所属类别的概率时,具体用于:
采用少量脉冲全连接层对各感兴趣区域进行初步分类。将初步分类后的各感兴趣区域输入归一化指数函数,以生成各感兴趣区域所属类别的概率。
可选的,本实施例中,识别模块303,具体用于:
从各感兴趣区域所属类别中确定与目标物体匹配的类别。确定概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域。从概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域中识别出目标物体。
可选的,本实施例中,图像识别装置300,还包括:
训练模块,用于获取训练样本,训练样本中包括:包含目标物体的待识别图像样本。将训练样本输入到预设少量脉冲神经网络模型 FS-RCNN中,以对预设少量脉冲神经网络模型 FS-RCNN进行训练。根据预设少量脉冲神经网络模型 FS-RCNN输出的检测框位置偏移量和感兴趣区域所属类别的概率确定预设少量脉冲神经网络模型 FS-RCNN是否满足预设的收敛条件。若预设少量脉冲神经网络模型 FS-RCNN满足收敛条件,则将满足收敛条件的预设少量脉冲神经网络模型 FS-RCNN确定为训练至收敛的少量脉冲神经网络模型 FS-RCNN。
本实施例提供的图像识别装置可以执行图3-图7所示方法实施例的技术方案,其实现原理和技术效果与图3-图7所示方法实施例类似,在此不再一一赘述。
根据本发明的实施例,本发明还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
如图9所示,图9是本发明第四实施例提供的电子设备的结构示意图。电子设备旨在各种形式适用于车辆的数字计算机,诸如,膝上型计算机、个人数字助理、车辆控制器、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图9所示,该电子设备包括:处理器401、存储器402。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理。
存储器402即为本发明所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本发明所提供的图像识别方法。本发明的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本发明所提供的图像识别方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本发明实施例中的图像识别方法对应的程序指令/模块(例如,附图8所示的获取模块301、输出模块302和识别模块303)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的图像识别方法。
同时,本实施例还提供一种计算机产品,当该计算机产品中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例一和二的图像识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明实施例的其它实施方案。本发明旨在涵盖本发明实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明实施例的一般性原理并包括本发明实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明实施例的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明实施例的范围仅由所附的权利要求书来限制。
Claims (11)
1.一种图像识别方法,其特征在于,包括:
获取包含目标物体的待识别图像;
将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率;所述少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成;
根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。
2.根据权利要求1所述的方法,其特征在于,所述少量脉冲神经网络模型 FS-RCNN包括:少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络;其中,所述少量脉冲卷积神经网络、少量脉冲区域提议网络和少量脉冲分类网络都由少量脉冲神经元构成;
所述将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率,包括:
采用少量脉冲卷积神经网络提取所述待识别图像的特征,以生成待识别图像对应的特征图;
采用少量脉冲区域提议网络确定所述特征图中的多个感兴趣区域;
采用少量脉冲分类网络确定各所述感兴趣区域所属类别的概率。
3.根据权利要求2所述的方法,其特征在于,所述少量脉冲卷积神经网络包括:一个少量脉冲卷积层、一个少量脉冲激活层和一个少量脉冲池化层;其中,少量脉冲卷积层、少量脉冲激活层和少量脉冲池化层由少量脉冲神经元构成;
所述采用少量脉冲卷积神经网络提取所述待识别图像的特征,以生成待识别图像对应的特征图,包括:
将待识别图像输入所述少量脉冲卷积层,以提取待识别图像的特征;
采用所述少量脉冲激活层将待识别图像的特征进行非线性化处理,以生成非线性化特征;
采用所述少量脉冲池化层将非线性化特征进行降维处理,以生成待识别图像对应的特征图。
4.根据权利要求2所述的方法,其特征在于,所述少量脉冲卷积神经网络包括:第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层;
所述第一特征提取层、第二特征提取层以及第三特征提取层都包括两个少量脉冲卷积层、两个少量脉冲激活层和一个少量脉冲池化层;
所述第四特征提取层包括四个少量脉冲卷积层、四个少量脉冲激活层和一个少量脉冲池化层;
所述采用少量脉冲卷积神经网络提取所述待识别图像的特征,以生成待识别图像对应的特征图,包括:
采用所述第一特征提取层对待识别图像进行第一次特征提取,以输出待识别图像在进行特征提取后对应的第一尺度图和第一次提取的特征;
采用所述第二特征提取层对第一尺度图进行第二次特征提取,以输出第一尺度图在进行特征提取后对应的第二尺度图和第二次提取的特征;
采用所述第三特征提取层对第二尺度图进行第三次特征提取,以输出第二尺度图在进行特征提取后对应的第三尺度图和第三次提取的特征;
采用所述第四特征提取层对第三尺度图进行第四次特征提取,以输出第三尺度图在进行特征提取后对应的第四次提取的特征;
将第一次提取的特征、第二次提取的特征、第三次提取的特征和第四次提取的特征确定为待识别图像对应的特征图。
5.根据权利要求2所述的方法,其特征在于,所述少量脉冲分类网络包括少量脉冲全连接层和归一化指数函数;所述少量脉冲全连接层由少量脉冲神经元构成;
所述采用少量脉冲分类网络确定各所述感兴趣区域所属类别的概率,包括:
采用少量脉冲全连接层对各所述感兴趣区域进行初步分类;
将初步分类后的各感兴趣区域输入归一化指数函数,以生成各感兴趣区域所属类别的概率。
6.根据权利要求5所述的方法,其特征在于,所述根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体,包括:
从各感兴趣区域所属类别中确定与目标物体匹配的类别;
确定概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域;
从概率大于或等于预设阈值的与目标物体匹配的类别所对应的感兴趣区域中识别出目标物体。
7.根据权利要求1-6任一所述的方法,其特征在于,所述将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN之前,还包括:
获取训练样本,所述训练样本中包括:包含目标物体的待识别图像样本;
将所述训练样本输入到预设少量脉冲神经网络模型 FS-RCNN中,以对所述预设少量脉冲神经网络模型 FS-RCNN进行训练;
根据所述预设少量脉冲神经网络模型 FS-RCNN输出的检测框位置偏移量和感兴趣区域所属类别的概率确定所述预设少量脉冲神经网络模型 FS-RCNN是否满足预设的收敛条件;
若所述预设少量脉冲神经网络模型 FS-RCNN满足收敛条件,则将满足收敛条件的预设少量脉冲神经网络模型 FS-RCNN确定为训练至收敛的少量脉冲神经网络模型 FS-RCNN。
8.一种图像识别装置,其特征在于,包括:
获取模块,用于获取包含目标物体的待识别图像;
输出模块,用于将待识别图像输入训练至收敛的少量脉冲神经网络模型 FS-RCNN,以输出待识别图像对应的各感兴趣区域所属类别的概率;所述少量脉冲神经网络模型 FS-RCNN中的至少一个神经网络由少量脉冲神经元构成;
识别模块,用于根据各感兴趣区域所属类别的概率确定待识别图像中的目标物体。
9.一种电子设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1至7任一项所述的图像识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的图像识别方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110867883.6A CN113313119B (zh) | 2021-07-30 | 2021-07-30 | 图像识别方法、装置、设备、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110867883.6A CN113313119B (zh) | 2021-07-30 | 2021-07-30 | 图像识别方法、装置、设备、介质及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313119A true CN113313119A (zh) | 2021-08-27 |
CN113313119B CN113313119B (zh) | 2021-11-09 |
Family
ID=77382426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110867883.6A Active CN113313119B (zh) | 2021-07-30 | 2021-07-30 | 图像识别方法、装置、设备、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313119B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762229A (zh) * | 2021-11-10 | 2021-12-07 | 山东天亚达新材料科技有限公司 | 一种建筑场地内建筑器材的智能识别方法及系统 |
CN113901972A (zh) * | 2021-12-09 | 2022-01-07 | 深圳市海清视讯科技有限公司 | 遥感图像建筑物的检测方法、装置、设备及存储介质 |
CN114180432A (zh) * | 2022-02-17 | 2022-03-15 | 深圳市海清视讯科技有限公司 | 电梯楼层的定位方法、装置、计算机设备和系统 |
CN115499092A (zh) * | 2022-07-28 | 2022-12-20 | 南阳理工学院 | 天文射电暂现信号搜寻方法、系统、装置及可读存储介质 |
CN118133121A (zh) * | 2024-03-12 | 2024-06-04 | 电子科技大学 | 一种基于脉冲神经网络实现快速推理和有效学习的数据分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555523A (zh) * | 2019-07-23 | 2019-12-10 | 中建三局智能技术有限公司 | 一种基于脉冲神经网络的短程跟踪方法及系统 |
KR102105954B1 (ko) * | 2018-11-21 | 2020-04-29 | 충남대학교산학협력단 | 사고위험 감지시스템 및 감지방법 |
CN112784976A (zh) * | 2021-01-15 | 2021-05-11 | 中山大学 | 一种基于脉冲神经网络的图像识别系统及方法 |
CN113158869A (zh) * | 2021-04-15 | 2021-07-23 | 深圳市优必选科技股份有限公司 | 图像识别方法、装置、终端设备及计算机可读存储介质 |
-
2021
- 2021-07-30 CN CN202110867883.6A patent/CN113313119B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102105954B1 (ko) * | 2018-11-21 | 2020-04-29 | 충남대학교산학협력단 | 사고위험 감지시스템 및 감지방법 |
CN110555523A (zh) * | 2019-07-23 | 2019-12-10 | 中建三局智能技术有限公司 | 一种基于脉冲神经网络的短程跟踪方法及系统 |
CN112784976A (zh) * | 2021-01-15 | 2021-05-11 | 中山大学 | 一种基于脉冲神经网络的图像识别系统及方法 |
CN113158869A (zh) * | 2021-04-15 | 2021-07-23 | 深圳市优必选科技股份有限公司 | 图像识别方法、装置、终端设备及计算机可读存储介质 |
Non-Patent Citations (4)
Title |
---|
CE0B74704937: "Faster RCNN文章解读", 《HTTPS://WWW.JIANSHU.COM/P/1F975B05CA86》 * |
CHRISTOPH STOCKL ET AL: "Optimized spiking neurons can classify images with high accuracy through temporal coding with two spikes", 《ARXIV:2002.00860V3》 * |
SHAOQING REN ET AL: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《ARXIV:1506.01497V2》 * |
林志涛: "脉冲神经网络相对顺序学习与转化算法研究", 《中国博士学位论文全文数据库》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762229A (zh) * | 2021-11-10 | 2021-12-07 | 山东天亚达新材料科技有限公司 | 一种建筑场地内建筑器材的智能识别方法及系统 |
CN113901972A (zh) * | 2021-12-09 | 2022-01-07 | 深圳市海清视讯科技有限公司 | 遥感图像建筑物的检测方法、装置、设备及存储介质 |
CN114180432A (zh) * | 2022-02-17 | 2022-03-15 | 深圳市海清视讯科技有限公司 | 电梯楼层的定位方法、装置、计算机设备和系统 |
CN115499092A (zh) * | 2022-07-28 | 2022-12-20 | 南阳理工学院 | 天文射电暂现信号搜寻方法、系统、装置及可读存储介质 |
CN115499092B (zh) * | 2022-07-28 | 2023-10-13 | 南阳理工学院 | 天文射电暂现信号搜寻方法、系统、装置及可读存储介质 |
CN118133121A (zh) * | 2024-03-12 | 2024-06-04 | 电子科技大学 | 一种基于脉冲神经网络实现快速推理和有效学习的数据分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113313119B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313119B (zh) | 图像识别方法、装置、设备、介质及产品 | |
CN113705769B (zh) | 一种神经网络训练方法以及装置 | |
CN110084281B (zh) | 图像生成方法、神经网络的压缩方法及相关装置、设备 | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN112446476A (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
US20230334632A1 (en) | Image recognition method and device, and computer-readable storage medium | |
CN108875696A (zh) | 基于深度可分离卷积神经网络的脱机手写汉字识别方法 | |
CN111401516A (zh) | 一种神经网络通道参数的搜索方法及相关设备 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN110136162B (zh) | 无人机视角遥感目标跟踪方法及装置 | |
CN110222760A (zh) | 一种基于winograd算法的快速图像处理方法 | |
Alhichri et al. | Multi-scale convolutional neural network for remote sensing scene classification | |
CN112418032B (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN113326930A (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN113536970A (zh) | 一种视频分类模型的训练方法及相关装置 | |
CN115965968A (zh) | 基于知识引导的小样本目标检测识别方法 | |
CN117727069A (zh) | 基于多尺度信息交互网络的文本-图像行人重识别方法 | |
Quiroga et al. | A study of convolutional architectures for handshape recognition applied to sign language | |
Ni et al. | MHST: Multiscale Head Selection Transformer for Hyperspectral and LiDAR Classification | |
CN111242114A (zh) | 文字识别方法及装置 | |
CN116245157A (zh) | 人脸表情表示模型训练方法、人脸表情识别方法及装置 | |
CN115587217A (zh) | 一种多终端视频检测模型在线重训练方法 | |
CN114882246A (zh) | 一种图像特征的识别方法、装置、设备和介质 | |
CN113420760A (zh) | 一种基于分割和形变lstm的手写体蒙古文检测和识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 518000 Guangdong Shenzhen Baoan District Xixiang street, Wutong Development Zone, Taihua Indus Industrial Park 8, 3 floor. Patentee after: Shenzhen Haiqing Zhiyuan Technology Co.,Ltd. Address before: 518000 Guangdong Shenzhen Baoan District Xixiang street, Wutong Development Zone, Taihua Indus Industrial Park 8, 3 floor. Patentee before: SHENZHEN HIVT TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |