CN112116001A - 图像识别方法、装置及计算机可读存储介质 - Google Patents
图像识别方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112116001A CN112116001A CN202010980176.3A CN202010980176A CN112116001A CN 112116001 A CN112116001 A CN 112116001A CN 202010980176 A CN202010980176 A CN 202010980176A CN 112116001 A CN112116001 A CN 112116001A
- Authority
- CN
- China
- Prior art keywords
- input channel
- image recognition
- current layer
- kernel
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000007906 compression Methods 0.000 claims abstract description 79
- 230000006835 compression Effects 0.000 claims abstract description 71
- 238000003062 neural network model Methods 0.000 claims abstract description 68
- 238000010276 construction Methods 0.000 claims abstract description 31
- 238000005520 cutting process Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 83
- 238000005070 sampling Methods 0.000 claims description 54
- 238000010586 diagram Methods 0.000 claims description 40
- 238000005457 optimization Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 40
- 238000004364 calculation method Methods 0.000 abstract description 16
- 238000013528 artificial neural network Methods 0.000 description 44
- 238000012545 processing Methods 0.000 description 25
- 238000013138 pruning Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000013016 learning Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000035045 associative learning Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像识别方法、装置及计算机可读存储介质。其中,方法包括预先将样本图像数据集输入至原始神经网络模型;对原始神经网络模型的每一个卷积层,以样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值,再计算重构误差最小的输入通道组合并裁剪冗余的输入通道,从而得到当前卷积层的压缩结果,最后将各卷积层的压缩结果拼接生成图像识别模型。获取待识别图像,将待识别图像输入至图像识别模型中,并将图像识别模型输出结果作为待识别图像的图像识别结果,有效提高图像识别效率,降低图像识别过程中消耗的计算资源。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像识别方法、装置及计算机可读存储介质。
背景技术
随着人工智能技术的快速发展,机器视觉作为人工智能的一个分支,也得到相应的发展。简单来说,机器视觉就是用机器代替人眼进行测量和判断,其通过机器视觉产品即图像摄取装置如CMOS和CCD等将被摄取目标转换成图像信号,传送给专用图像处理系统,得到被摄目标的形态信息,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作,可见,机器视觉在实现过程中很大一部分工作就是图像处理,对图像摄取装置采集图像的识别准确程度和识别效率对机器视觉性能有很大影响。
相关技术中,通常采用人工神经网络模型在执行图像识别分类任务,而应用于图像分类识别任务的深度神经网络参数具有很大的冗余性,在执行图像分类识别任务时不仅会消耗大量的计算资源,而且图像识别效率还不高。
鉴于此,如何提高图像识别效率,降低图像识别过程中消耗的计算资源,是所属领域技术人员需要解决的技术问题。
发明内容
本申请提供了一种图像识别方法、装置及计算机可读存储介质,有效提高图像识别效率,降低图像识别过程中消耗的计算资源。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种图像识别方法,包括:
预先将样本图像数据集输入至原始神经网络模型;对所述原始神经网络模型的每一个卷积层,以所述样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值,再计算重构误差最小的输入通道组合并裁剪冗余的输入通道,作为所述当前层的压缩结果;将各卷积层的压缩结果拼接生成图像识别模型;
将获取的待识别图像输入至所述图像识别模型中,得到所述待识别图像的图像识别结果。
可选的,所述以所述样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值包括:
根据所述样本图像数据集中各样本数据在所述当前层的各输入通道的特征图确定所述当前层各输入通道的重要性;
根据各输入通道的重要性为各输入通道设置重要性加权系数;
通过计算各输入通道加权后的重要性函数及其和函数确定每个输入通道的采样概率;
按照每个输入通道的采样概率对相应输入通道进行多轮采样,每轮依照所述采样概率对所述当前层的输入通道集合进行多次采样得到一个核集,计算并累加通道核集对应的特征图重构误差,通过计算最小化特征图重构误差的优化函数以获取所述当前层的卷积核权重的更新值。
可选的,所述通过计算各输入通道加权后的重要性函数及其和函数确定每个输入通道的采样概率包括:
调用预先存储的重要性函数关系式计算各输入通道加权后的重要性函数,所述重要性函数关系式为:
si(x)=wi(x)·gi(x);
第i个输入通道的采样概率pi为pi=si(x)/t;
其中,si(x)为第i个输入通道加权后的重要性函数,wi(x)为第i个输入通道的重要性加权系数,gi(x)为第i个输入通道的初始重要性函数, 为所述样本图像数据集X中各样本数据在第i输入通道的特征图xi的Frobenius范数的最大值,ml-1为所述原始神经网络模型的第l-1卷积层的输出通道总数,为所有输入通道的特征图Frobenius范数的最大值的均值,al为所述原始神经网络模型的第l卷积层目标要达到的压缩后输入通道数;t为所述和函数,
可选的,所述通过计算最小化特征图重构误差的优化函数以获取所述当前层的卷积核权重的更新值包括:
调用预先存储的权值更新关系式得到所述当前层的卷积核权重的更新值,所述权值更新关系式为:
式中,Yk为未压缩卷积核在第k输出通道的输出特征图,K为所述当前层卷积核输出通道总数,为对卷积核的K个输出通道分别计算特征图重构误差并汇总,为对输入所述样本图像数据集的输入通道组合进行R轮独立采样并累加每次采样结果的特征图重构误差,代表Frobenius范数,为所述当前层卷积核在第i输入通道和第k输出通道的权重张量的更新值、作为基于核集的卷积核权值估计操作的求解目标,S为输入所述样本图像数据集的C个输入通道中采样到的a个输入通道组成的核集,为核集S中每个输入通道的特征图xi在卷积核对应通道第k个输出通道的输出特征图之和,*为卷积操作。
可选的,所述计算重构误差最小的输入通道组合并裁剪冗余的输入通道包括:
根据所述当前层卷积核更新后的权值确定所述当前层各输入通道被选中的概率,并将各输入通道被选中的概率组成命中概率集;
基于所述命中概率集计算输出特征图重构误差最小的输入通道组合,并根据所述输入通道组合移除未被选择的输入通道;
计算压缩后卷积核的输出特征图,以将所述当前层压缩后的卷积核与所述样本图像数据集的卷积结果作为所述当前层的下一个卷积层的输入数据。
可选的,所述基于所述命中概率集计算输出特征图重构误差最小的输入通道组合包括:
调用预先存储的优化函数关系式计算输出特征图重构误差最小的输入通道组合γ,所述优化函数关系式为:
式中,Y为所述原始神经网络模型在所述当前层的输出特征图,K为所述当前层卷积核输出通道总数,γi为第i通道是否被选择,γi取值为0或1,γ={γi|1≤i≤C}为由C个输入通道采样出a个输入通道的最佳采样结果,满足条件||γ||0=a,Xi为所述样本图像数据集在所述当前层的第i输入通道的特征图,为所述当前层卷积核在第i输入通道和第k输出通道的权重张量的更新值,代表Frobenius范数,(1-q)γ为将各个输入通道的采样概率构造的向量作为惩罚因子加入了优化目标函数中的惩罚项,q为所述命中概率集。
可选的,所述根据所述当前层卷积核更新后的权值确定所述当前层各输入通道被选中的概率包括:
调用预先存储的选择概率关系式计算所述当前层各输入通道被选中的概率,所述选择概率关系式为:
式中,wi(x)为第i个输入通道的重要性加权系数,ml-1为所述原始神经网络模型的第l-1卷积层的输出通道总数,X为所述样本图像数据集,xi为所述样本图像数据集中各样本数据在第i输入通道的特征图,K为所述当前层卷积核输出通道总数,为所述当前层卷积核在第i输入通道和第k输出通道的权重张量的更新值,代表Frobenius范数,nl为所述原始神经网络模型在l层的输入通道总数。
本发明实施例另一方面提供了一种图像识别装置,包括:
神经网络模型压缩模块,用于将样本图像数据集输入至原始神经网络模型;对所述原始神经网络模型的每一个卷积层,以所述样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值,再计算重构误差最小的输入通道组合并裁剪冗余的输入通道,作为所述当前层的压缩结果;将各卷积层的压缩结果拼接生成图像识别模型;
图像识别模块,用于将获取的待识别图像输入至所述图像识别模型中,得到所述待识别图像的图像识别结果。
本发明实施例还提供了一种图像识别装置,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述图像识别方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有图像识别程序,所述图像识别程序被处理器执行时实现如前任一项所述图像识别方法的步骤。
本申请提供的技术方案的优点在于,依次对原始神经网络模型的各个卷积层进行包括卷积核权值估计过程和通道裁剪过程在内的网络压缩处理,得到用于执行图像识别任务的图像识别模型,由于该图像识别模型为原始神经网络模型经过压缩后所得模型,可有效降低原始神经网络模型参数的冗余性,降低模型执行任务处理的数据量,有效减少图像分类识别消耗的计算资源,提高图像分类识别速度;压缩后的网络模型不需要进行重新训练,操作更加便捷,而且整个压缩流程运行在分类图像输入神经网络进行前向推理的过程中,为了保证分类识别精度以输入分类图像在原始神经网络各个层的输出特征图为重构目标,并通过基于核集构建的方式获取每层卷积核的新权值以及裁剪冗余的卷积核通道,避免核集构建结果与不同分类图像的分布相关,有效提高模型泛化能力。
此外,本发明实施例还针对图像识别方法提供了相应的实现装置及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的现有技术中的神经网络模型的压缩流程示意图;
图2为本发明实施例提供的采用现有技术的网络压缩方式执行图像识别任务的方法流程示意图;
图3为本发明实施例提供的一种图像识别方法的流程示意图;
图4为本发明实施例提供的另一种图像识别方法的流程示意图;
图5为本发明实施例提供的图像识别装置的一种具体实施方式结构图;
图6为本发明实施例提供的图像识别装置的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
为了减少图像分类识别消耗的计算资源,并且提高图像分类识别速度,可对深度神经网络进行压缩,然后采用压缩后的神经网络模型执行图像分类识别任务,可有效提高模型输出结果的效率。神经网络压缩解决了深度学习在计算和存储资源有限的设备中的应用瓶颈。神经网络压缩剪枝能够减少神经网络模型的参数量、计算量,从而减少神经网络存储时占用的存储量,提高神经网络推理时计算速度。神经网络剪枝方法依照处理对象划分为粗粒度剪枝和细粒度剪枝。粗粒度剪枝也称为结构化剪枝面向神经网络的滤波器级、通道级、行或列级结构进行压缩操作。细粒度剪枝也称为非结构化剪枝可以筛选并移除单个权重,优势在于能最大程度地保留神经网络的精度,其缺点是非结构化剪枝的稀疏矩阵计算依赖于专门的运行库和硬件设备。而结构化剪枝方法凭借其硬件友好性,得到较多关注和应用。
神经网络压缩剪枝的传统算法流程包含剪枝、微调的迭代,如图1所示,导致算法的运行非常耗时。针对此问题,有研究提出了一些不依赖微调过程来补偿压缩产生的精度损失的神经网络压缩剪枝方法。例如,已有剪枝方法CPA(Channel Pruning forAccelerating Very Deep Neural Networks)在神经网络的前向推理过程中完成通道压缩和权重参数重构,在不进行微调的情况下压缩后网络就能获得较小的精度损失。该方法逐层对神经网络卷积层的输入通道进行基于LASSO回归的筛选,随后通过采用最小二乘法优化特征图重构误差来获取新的卷积核权重参数,直接作为压缩后网络的卷积核权重参数,而不需要经过微调来获取新的卷积核权重参数。但是基于特征图重构误差优化的压缩方法,其压缩效果对输入数据具有依赖性,输入数据集的不同会引起基于幅值的重要性衡量规则的筛选结果变化。已有研究开发出与数据无关的网络压缩方法DINP(Data-Independent Neural Pruning via Coresets),其在神经网络VC维(Vapnik-Chervonenkisdimension)和核集理论的基础上为压缩率和估计误差之间的权衡提供了理论依据。DINP方法采用离线流式核集构建算法(offline and streaming corset constructions,OSCC)为全连接层的隐层神经元构建核集,OSCC算法提供了以数据VC维为基础的核集尺寸计算公式的推导,DINP方法在此基础上给出了以激活函数值上界为依据的神经元重要性衡量规则与核集采样概率,由于核集的构建过程中每个样本的加权系数的计算和分配都与输入数据无关,所以DINP的核集构建结果具有与数据无关(Data-Independent)的特性。但是DINP方法只针对全连接层而不适用于卷积层,因而其对深度卷积神经网络的压缩率有局限,并且适用的网络模型范围也是有限的,对不包含全连接层的卷积神经网络尚不适用,比如yolo系列神经网络和全卷积神经网络R-FCN。除了DINP方法之外,核集理论在神经网络压缩中的早期应用均具有数据依赖性,虽然也有方法将核集理论应用于低秩分解中实现对卷积层和全连接层的压缩,但构建核集本身并不能压缩神经网络。
如果采用上述神经网络压缩方法所处理的神经网络模型执行图像分类识别任务,如图2所示,需要先采用样本数据训练原始神经网络模型,然后采用上述神经网络压缩方法压缩原始神经网络生成压缩后的模型,然后再利用训练样本数据再一次训练压缩后的模型以恢复图像识别精度,最后利用训练好的压缩模型执行图像分类任务。神经网络压缩本身的训练过程就需要循环重复执行逐层压缩网络和重新训练网络的过程,两次模型训练过程无疑增加了大量数据处理,模型训练过程需要耗费大量计算资源,操作繁琐。为了简化神经网络压缩的训练过程,降低图像分类识别任务中获取压缩后模型的成本,本申请提出了一种不需要进行重新训练且不依赖输入数据的结构化剪枝的神经网络压缩流程,在神经网络前向推理时逐层按顺序先后执行进行基于核集理论的卷积核参数估计与压缩剪枝。该流程运行在分类图像输入神经网络进行前向推理的过程中,为了保证分类精度以输入分类图像在原始神经网络各个层的输出特征图为重构目标,并通过基于核集构建的方式获取每层卷积核的新权值以及裁剪冗余的卷积核通道。该流程设计了核集构建的新方式,以避免核集构建结果与不同分类图像的分布相关,提高泛化能力。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图3及图4,图3为本发明实施例提供的一种图像识别方法的流程示意图,本发明实施例可包括以下内容:
S301:预先将样本图像数据集输入至原始神经网络模型,对原始神经网络模型的每一个卷积层,以样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值,再计算重构误差最小的输入通道组合并裁剪冗余的输入通道,作为当前层的压缩结果;将各卷积层的压缩结果拼接生成图像识别模型。
在本步骤中,原始神经网络模型为任何一种类型且训练好的神经网络模型,例如可为监督式学习网络类型的神经网络模型,还可为非监督学习网络类型的神经网络模型,还可为联想式学习网络类型的神经网络模型,或者是最适化应用网络类型的神经网络模型,原始神经网络模型例如可为霍普菲尔网络HN、卷积神经网络CNN、逆图形网络DN生成对抗网络GAN、周期神经网络RNN等等,这均不影响本申请的实现。样本图像数据集可为原始神经网络模型训练过程中使用的训练数据,也可不为训练过程中使用的数据,这均不影响本申请的实现。图像识别模型为原始神经网络模型被压缩后的网络模型,在原始神经网络模型的前向推理过程中逐层压缩神经网络层,在每层的压缩过程中首先执行卷积核权值估计操作,直接获取当前层完整卷积核的权重参数,然后执行通道裁剪操作,筛选输入通道并裁剪与其对应的上一层的卷积核输出通道,并将当前层的压缩后卷积核与输入数据的卷积结果作为下一层的输入数据,对原始神经网络模型所有卷积层均执行完压缩操作后,将产生的各个压缩后网络层相互拼接在一起,组成完整的压缩后神经网络模型。
需要说明的是,原始神经网络模型的压缩过程具有先后执行顺序的限定,即首先执行卷积核权值估计操作再执行通道裁剪操作的先后次序,且卷积核权值估计操作和通道裁剪操作均采用了核集构建理论,核集构建理论可参阅相关文献记载,此处,便不再赘述。
S302:将获取的待识别图像输入至图像识别模型中,得到待识别图像的图像识别结果。
在本步骤中,待识别图像可为一张图像,也可为多张图像,图像类型不限定,图像识别模型用于执行图像分类识别操作,图像识别模型会为输入数据即待识别图像匹配合适的标签,然后将标签类型输出作为图像识别结果。
在本发明实施例提供的技术方案中,依次对原始神经网络模型的各个卷积层进行包括卷积核权值估计过程和通道裁剪过程在内的网络压缩处理,得到用于执行图像识别任务的图像识别模型,由于该图像识别模型为原始神经网络模型经过压缩后所得模型,可有效降低原始神经网络模型参数的冗余性,降低模型执行任务处理的数据量,有效减少图像分类识别消耗的计算资源,提高图像分类识别速度;压缩后的网络模型不需要进行重新训练,操作更加便捷,而且整个压缩流程运行在分类图像输入神经网络进行前向推理的过程中,为了保证分类识别精度以输入分类图像在原始神经网络各个层的输出特征图为重构目标,并通过基于核集构建的方式获取每层卷积核的新权值以及裁剪冗余的卷积核通道,避免核集构建结果与不同分类图像的分布相关,有效提高模型泛化能力。
需要说明的是,上述实施例在图像识别过程中通过对图像识别模型进行压缩操作降低数据处理量,减少图像分类识别消耗的计算资源,提升图像识别效率。本申请技术方案例如还可用于但并不限制于在执行目标分割任务或目标检测任务过程中的图像特征提取阶段,从而可以提升目标分割效率,提升目标检测效率,降低执行任务过程中消耗的计算机资源。
此外,可以理解的是,图像为二维数据,上述实施例中的神经网络模型的卷积核是以二维卷积核为例进行阐述,本申请还同样适用于一维卷积的卷积核压缩,相应的,将扩展压缩后深度神经网络模型应用于一维序列数据处理领域,例如医学心电信号等一维数据的异常分类任务等。也就是说,在执行一维数据的分类识别任务过程中,例如医学心电心音信号等,可利用一维生理信号数据作为样本数据集训练原始神经网络模型,对原始神经网络模型的每一个卷积层,以样本数据集在当前层的特征图为重构目标,利用核集构建方法先获取一维卷积核的更新权值,再计算重构误差最小的输入通道组合并裁剪冗余的输入通道,作为当前层的压缩结果;将各卷积层的压缩结果拼接生成生理信号识别模型。将获取的一维生理信号数据输入至生理信号识别模型中,得到待识别生理信号的识别分类结果。同样的,本申请还可进一步拓展至三维卷积的卷积核压缩,相应的,将扩展压缩后深度神经网络模型应用于三维序列数据处理领域,例如可应用于对医学三维CT影像等三维数据的分类、识别、目标检测等,例如还可应用于视频处理领域的动作识别等应用场景。
为了减小输入数据分布变化对核集构建结果的影响,本申请在卷积核权值估计操作中还可引入了多轮采样的处理机制,依概率对输入通道进行采样来构建通道核集,在多轮采样的结果上以最小化特征图重构误差为目标来为压缩后卷积核生成权值,由于采样具有一定随机性,在多次通道不重复采样的情况下生成的卷积核权值对不同的通道选择结果均具有适应力,也即S301的一种实施方式可包括下述内容:
首先,需要解释的是,本申请在采用核集构建方法进行卷积核的更新过程中,相比传统核集理论,有如下特点:
1)核集构建的对象是卷积层的输入通道,而不是单个神经元;2)所构建的核集VC维可以减小至1,而不需要等于第l-1层全连接层的神经元个数d或者其他高维度值,具体地讲,本申请在为第l卷积层构建核集S时,构造VC维等于1的待采样集合P,直接将第l层的四维卷积核张量沿着某一输入通道的参数张量或者第l-1层输出的三维特征图张量沿着某一输出通道的参数张量作为集合P的一个样本,则集合P的样本数等于第l层卷积核的输入通道数或者第l-1层卷积层的特征图输出通道数;3)集合P中每个样本的重要性计算式将目标压缩通道数a指定为目标核集S的维度,进而将重要性之和函数t与目标压缩通道数a即目标核集S的维度联系在一起,使得重要性之和函数t的上界被约束在可控的取值范围内。
其次,“以样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值”的一种实施方式如下所述:
A1:根据样本图像数据集中各样本数据在当前层的各输入通道的特征图确定当前层各输入通道的重要性。
A2:根据各输入通道的重要性为各输入通道设置重要性加权系数;
A3:通过计算各输入通道加权后的重要性函数及其和函数确定每个输入通道的采样概率;
A4:按照每个输入通道的采样概率对相应输入通道进行多轮采样,每轮依照采样概率对当前层的输入通道集合进行多次采样得到一个核集,计算并累加通道核集对应的特征图重构误差,通过计算最小化特征图重构误差的优化函数以获取当前层的卷积核权重的更新值。
首先,依据第l层的输入数据即样本图像数据集来计算输入通道的初始重要性函数gi(x)。然后依据第l层卷积核为第l层各个输入通道的重要性分配重要性加权系数wi(x),wi(x)是为每个输入通道的非均匀采样构造的加权系数,具体分配加权系数的操作是计算第l层卷积核在不同输入通道的参数张量Wi的L1范数||Wi||1,再按照||Wi||1的值降序排序,为排序前al个输入通道分配较大的权值wi(x)=1/(al+1),为其他输入通道分配较小的权值wi(x)=1/(al+1)(ml-1-al)。在这样加权系数的计算和分配均与输入数据无关的处理方式下,核集S的构建结果会具有不依赖于输入数据的优势,因为当前构造的核集S并不是在特定数据分布下选择的结果。最后计算所有输入通道加权后的重要性函数si(x)及其和函数t,也即可调用预先存储的重要性函数关系式计算各输入通道加权后的重要性函数,第i个输入通道的采样概率pi可表示为pi=si(x)/t。重要性函数关系式可表示为:
si(x)=wi(x)·gi(x);
其中,si(x)为第i个输入通道加权后的重要性函数,wi(x)为第i个输入通道的重要性加权系数,gi(x)为第i个输入通道的初始重要性函数, 并且其中al为原始神经网络模型的第l卷积层目标要达到的压缩后输入通道数,ml-1是神经网络第l-1层的输出通道数。为样本图像数据集X中各样本数据在第i通道的特征图xi的Frobenius范数的最大值,ml-1为原始神经网络模型的第l-1卷积层的输出通道总数,为所有通道的特征图Frobenius范数的最大值的均值,al为原始神经网络模型的第l卷积层目标要达到的压缩后输入通道数;t为和函数,
本申请在此处构造的带有权重的重要性函数si(x)能够为重要性之和t的取值范围提供约束,即保证当al=ml-1-1时等号成立。并且由于计算公式中包含体现压缩比的计算因子al,t的上界与下界可以通过修改目标压缩通道数来灵活地调控。
在其他现有基于核集的神经网络压缩技术中,没有关于t取值上界的讨论。然而t又是核集构造算法从理论到实际操作的转化中非常重要的一个参数,t影响着需要构造的目标核集的维度下界|S|。核集构造算法OSCC证明了由集合P中依概率随机采样一个子集S的时候,若满足c≥1,c是一个常数,gi(x)是非负函数,误差参数ε∈(0,1),其中d代表集合P的VC维,那么核集S以概率1-δ成为集合P查询空间的ε-核集,即ε-coreset。ε-coreset的定义可以参见OSCC算法原文。此定理表明,t值对核集的维度|S|的设定有指导作用。
第l-1层激活函数的输入数据的维度mh2,m是输出通道数,h是输出特征图的尺寸。若第l卷积层的不同输入通道之间不共享卷积核,即卷积核为四维张量n×m×k×k,针对输入数据的不同通道,卷积核同一输出通道的参数值不同,则卷积核参数维度等于nmk2。在本申请所提方法的场景中,以卷积核在某个输入通道的参数为压缩操作的处理单元,或者以卷积层输出特征图在某个输出通道的参数为处理单元,即以m×k×k个卷积核参数或者h×h个特征图参数为处理单元,所以第l卷积层卷积核的数据维度可以进一步简化为nl,而第l-1层激活函数的数据维度也简化为ml-1,第l卷积层和第l-1层相应的VC维都简化为1,即dl=1且dl-1=1。考虑到核集构建算法的复杂度大致等于定义一次查询所需要的参数量,对于VC维为d的集合P进行一次查询所需要的参数量至少为d+1,减少集合P的VC维可以减少核集构建算法的复杂度。采用本申请所提方法在对第l卷积层进行输入通道压缩时,会同时影响到第l-1层激活函数的VC维dl-1和第l层的卷积核参数的VC维dl,这要求为第l卷积层构造的输入通道的核集维度|S|同时满足dl-1和dl确定的限制。当第l卷积层的目标压缩通道数为a时,第l-1层激活函数对应的目标核集维度|Sl-1|和第l层的卷积核参数对应的目标核集维度|Sl|均等于a。由于本申请构造的重要性函数之和t的上界sup(t)在第l-1层取值和在第l层取值相等,即sup(tl-1)=sup(tl),所以a可以同时满足以下两个不等式的要求:
综上所述,本申请所构造的重要性函数之和t不但具有可调控的上下界,而且可以使得目标压缩通道数a同时满足两个卷积层对目标核集维度的约束。此外,当目标压缩通道数a以及重要性函数之和t已知时,当前构建的目标核集S与集合P之间的近似误差ε也可以得到估计值,这可以作为侧面评价压缩效果的参考指标。
独立地对输入数据的输入通道进行R轮采样,每轮依照概率pi对第l卷积层的输入通道集合P进行a次采样得到一个核集S,计算并累加通道核集S对应的特征图重构误差,并按照以下优化函数来求解完整卷积核的新权值此优化函数以最小化各个卷积核的权值估计误差之和为目标,即可调用预先存储的权值更新关系式得到当前层的卷积核权重的更新值,权值更新关系式可表示为:
式中,Yk为未压缩卷积核在第k输出通道的输出特征图,K为当前层卷积核输出通道总数,为对卷积核的K个输出通道分别计算特征图重构误差并汇总,为对输入样本图像数据集的输入通道组合进行R轮独立采样并累加每次采样结果的特征图重构误差,代表Frobenius范数,为当前层卷积核在第i输入通道和第k输出通道的权重张量的更新值、作为基于核集的卷积核权值估计操作的求解目标,S为输入样本图像数据集的C个输入通道中采样到的a个输入通道组成的核集,为核集S中每个输入通道的特征图xi在卷积核对应通道即第k个输出通道的输出特征图之和,*为卷积操作。
由上可知,本实施例基于核集的卷积核参数估计过程,处理对象是未压缩的卷积核,并且在构建通道核集时对卷积核输入通道进行多轮采样,通过优化多轮采样通道的特征图重构误差的平均值,使得参数估计结果对通道的随机选择结果均具有适应力;此外,该过程在计算每个输入通道的重要性时采用了独特的计算式,将通道重要性之和函数转变为与目标压缩通道数直接相关的函数,进而将通道重要性之和函数约束到可调控的取值范围内,使得核集理论对核集维度下界的约束具有了实用意义。
上述实施例并未对如何执行S301步骤中的通道裁剪操作进行限定,本实施例还提供了一种通道裁剪方式,也即利用核集构建方法计算重构误差最小的输入通道组合并裁剪冗余的输入通道的一种实施过程可为:
B1:根据当前层卷积核更新后的权值确定当前层各输入通道被选中的概率,并将各输入通道被选中的概率组成命中概率集。
B2:基于命中概率集计算输出特征图重构误差最小的输入通道组合,并根据输入通道组合移除未被选择的输入通道。
B3:计算压缩后卷积核的输出特征图,以将当前层压缩后的卷积核与样本图像数据集的卷积结果作为当前层的下一个卷积层的输入数据。
可调用预先存储的选择概率关系式计算当前层各输入通道被选中的概率,选择概率关系式为:
式中,wi(x)为第i个输入通道的重要性加权系数,ml-1为原始神经网络模型的第l-1卷积层的输出通道总数,X为样本图像数据集,xi为样本图像数据集中各样本数据在第i通道的特征图,K为当前层卷积核输出通道总数,为当前层卷积核在第i输入通道和第k输出通道的权重张量的更新值,代表Frobenius范数,nl为原始神经网络模型在l层即当前层的输入通道总数。每个输入通道被选中的概率组成的命中概率集可表示为q={qi|1≤i≤C}。然后调用预先存储的优化函数关系式计算输出特征图重构误差最小的输入通道组合γ,依据求解出的γ来移除未被选择的输入通道,即移除γi=0对应的输入通道。优化函数关系式可表示为:
式中,Y为原始神经网络模型在当前层的输出特征图,K为当前层卷积核输出通道总数,γi为第i通道是否被选择,γi取值为0或1,γ={γi|1≤i≤C}为由C个输入通道采样出a个输入通道的最佳采样结果,满足条件||γ||0=a,Xi为样本图像数据集在当前层的第i输入通道的特征图,xi为样本图像数据集的单个样本数据在当前层的第i输入通道的特征图,为当前层卷积核在第i输入通道和第k输出通道的权重张量的更新值,代表Frobenius范数,(1-q)γ为将各个输入通道的采样概率构造的向量作为惩罚因子加入了优化目标函数中的惩罚项,q为命中概率集。
本实施例在核集理论的基础上为每个通道的重要性设计了独特的计算函数,并设计了求解最小化输出特征图重构误差的输入通道组合的优化目标函数,进一步将每个通道的采样概率组成的向量作为惩罚因子加入到优化目标函数中,在其他现有压缩方法中惩罚因子通常是标量,而本申请则采用了向量为不同的通道提供不同的约束。神经网络压缩方法可以在神经网络的前向推理过程中实现通道剪枝,取消了压缩后微调网络的步骤,简化了神经网络压缩流程,减少了神经网络压缩过程的计算量和时延,并且在核集构建算法的基础上为卷积层的通道压缩比和性能损失之间的权衡提供了理论分析工具。
需要说明的是,本申请中各步骤之间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图3和图4只是一种示意方式,并不代表只能是这样的执行顺序。
本发明实施例还针对图像识别方法提供了相应的装置,进一步使得所述方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的图像识别装置进行介绍,下文描述的图像识别装置与上文描述的图像识别方法可相互对应参照。
基于功能模块的角度,参见图5,图5为本发明实施例提供的图像识别装置在一种具体实施方式下的结构图,该装置可包括:
神经网络模型压缩模块501,用于将样本图像数据集输入至原始神经网络模型;对原始神经网络模型的每一个卷积层,以样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值,再计算重构误差最小的输入通道组合并裁剪冗余的输入通道,作为当前层的压缩结果;将各卷积层的压缩结果拼接生成图像识别模型。
图像识别模块502,用于将获取的待识别图像输入至图像识别模型中,得到待识别图像的图像识别结果。
可选的,在本实施例的一些实施方式中,所述神经网络模型压缩模块501可以包括权值更新子模块,所述权重更新子模块包括:
重要性计算单元,用于根据样本图像数据集中各样本数据在当前层的各输入通道的特征图确定当前层各输入通道的重要性;
加权系数计算单元,用于根据各输入通道的重要性为各输入通道设置重要性加权系数;
采样概率计算单元,用于通过计算各输入通道加权后的重要性函数及其和函数确定每个输入通道的采样概率;
权值更新单元,用于按照每个输入通道的采样概率对相应输入通道进行多轮采样,每轮依照采样概率对当前层的输入通道集合进行多次采样得到一个核集,计算并累加通道核集对应的特征图重构误差,通过计算最小化特征图重构误差的优化函数以获取当前层的卷积核权重的更新值。
在本发明实施例的一些实施方式中,所述采样概率计算单元可为调用预先存储的重要性函数关系式计算各输入通道加权后的重要性函数的单元,重要性函数关系式可表示为:
si(x)=wi(x)·gi(x);
第i个输入通道的采样概率pi为pi=si(x)/t;
其中,si(x)为第i个输入通道加权后的重要性函数,wi(x)为第i个输入通道的重要性加权系数,gi(x)为第i个输入通道的初始重要性函数, 为样本图像数据集X中各样本数据在第i通道的特征图xi的Frobenius范数的最大值,ml-1为原始神经网络模型的第l-1卷积层的输出通道总数,为所有通道的特征图Frobenius范数的最大值的均值,al为原始神经网络模型的第l卷积层目标要达到的压缩后输入通道数;t为和函数,
在本发明实施例的另一些实施方式中,所述权值更新单元可为调用预先存储的权值更新关系式得到当前层的卷积核权重的更新值的单元,权值更新关系式为:
式中,Yk为未压缩卷积核在第k输出通道的输出特征图,K为当前层卷积核输出通道总数,为对卷积核的K个输出通道分别计算特征图重构误差并汇总,为对输入样本图像数据集的输入通道组合进行R轮独立采样并累加每次采样结果的特征图重构误差,代表Frobenius范数,为当前层卷积核在第i输入通道和第k输出通道的权重张量的更新值、作为基于核集的卷积核权值估计操作的求解目标,S为输入样本图像数据集的C个输入通道中采样到的a个输入通道组成的核集,为核集S中每个输入通道的特征图xi在卷积核对应输出通道的输出特征图之和,*为卷积操作。
可选的,在本实施例的一些实施方式中,所述神经网络模型压缩模块501可以包括通道裁剪子模块,所述通道裁剪子模块例如可包括:
概率计算单元,用于根据当前层卷积核更新后的权值确定当前层各输入通道被选中的概率,并将各输入通道被选中的概率组成命中概率集;
通道选择单元,用于基于命中概率集计算输出特征图重构误差最小的输入通道组合,并根据输入通道组合移除未被选择的输入通道;
特征图计算单元,用于计算压缩后卷积核的输出特征图,以将当前层压缩后的卷积核与样本图像数据集的卷积结果作为当前层的下一个卷积层的输入数据。
在本实施例的一些实施方式中,所述通道选择单元可为调用预先存储的优化函数关系式计算输出特征图重构误差最小的输入通道组合γ的单元,优化函数关系式可表示为:
式中,Y为原始神经网络模型在所述当前层的输出特征图,,K为当前层卷积核输出通道总数,γi为第i通道是否被选择,γi取值为0或1,γ={γi|1≤i≤C}为由C个输入通道采样出a个输入通道的最佳采样结果,满足条件||γ||0=a,Xi为样本图像数据集在当前层的第i输入通道的特征图,为当前层卷积核在第i输入通道和第k输出通道的权重张量的更新值,代表Frobenius范数,(1-q)γ为将各个输入通道的采样概率构造的向量作为惩罚因子加入了优化目标函数中的惩罚项,q为命中概率集。
在本发明实施例的一些其他实施方式中,所述概率计算单元可为调用预先存储的选择概率关系式计算当前层各输入通道被选中的概率的单元,选择概率关系式可表示为:
式中,wi(x)为第i个输入通道的重要性加权系数,ml-1为原始神经网络模型的第l-1卷积层的输出通道总数,X为样本图像数据集,xi为样本图像数据集中各样本数据在第i输入通道的特征图,K为当前层卷积核输出通道总数,为当前层卷积核在第i输入通道和第k输出通道的权重张量的更新值,代表Frobenius范数,nl为原始神经网络模型在l层的输入通道总数。
本发明实施例所述图像识别装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例有效提高图像识别效率,降低图像识别过程中消耗的计算资源。
上文中提到的图像识别装置是从功能模块的角度描述,进一步的,本申请还提供一种图像识别装置,是从硬件角度描述。图6为本申请实施例提供的另一种图像识别装置的结构图。如图6所示,该装置包括存储器60,用于存储计算机程序;处理器61,用于执行计算机程序时实现如上述任一实施例提到的图像识别方法的步骤。
其中,处理器61可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器61可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器61也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器61可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器61还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器60可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器60还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器60至少用于存储以下计算机程序601,其中,该计算机程序被处理器61加载并执行之后,能够实现前述任一实施例公开的图像识别方法的相关步骤。另外,存储器60所存储的资源还可以包括操作系统602和数据603等,存储方式可以是短暂存储或者永久存储。其中,操作系统602可以包括Windows、Unix、Linux等。数据603可以包括但不限于测试结果对应的数据等。
在一些实施例中,图像识别装置还可包括有显示屏62、输入输出接口63、通信接口64、电源65以及通信总线66。
本领域技术人员可以理解,图6中示出的结构并不构成对图像识别装置的限定,可以包括比图示更多或更少的组件,例如还可包括传感器67。
本发明实施例所述图像识别装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例有效提高图像识别效率,降低图像识别过程中消耗的计算资源。
可以理解的是,如果上述实施例中的图像识别方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,存储有图像识别程序,所述图像识别程序被处理器执行时如上任意一实施例所述图像识别方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例有效提高图像识别效率,降低图像识别过程中消耗的计算资源。
此外,还需要说明的是,本申请的图像识别装置可部署于基于FPGA的神经网络加速应用或者AI加速芯片的软件平台中,在神经网络前向推理过程中实现结构化压缩剪枝,无需额外的微调步骤,其简化的压缩流程可以减少压缩过程本身的计算量和时延,有利于神经网络压缩技术的部署,进而促进基于FPGA的深度学习在边缘计算等资源受限场景中应用落实与推广。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种图像识别方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种图像识别方法,其特征在于,包括:
预先将样本图像数据集输入至原始神经网络模型;对所述原始神经网络模型的每一个卷积层,以所述样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值,再计算重构误差最小的输入通道组合并裁剪冗余的输入通道,作为所述当前层的压缩结果;将各卷积层的压缩结果拼接生成图像识别模型;
将获取的待识别图像输入至所述图像识别模型中,得到所述待识别图像的图像识别结果。
2.根据权利要求1所述的图像识别方法,其特征在于,所述以所述样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值包括:
根据所述样本图像数据集中各样本数据在所述当前层的各输入通道的特征图确定所述当前层各输入通道的重要性;
根据各输入通道的重要性为各输入通道设置重要性加权系数;
通过计算各输入通道加权后的重要性函数及其和函数确定每个输入通道的采样概率;
按照每个输入通道的采样概率对相应输入通道进行多轮采样,每轮依照所述采样概率对所述当前层的输入通道集合进行多次采样得到一个核集,计算并累加通道核集对应的特征图重构误差,通过计算最小化特征图重构误差的优化函数以获取所述当前层的卷积核权重的更新值。
3.根据权利要求2所述的图像识别方法,其特征在于,所述通过计算各输入通道加权后的重要性函数及其和函数确定每个输入通道的采样概率包括:
调用预先存储的重要性函数关系式计算各输入通道加权后的重要性函数,所述重要性函数关系式为:
si(x)=wi(x)·gi(x);
第i个输入通道的采样概率pi为pi=si(x)/t;
4.根据权利要求3所述的图像识别方法,其特征在于,所述通过计算最小化特征图重构误差的优化函数以获取所述当前层的卷积核权重的更新值包括:
调用预先存储的权值更新关系式得到所述当前层的卷积核权重的更新值,所述权值更新关系式为:
5.根据权利要求1至4任意一项所述的图像识别方法,其特征在于,所述计算重构误差最小的输入通道组合并裁剪冗余的输入通道包括:
根据所述当前层卷积核更新后的权值确定所述当前层各输入通道被选中的概率,并将各输入通道被选中的概率组成命中概率集;
基于所述命中概率集计算输出特征图重构误差最小的输入通道组合,并根据所述输入通道组合移除未被选择的输入通道;
计算压缩后卷积核的输出特征图,以将所述当前层压缩后的卷积核与所述样本图像数据集的卷积结果作为所述当前层的下一个卷积层的输入数据。
6.根据权利要求5所述的图像识别方法,其特征在于,所述基于所述命中概率集计算输出特征图重构误差最小的输入通道组合包括:
调用预先存储的优化函数关系式计算输出特征图重构误差最小的输入通道组合γ,所述优化函数关系式为:
8.一种图像识别装置,其特征在于,包括:
神经网络模型压缩模块,用于将样本图像数据集输入至原始神经网络模型;对所述原始神经网络模型的每一个卷积层,以所述样本图像数据集在当前层的特征图为重构目标,利用核集构建方法先获取卷积核的更新权值,再计算重构误差最小的输入通道组合并裁剪冗余的输入通道,作为所述当前层的压缩结果;将各卷积层的压缩结果拼接生成图像识别模型;
图像识别模块,用于将获取的待识别图像输入至所述图像识别模型中,得到所述待识别图像的图像识别结果。
9.一种图像识别装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7任一项所述图像识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像识别程序,所述图像识别程序被处理器执行时实现如权利要求1至7任一项所述图像识别方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010980176.3A CN112116001B (zh) | 2020-09-17 | 2020-09-17 | 图像识别方法、装置及计算机可读存储介质 |
US18/011,512 US20230334632A1 (en) | 2020-09-17 | 2021-04-26 | Image recognition method and device, and computer-readable storage medium |
PCT/CN2021/089861 WO2022057262A1 (zh) | 2020-09-17 | 2021-04-26 | 图像识别方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010980176.3A CN112116001B (zh) | 2020-09-17 | 2020-09-17 | 图像识别方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112116001A true CN112116001A (zh) | 2020-12-22 |
CN112116001B CN112116001B (zh) | 2022-06-07 |
Family
ID=73799926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010980176.3A Active CN112116001B (zh) | 2020-09-17 | 2020-09-17 | 图像识别方法、装置及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230334632A1 (zh) |
CN (1) | CN112116001B (zh) |
WO (1) | WO2022057262A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802012A (zh) * | 2021-03-09 | 2021-05-14 | 中南大学湘雅医院 | 病理图像检测方法、装置、计算机设备和存储介质 |
CN113197582A (zh) * | 2021-04-27 | 2021-08-03 | 浙江大学 | 一种高通用性的心电数据压缩感知系统、终端和存储介质 |
CN113255907A (zh) * | 2021-05-20 | 2021-08-13 | 广州广电运通金融电子股份有限公司 | 一种小网络模型裁剪方法及系统 |
CN113328755A (zh) * | 2021-05-11 | 2021-08-31 | 内蒙古工业大学 | 一种面向边缘计算的压缩数据传输方法 |
CN113705775A (zh) * | 2021-07-29 | 2021-11-26 | 浪潮电子信息产业股份有限公司 | 一种神经网络的剪枝方法、装置、设备及存储介质 |
CN114154545A (zh) * | 2021-12-07 | 2022-03-08 | 中国人民解放军32802部队 | 强互干扰条件下无人机测控信号智能识别方法 |
WO2022057262A1 (zh) * | 2020-09-17 | 2022-03-24 | 苏州浪潮智能科技有限公司 | 图像识别方法、装置及计算机可读存储介质 |
CN116206188A (zh) * | 2023-05-04 | 2023-06-02 | 浪潮电子信息产业股份有限公司 | 一种图像识别方法、系统、设备及存储介质 |
WO2023193169A1 (en) * | 2022-04-07 | 2023-10-12 | Huawei Technologies Co.,Ltd. | Method and apparatus for distributed inference |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114073A (zh) * | 2022-05-13 | 2023-11-24 | 北京字跳网络技术有限公司 | 数据处理方法、装置、设备及介质 |
CN118587512A (zh) * | 2024-08-05 | 2024-09-03 | 常熟理工学院 | 图像分类方法及装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008961A (zh) * | 2019-04-01 | 2019-07-12 | 深圳市华付信息技术有限公司 | 文字实时识别方法、装置、计算机设备及存储介质 |
CN110298394A (zh) * | 2019-06-18 | 2019-10-01 | 中国平安财产保险股份有限公司 | 一种图像识别方法和相关装置 |
CN110363086A (zh) * | 2019-06-11 | 2019-10-22 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据识别方法、装置、计算机设备和存储介质 |
US20200250821A1 (en) * | 2017-11-30 | 2020-08-06 | Tencent Technology(Shenzhen) Company Limited | Image feature recognition method and apparatus, storage medium, and electronic apparatus |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9886663B2 (en) * | 2013-10-08 | 2018-02-06 | Qualcomm Incorporated | Compiling network descriptions to multiple platforms |
CN107680044B (zh) * | 2017-09-30 | 2021-01-12 | 福建帝视信息科技有限公司 | 一种图像超分辨率卷积神经网络加速计算方法 |
CN109978142B (zh) * | 2019-03-29 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 神经网络模型的压缩方法和装置 |
CN112116001B (zh) * | 2020-09-17 | 2022-06-07 | 苏州浪潮智能科技有限公司 | 图像识别方法、装置及计算机可读存储介质 |
-
2020
- 2020-09-17 CN CN202010980176.3A patent/CN112116001B/zh active Active
-
2021
- 2021-04-26 WO PCT/CN2021/089861 patent/WO2022057262A1/zh active Application Filing
- 2021-04-26 US US18/011,512 patent/US20230334632A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200250821A1 (en) * | 2017-11-30 | 2020-08-06 | Tencent Technology(Shenzhen) Company Limited | Image feature recognition method and apparatus, storage medium, and electronic apparatus |
CN110008961A (zh) * | 2019-04-01 | 2019-07-12 | 深圳市华付信息技术有限公司 | 文字实时识别方法、装置、计算机设备及存储介质 |
CN110363086A (zh) * | 2019-06-11 | 2019-10-22 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据识别方法、装置、计算机设备和存储介质 |
CN110298394A (zh) * | 2019-06-18 | 2019-10-01 | 中国平安财产保险股份有限公司 | 一种图像识别方法和相关装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022057262A1 (zh) * | 2020-09-17 | 2022-03-24 | 苏州浪潮智能科技有限公司 | 图像识别方法、装置及计算机可读存储介质 |
CN112802012A (zh) * | 2021-03-09 | 2021-05-14 | 中南大学湘雅医院 | 病理图像检测方法、装置、计算机设备和存储介质 |
CN113197582A (zh) * | 2021-04-27 | 2021-08-03 | 浙江大学 | 一种高通用性的心电数据压缩感知系统、终端和存储介质 |
CN113197582B (zh) * | 2021-04-27 | 2022-03-25 | 浙江大学 | 一种高通用性的心电数据压缩感知系统、终端和存储介质 |
CN113328755A (zh) * | 2021-05-11 | 2021-08-31 | 内蒙古工业大学 | 一种面向边缘计算的压缩数据传输方法 |
CN113328755B (zh) * | 2021-05-11 | 2022-09-16 | 内蒙古工业大学 | 一种面向边缘计算的压缩数据传输方法 |
CN113255907A (zh) * | 2021-05-20 | 2021-08-13 | 广州广电运通金融电子股份有限公司 | 一种小网络模型裁剪方法及系统 |
CN113255907B (zh) * | 2021-05-20 | 2024-05-14 | 广州广电运通金融电子股份有限公司 | 一种网络模型经裁剪以进行图像识别的方法 |
CN113705775A (zh) * | 2021-07-29 | 2021-11-26 | 浪潮电子信息产业股份有限公司 | 一种神经网络的剪枝方法、装置、设备及存储介质 |
WO2023005085A1 (zh) * | 2021-07-29 | 2023-02-02 | 浪潮电子信息产业股份有限公司 | 一种神经网络的剪枝方法、装置、设备及存储介质 |
CN114154545A (zh) * | 2021-12-07 | 2022-03-08 | 中国人民解放军32802部队 | 强互干扰条件下无人机测控信号智能识别方法 |
CN114154545B (zh) * | 2021-12-07 | 2022-08-05 | 中国人民解放军32802部队 | 强互干扰条件下无人机测控信号智能识别方法 |
WO2023193169A1 (en) * | 2022-04-07 | 2023-10-12 | Huawei Technologies Co.,Ltd. | Method and apparatus for distributed inference |
CN116206188A (zh) * | 2023-05-04 | 2023-06-02 | 浪潮电子信息产业股份有限公司 | 一种图像识别方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022057262A1 (zh) | 2022-03-24 |
CN112116001B (zh) | 2022-06-07 |
US20230334632A1 (en) | 2023-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112116001B (zh) | 图像识别方法、装置及计算机可读存储介质 | |
CN114937151B (zh) | 基于多感受野和注意力特征金字塔的轻量级目标检测方法 | |
CN109949255B (zh) | 图像重建方法及设备 | |
WO2020186703A1 (en) | Convolutional neural network-based image processing method and image processing apparatus | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN111242071B (zh) | 一种基于锚框的注意力遥感图像目标检测方法 | |
CN112613581A (zh) | 一种图像识别方法、系统、计算机设备和存储介质 | |
EP3857462A1 (en) | Exploiting activation sparsity in deep neural networks | |
CN110175671A (zh) | 神经网络的构建方法、图像处理方法及装置 | |
CN112639828A (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
CN110765860A (zh) | 摔倒判定方法、装置、计算机设备及存储介质 | |
CN112561027A (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
KR102152374B1 (ko) | 인공신경망의 비트 양자화 방법 및 시스템 | |
CN110490265B (zh) | 一种基于双路卷积和特征融合的图像隐写分析方法 | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
CN111105017A (zh) | 神经网络量化方法、装置及电子设备 | |
CN115565043A (zh) | 结合多表征特征以及目标预测法进行目标检测的方法 | |
Pichel et al. | A new approach for sparse matrix classification based on deep learning techniques | |
CN113239949A (zh) | 一种基于1d分组卷积神经网络的数据重构方法 | |
CN114120045B (zh) | 一种基于多门控混合专家模型的目标检测方法和装置 | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
CN114298289A (zh) | 一种数据处理的方法、数据处理设备及存储介质 | |
CN111353577B (zh) | 基于多任务的级联组合模型的优化方法、装置及终端设备 | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |