CN110163295A

CN110163295A - 一种基于提前终止的图像识别推理加速方法

Info

Publication number: CN110163295A
Application number: CN201910457924.7A
Authority: CN
Inventors: 高科; 曾加贝; 张弛
Original assignee: Sichuan Zhiying Technology Co Ltd
Current assignee: Sichuan Zhiying Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-23

Abstract

本发明涉及图像识别技术领域，提供了一种基于提前终止的图像识别推理加速方法，在训练阶段对于N分类任务，在中间层之后加一个基于归一化指数函数的N+1分类交叉熵损失函数，前N个结点对应N分类中每个分类的打分，第N+1类得分用于判断图像识别的可靠性；在推理阶段，给定测定图像，依次通过每一层，遇到待考察的层，先根据该待考察的层的输出来计算用于做图像识别的可靠程度；若可靠程度不满足条件，则进入下一层；若可靠程度满足条件，则根据该待考察的层的输出进行图像分类判断，输出判断结果，终止推理过程。本发明加速效果明显，可加速包括物体识别、场景识别、人脸识别、表情识别、性别判断等在内的二分类或者多分类图像识别的推理。

Description

一种基于提前终止的图像识别推理加速方法

技术领域

本发明涉及图像识别技术领域，特别涉及一种基于提前终止的图像识别推理加速方法。

背景技术

现有的图像识别推理可从以下3个方面进行加速：基于硬件平台计算速度的加速方法、基于模型压缩的加速方法、基于小型模型结构的加速方法。

基于硬件平台计算速度的加速方法主要从硬件和平台角度进行加速，如基于SIMD指令集的编译器加速、基于OMP的数学库并行计算加速等方法，现有专利包括《一种针对卷积神经元网络进行推理加速的硬件架构及其工作方法》(CN108108809A)和《一种基于FPGA的YOLO网络前向推理加速器设计方法》(CN109214504A)；或者通过优化预处理、后处理，网络的请求响应等环节，设计良好的并发机制提升服务端到端的性能，现有的专利包括《一种卷积神经网络推理加速器及方法》(CN108182471A)。这种方法受限于具体的硬件设施或使用平台。

基于模型压缩的加速方法主要针对深度学习模型本身，通过网络结构裁剪、量化等方法来减小模型大小，降低计算量，从而加速推理过程。现有方法包括对深度网络模型进行量化压缩，减少模型参数占用的比特，减少推理过程中的浮点运算次数，如专利《一种深度神经网络推理方法及计算设备》(CN109214515A)；或者通过对网络结构进行剪枝的加速方法，将不重要的网络参数置零来减少计算次数，如[1][2]；或通过对模型中多位张量结构进行低秩分解，从而减少计算次数，加快推理速度，如[3]。

基于小型模型结构的加速方法通过设计并训练规模小、计算复杂度低的模型用来完成图像识别任务，如MobileNet v2^[4],ShuffleNet v2^[5]等。这种方法需要技术专家花费时间和精力对模型结构进行设计，才能达到加速效果，而且模型的加速比很高时，识别精度会有明显的损失。

参考文献：

[1]M.Zhu and S.Gupta,“To prune,or not to prune:exploring the efficacyof pruning for model compression,”In ICLR Workshop,2018.

[2]P.Molchanov,S.Tyree,T.Karras,T.Aila,and J.Kautz,“Pruningconvolutional neural networks for resource efficient transfer learning,”InICLR,2017.

[3]X.Yu,T.Liu,X.Wang,D.Tao."On compressing deep models by low rankand sparse decomposition."In CVPR,2017.

[4]Sandler M,Howard A,Zhu M,et al.MobileNetV2:Inverted Residuals andLinear Bottlenecks.In CVPR,2018.

[5]Ma,Ningning,et al."Shufflenet v2:Practical guidelines forefficient cnn architecture design."In ECCV,2018.

发明内容

本发明的目的之一就是克服现有技术的不足，提供了一种基于提前终止的图像识别推理加速方法，可在推理过程中，仅根据深度神经网络模型的前若干层对图像进行较准确的识别，从而提前终止推理，加快推理速度，该方法适用于任意深度神经网络模型。

本发明的技术方案如下：

一种基于提前终止的图像识别推理加速方法，包括训练阶段和推理阶段；

所述训练阶段，使用训练图像对模型进行训练，获得模型参数；对于N分类任务，在所述模型的中间层之后加上一个基于归一化指数函数的N+1分类交叉熵损失函数，前N个结点对应所述N分类中每个分类的打分，第N+1类得分用于判断图像识别的可靠性；例如，对于一个二分类问题(N＝2)性别判断，如果中间层判断输出3个结点的值分别是0.1,0.2,0.7，表示该图像是第一类、第二类的概率分别是0.1和0.2，第三个结点的值最高为0.7，表示当前对性别判断的可靠性较低(不确定性很高)；

所述推理阶段，给定测定图像，依次通过所述模型的每一层，遇到待考察的层，先根据该待考察的层的输出来计算用于做图像识别的可靠程度；如果可靠程度不满足设定条件，则进入所述模型下一层；如果可靠程度满足设定条件，则根据该待考察的层的输出进行图像分类判断，输出判断结果，终止推理过程。

进一步的，所述模型为深度神经网络结构。

进一步的，所述深度神经网络结构为AlexNet、VGGNet、ResNet、DenseNet中的任一种，或任一种的变种网络结构。

进一步的，所述训练阶段，在深度神经网络设定的中间层之后接入具有N+1个结点的全连接层，所述全连接层的前N个结点对应每个分类的打分，第N+1个结点对应分类判断的可靠性；所述全连接层在N+1个结点输出后接入交叉熵损失函数；对所述模型的最后一层的N结点输出后，也接入交叉熵损失函数；全连接层后的交叉熵损失函数为N+1类的，最后层之后的交叉熵损失函数为N类的。

利用梯度算法对所述模型进行求解，目标函数是使根据训练图像及其分类标签计算得到的损失函数值的加权和最小。设第l层的中间层N+1分类交叉熵损失函数为权重为α_l；最后一层的N分类交叉熵损失函数为权重为α_u，则目标函数为其中，权重α_u和α_l,l＝1,2,…,L手动设置，默认可全部取1。

进一步的，设是第j张训练图像在神经网络模型某个设定中间层之后的全连接层输出,其中是第i维；再假设是第j张训练图像的标签，如果则第j张图像属于分类i，否则，表示第j张图像不属于分类i；一张训练图像只属于一个分类，即中只有一个为1，其余都为0；由此得到的损失函数为：

其中，M表示训练样本的个数。

进一步的，所述推理阶段，将测试图片依次经过所述模型的各层的前向计算，遇到第l个待考察的中间层时，先根据该层的输出计算分类的可靠程度，具体地，假设该层的D维输出x＝[x₁,x₂,…,x_D]，如果该层的特征输出不是向量，则将各维度展开转化成向量；训练阶段得到的N+1结点全连接层参数为：

W＝[w_ij]_(N+1)×D，令

w_c＝[w_(N+1)1,…,w_(N+1)D]^T；

则使用该层特征进行分类的可靠程度计算方法为：

其中σ为sigmoid函数，即然后，根据计算得到的可靠程度r和给定的阈值∈_r，判断是否进行分类判断并提前终止推理，具体地：如果r≥∈_r，则不使用该层特征作为分类依据，将该层输出作为下一层输入，继续进行模型推导；如果r<∈_r，则使用该层特征作为分类依据，进行分类判断，具体地：计算每个分类的打分最终预测分类即得分最高的类，即

上述的基于提前终止的图像识别推理加速方法，用于物体识别、场景识别、人脸识别、表情识别、性别判断。

本发明的有益效果为：加速效果明显，可加速包括物体识别、场景识别、人脸识别、表情识别、性别判断等在内的二分类或者多分类图像识别的推理；并且使用灵活，可用于任何深度神经网络模型，可在任意中间层检测是否可提前终止进行加速，同时，本发明不依赖于硬件设备以及使用的深度模型，可以与其它加速算法(如基于硬件平台的模型加速方法、基于模型压缩的加速方法等)叠加使用，进一步加速推理。

附图说明

图1所示为本发明实施例中训练阶段流程示意图。

图2所示为本发明实施例中推理阶段流程示意图。

具体实施方式

下文将结合具体附图详细描述本发明具体实施例。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。

本发明实施例的一种基于提前终止的图像识别推理加速方法，如果物体的分类能在早期被可靠地推理出来，则提前终止推理过程，从而减少图像识别的推理时间。

本发明的实施体现在深度神经网络模型的训练和测试阶段，以下针对一个具有N个分类的分类问题进行具体说明：

在训练阶段，输入是训练数据图像和它们对应的标签，模型可以是任意一种深度神经网络结构，如AlexNet、VGGNet、ResNet、DenseNet等及其变种网络结构。训练过程如图1所示。除了在模型的最后接入一个交叉熵损失函数监督模型的学习之外，本算法在任意多个感兴趣的深度神经网络的低层(接近输入的层)之后接入具有N+1个结点的全连接层，前N个结点对应每个分类的打分，第N+1个结点表示对上述分类判断的可靠程度。在利用梯度下降算法对模型进行求解时，在原本最后一层的N结点输出后，接入交叉熵损失函数，在每个新加的N+1结点全连接层后也接入交叉熵损失函数。目标函数是使根据训练图像及其分类标签(分类标签是关于分类的监督信号，训练过程需要标签，推理过程不需要标签)计算得到的这些损失函数值的加权和最小。设是第j张训练图像在神经网络模型某个低层之后的全连接层输出,其中是第i维。再假设是第j张训练图像的标签，如果则第j张图像属于分类i，否则，表示第j张图像不属于分类i。一张图像只属于一个分类，即中只有一个为1，其余都为0(例如一个要分成100类的物体识别问题，第一类是鸟，那么一张鸟的训练图片的标签可以是1，或者[1,0,0,…..,0])。由此得到的损失函数为：

其中，M表示训练样本的个数。

在推理阶段的流程图如图2所示。给一张测试图片t，依次经过各层的前向计算，遇到第l个待考察的层时，先根据该层的输出计算分类的可靠程度，具体地，假设该层的D维输出x＝[x₁,x₂,…,x_D](如果该层的特征输出不是向量，则将各维度展开转化成向量，例如，若特征输出为则将X按照列向量优先的顺序重新组成一个abc维的向量)；训练阶段学到的N+1结点全连接层参数为W＝[w_ij]_(N+1)×D，令w_c＝[w_(N+1)1,…,w_(N+1)D]^T，则使用该层特征进行分类的可靠程度计算方法为其中σ为sigmoid函数。然后，根据计算得到的可靠程度r和给定的阈值∈_r，判断是否进行分类判断并提前终止推理，具体地：如果r≥∈_r，则不使用该层特征作为分类依据，将该层输出作为下一层输入，继续进行模型推导；如果r<∈_r，则使用该层特征作为分类依据，进行分类判断，具体地：计算每个分类的打分最终预测分类即得分最高的类，即

本发明提出的一种判断中间层输出做识别图像的可靠程度的技术，可在深度神经网络模型的任意中间层之后使用(待考察的中间层可根据实际需要选取)。在训练过程中，对于N分类任务，该技术在中间层之后加上一个基于归一化指数函数的N+1分类交叉熵损失函数，多出来的第N+1类得分用于判断图像识别的可靠性。本发明加速效果明显，可加速包括物体识别、场景识别、人脸识别、表情识别、性别判断等在内的二分类或者多分类图像识别的推理；并且使用灵活，可用于任何深度神经网络模型，可在任意中间层检测是否可提前终止进行加速。

本文虽然已经给出了本发明的几个实施例，但是本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

1.一种基于提前终止的图像识别推理加速方法，其特征在于，包括训练阶段和推理阶段；

所述训练阶段，使用训练图像对模型进行训练，获得模型参数；对于N分类任务，在所述模型的中间层之后加上一个基于归一化指数函数的N+1分类交叉熵损失函数，前N个结点对应所述N分类中每个分类的打分，第N+1个结点对应于图像识别的可靠性；

所述推理阶段，给定测定图像，依次通过所述模型的每一层，遇到待考察的层，先根据该待考察的层的输出来计算用于做图像识别的可靠性；如果可靠性不满足设定条件，则进入所述模型下一层；如果可靠性满足设定条件，则根据该待考察的层的输出进行图像分类判断，输出判断结果，终止推理过程。

2.如权利要求1所述的基于提前终止的图像识别推理加速方法，其特征在于，所述模型为深度神经网络结构。

3.如权利要求2所述的基于提前终止的图像识别推理加速方法，其特征在于，所述深度神经网络结构为AlexNet、VGGNet、ResNet、DenseNet中的任一种，或任一种的变种网络结构。

4.如权利要求2所述的基于提前终止的图像识别推理加速方法，其特征在于，所述训练阶段，在深度神经网络设定的中间层之后接入具有N+1个结点的全连接层，所述全连接层的前N个结点对应每个分类的打分，第N+1个结点对应分类判断的可靠性；所述全连接层在N+1个结点输出后接入交叉熵损失函数；对所述模型的最后一层的N结点输出后，也接入交叉熵损失函数；

利用梯度算法对所述模型进行求解，目标函数是使根据训练图像及其分类标签计算得到的损失函数值的加权和最小。

5.如权利要求4所述的基于提前终止的图像识别推理加速方法，其特征在于，

设是第j张训练图像在神经网络模型某个设定中间层之后的全连接层输出,其中是第i维；再假设是第j张训练图像的标签，如果则第j张图像属于分类i，否则，表示第j张图像不属于分类i；一张训练图像只属于一个分类，即中只有一个为1，其余都为0；由此得到的损失函数为：

其中，M表示训练样本的个数。

6.如权利要求2所述的基于提前终止的图像识别推理加速方法，其特征在于，

所述推理阶段，将测试图片依次经过所述模型的各层的前向计算，遇到第l个待考察的中间层时，先根据该中间层的输出计算分类的可靠程度，具体地，假设该层的D维输出x＝[x₁,x₂,…,x_D]，如果该层的特征输出不是向量，则将各维度展开转化成向量；训练阶段得到的N+1结点全连接层参数为：

W＝[w_ij]_(N+1)×D，令w_c＝[w_(N+1)1,…,w_(N+1)D]^T；

则使用该层特征进行分类的可靠程度计算方法为：

其中σ为sigmoid函数；根据计算得到的可靠程度r和给定的阈值∈_r，判断是否进行分类判断并提前终止推理，具体地：如果r≥∈_r，则不使用该层特征作为分类依据，将该层输出作为下一层输入，继续进行模型推导；如果r<∈_r，则使用该层特征作为分类依据，进行分类判断，具体地：计算每个分类的打分最终预测分类即得分最高的类，即

7.如权利要求1-6任一项所述的基于提前终止的图像识别推理加速方法，在物体识别、场景识别、人脸识别、表情识别、性别判断领域的应用。