CN110751212A

CN110751212A - 一种移动设备上高效的细粒度图像识别方法

Info

Publication number: CN110751212A
Application number: CN201910999659.5A
Authority: CN
Inventors: 吴建鑫; 刘鑫鑫; 张皓
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-02-04
Anticipated expiration: 2039-10-21
Also published as: CN110751212B

Abstract

本发明公开一种移动设备上高效的细粒度图像识别方法，首先利用高效卷积神经网络作为特征抽取器将图像的特征图抽取出来；对于特征图，利用卷积核大小为1×1的卷积操作进行升维，得到新的特征图，命名该特征图为特征图X；随后将特征图X通过全局平均池化操作以得到均值特征并对特征图X进行中心化得到特征图Y；然后将特征图Y沿着通道的方向求和得到注意力图，随后和特征图X相乘，得到用于分类的特征图Z；最后对特征图Z应用全局平均池化操作得到特征向量，进而得到分类结果。在使用阶段，只需给模型输入指定规格大小的图像，模型就会输出相应类别。由于特征抽取器和该方法需要的参数量、运算量小，模型可以实时地运行在移动设备上。

Description

一种移动设备上高效的细粒度图像识别方法

技术领域

本发明涉及深度学习、应用技术，特别涉及深度卷积神经网络、细粒度图像识别技术、模型加速技术，具体是一种适用于移动设备的高效细粒度图像识别方法。

背景技术

图像识别是计算机视觉这一领域的重要课题。传统的图像识别主要处理语义级图像和实例级图像这两类。而细粒度图像识别则介于两者之间。细粒度图像识别又被称为子类别图像识别，其目的是对某个类别进行更加细致的分类。与一般的识别任务相比，细粒度图像的类别精度更加细致，类间差异更加细微，往往只能通过很小的局部差异才能区分出不同的类别，另外，由于姿态、光照、遮挡、背景干扰等因素使得细粒度图像的类内差异更大。

细粒度图像识别的研究已经经历了较长的时间。早期比较主流的方法使用基于人工设计的特征，由于其表征能力有限，效果也有很大局限性。近年来，随着深度学习的发展，特别是深度卷积神经网络的发展，使得细粒度图像识别这一研究得到了快速进步。当前主流的算法有两个分支，一个是基于双线性特征，实验证明，双线性特征能够很好地表示细粒度图像特征，但是由于双线性特征维度很高，参数量和计算量变得很大，完全不适用于移动设备。另外一个是基于部件的细粒度识别算法，该算法思想是通过提取并组合对象各个部件的特征作为细粒度图像的特征。以鸟类识别为例，通过分别提取鸟类的喙、翅膀、爪等部件的特征加以组合作为鸟图像的特征表示，也可以取得相当好的结果，并且也符合人的直观感觉。但是，这类方法相对复杂，需要训练多个特征提取器，训练也相对繁琐，后来基于此也发展出了基于注意力机制的细粒度识别算法。该方法思想与基于部件的方法一脉相承，只是用于定位的工具是注意力图。通过设计精致的损失函数和训练流程，可以得到一个标记部件的注意力图，随后通过注意力图和原特征图做逐元素乘来简介获得部件的特征表示。该方法在精度上，相比于基于双线性特征的方法，有些局限性，且训练过程相对繁琐。

现有的细粒度识别模型由于参数多、计算量大，所以往往都是在服务器端运行，但是在实际应用中，使用场景往往出现在移动端，需要提出高效的、可以适用于移动端的细粒度图像识别方法。

发明内容

发明目的：目前的细粒度图像识别算法具有参数多、计算量大等特点，使得模型往往只能运行在服务器端，令细粒度图像识别算法在应用场景上有很大的局限性。由于很多应用场景都要求能够在可移动设备运行的模型，这就要求细粒度识别模型在参数量要尽量少、计算量要尽量小的前提下还能保持一定的精度。针对上述问题，本发明提出了一种适用于移动设备的细粒度图像识别方法，该方法利用注意力机制去对双线性信息建模，只需极少的额外计算量即可完成。在这个基础上，使用网络剪枝等技术剪裁出高效的特征提取器提取特征，最后整个模型能够很好地适用于移动端。具体来说，先通过较为成熟的网络剪枝技术剪裁出高效的特征提取器网络，对输入图像提取特征图，随后通过1×1卷积对特征图升维，之后对该特征图进行中心化和沿通道方向求和计算出注意力图。注意力图某种程度上可以表征部件的位置，具体来说，某些对应着部件的区域会拥有更大的数值，利用这一点，我们将注意力图与特征图做逐元素相乘，即可得到一个部件区域得到“强化”的特征图，不仅如此，该特征图还会隐含双线性信息。之后使用全局平均池化得到最后的特征表示进行分类。整个流程涉及到的计算复杂度相对较低，能够支持在移动端运行。

技术方案：一种移动设备上高效的细粒度图像识别方法，包括细粒度图像识别模型的训练方法以及预测步骤；

所述细粒度图像识别模型的训练方法具体为：

步骤1.1，在现有的细粒度图像数据集上，使用已有的基于卷积神经网络的高效特征提取器提取特征，表示为从图像I_i抽取到特征图Z_i；

步骤1.2，使用1×1卷积将特征图Z_i升维得到特征图X_i；

步骤1.3，对特征图X_i使用全局平均池化得到均值向量μ_i，并用它对X_i进行中心化，然后沿着通道方向求和得到注意力图α_i；

步骤1.4，将注意力图α_i和特征图X_i相乘得到最终的特征图表示Y_i；

步骤1.5，对特征图Y_i做全局平均池化得到特征向量y_i，得到训练模型，最后得到分类结果；

步骤1.6，使用反向传播算法训练训练模型，通过小批量梯度下降算法优化训练模型参数，得到细粒度图像识别模型。

细粒度图像识别模型预测步骤具体为：

步骤2.1，设备获得图像后，预处理至指定规格大小；

步骤2.2，将图像输入到模型中，模型即会输出分类结果。

所述使用高效卷积神经网络作为特征提取器，具体为：深度卷积神经网络往往会有参数冗余的特点，通过网络剪枝等方法可以获得一个速度更快、参数量更小的高效卷积神经网络，且模型精度损失在一定范围内。如将VGG16网络使用网络剪枝方法使参数量降低至原来的25％，且精度损失在可接受范围内。

所述使用1x1卷积对特征图升维，具体为：1x1卷积是指卷积核大小为1x1，输入通道数为特征提取器提取出的特征图通道数，输出通道数为指定值(超参数)的卷积操作，通过该卷积操作，在不改变特征图空间大小的前提下，提高其通道数。

所述注意力图α_i和特征图X_i相乘，具体为：将注意力图α_i沿着通道方向扩展，扩展方式为复制，使之变成与X_i大小相同的张量，最后逐元素作乘积。

所述使用反向传播算法训练模型，通过小批量梯度下降算法优化模型参数，具体为：对于训练集D＝{(I₁,c₁),(I₂,c₂),…,(I_N,c_N)}，其中I_i代表输入图像，c_i代表其对应的类别。使用反向传播算法得到梯度，并通过小批量梯度下降算法优化模型参数。

所述预处理至指定规格大小，具体为：通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。

所述模型即会输出分类结果，具体为：模型输出对应维度的分数向量，分数最高的那一维对应的类别即为模型预测的结果。

有益效果：与现有技术相比，本发明所提供的移动设备上高效的细粒度图像识别方法在极少的额外计算量的前提下，保持了相当的精度，在实际应用该方法处理中能够达到实时识别的效果。

附图说明

图1为本发明实施例的用于移动设备的细粒度图像识别模型结构和训练工作流程图；

图2为本发明实施例的用于移动设备的细粒度图像识别模型预测工作流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-2所示，移动设备上高效的细粒度图像识别方法，包括细粒度图像识别模型的训练步骤以及识别模型预测步骤；

如图1所示，所述细粒度图像识别模型的训练步骤具体为：

步骤1.1，在现有的细粒度图像数据上，使用已有的基于卷积神经网络的高效特征提取器提取特征，表示为从图像I_i抽取到特征图Z_i；

使用高效卷积神经网络作为特征提取器，具体为：深度卷积神经网络往往会有参数冗余的特点，通过网络剪枝等方法可以获得一个速度更快、参数量更小的高效卷积神经网络，且模型精度损失在一定范围内。如将VGG16网络使用网络剪枝方法使参数量降低至原来的25％，但精度仍在业务可接受范围内。

步骤1.2，使用1×1卷积将特征图Z_i升维得到特征图X_i；

使用1x1卷积对特征图升维，具体为：1x1卷积是指卷积核大小为1x1，输入通道数为特征提取器提取出的特征图通道数，输出通道数为指定值(超参数)的卷积操作，通过该卷积操作，在不改变特征图空间大小的前提下，提高其通道数，起到升维的效果。

步骤1.3，对X_i使用全局平均池化得到均值向量μ_i，并用均值向量μ_i对X_i进行中心化，然后沿着通道方向求和得到注意力图α_i，该注意力图对应类别关键部件的位置会有相对更大的数值；

注意力图α_i和特征图X_i相乘，具体为：将注意力图α_i沿着通道方向扩展，扩展方式为复制，使之变成与X_i大小相同的张量，最后逐元素做点乘，起到“强化”相关部件区域的效果。

步骤1.5，对Y_i做全局平均池化得到特征向量y_i，得到训练模型，最后得到分类结果；

步骤1.6，使用反向传播算法训练训练模型，通过小批量梯度下降算法优化训练模型参数，具体为：对于训练集D＝{(I₁,c₁),(I₂,c₂),…,(I_N,c_N)}，其中I_i代表输入图像，c_i代表其对应的类别。使用反向传播算法得到梯度，并通过小批量梯度下降算法优化模型参数，得到细粒度图像识别模型。

细粒度图像识别模型预测步骤具体为：

步骤2.1，设备获得图像后，预处理至指定规格大小；

预处理至指定规格大小，具体为：通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。

步骤2.2，将图像输入到模型中，模型即会输出分类结果；

模型输出分类结果，具体为：模型输出对应维度的分数向量，分数最高的那一维对应的类别即为模型预测的结果。

Claims

1.一种移动设备上高效的细粒度图像识别方法，其特征在于：包括细粒度图像识别模型的训练方法以及预测步骤；

所述细粒度图像识别模型的训练方法具体为：

步骤1.1，在现有的细粒度图像数据集上，使用高效卷积神经网络作为特征提取器提取特征，表示为从图像I_i抽取到特征图Z_i；

步骤1.2，使用1×1卷积将特征图Z_i升维得到特征图X_i；

步骤1.6，使用反向传播算法训练训练模型，通过小批量梯度下降算法优化模型参数，得到细粒度图像识别模型；

细粒度图像识别模型预测步骤具体为：

步骤2.1，设备获得图像后，预处理至指定规格大小；

步骤2.2，将图像输入到模型中，模型即会输出分类结果。

2.如权利要求1所述的移动设备上高效的细粒度图像识别方法，其特征在于：所述使用高效卷积神经网络作为特征提取器，具体为：通过网络剪枝方法将深度卷积神经网络转换为速度更快、参数量更小的高效卷积神经网络。

3.如权利要求1所述的移动设备上高效的细粒度图像识别方法，其特征在于：所述使用1x1卷积对特征图升维，具体为：1x1卷积是指卷积核大小为1x1，输入通道数为特征提取器提取出的特征图通道数，输出通道数为指定值的卷积操作，通过该卷积操作，在不改变特征图空间大小的前提下，提高其通道数。

4.如权利要求1所述的移动设备上高效的细粒度图像识别方法，其特征在于：所述注意力图α_i和特征图X_i相乘，具体为：将注意力图α_i沿着通道方向扩展，扩展方式为复制，使之变成与X_i大小相同的张量，最后逐元素作乘积。

5.如权利要求1所述的移动设备上高效的细粒度图像识别方法，其特征在于：所述使用反向传播算法训练模型，通过小批量梯度下降算法优化模型参数，具体为：对于训练集D＝{(I₁,c₁),(I₂,c₂),…,(I_N,c_n)}，其中I_i代表输入图像，c_i代表其对应的类别。使用反向传播算法得到梯度，并通过小批量梯度下降算法优化模型参数。

6.如权利要求1所述的移动设备上高效的细粒度图像识别方法，其特征在于：所述预处理至指定规格大小，具体为：通过对输入图像进行缩放、剪裁、翻转等手段将图像变化为指定规格大小或格式。

7.如权利要求1所述的移动设备上高效的细粒度图像识别方法，其特征在于：所述模型即会输出分类结果，具体为：模型输出对应维度的分数向量，分数最高的那一维对应的类别即为模型预测的结果。