CN111178432A

CN111178432A - 多分支神经网络模型的弱监督细粒度图像分类方法

Info

Publication number: CN111178432A
Application number: CN201911394387.2A
Authority: CN
Inventors: 边小勇; 江沛龄; 费雄君; 丁胜; 张晓龙; 李波
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-19
Anticipated expiration: 2039-12-30
Also published as: CN111178432B

Abstract

本发明公开了一种多分支神经网络模型的弱监督细粒度图像分类方法。其技术方案是：首先将细粒度图像数据集按比例随机划分成训练集和测试集；接着利用局部区域定位网络定位有潜在语义信息的局部区域；将原图像和定位后的局部区域分别输入到可变形卷积的残差网络和旋转不变编码的方向响应网络，构成三个分支的特征网络，分别进行训练，三个分支分别基于交叉熵损失进行后向传播学习。最后，组合分支内损失和分支间损失优化整个网络，对测试集进行分类预测。本发明方法减少因姿态、视角和背景干扰等诸多变化对分类结果的负面影响，在细粒度图像分类任务上取得了更好的效果。

Description

多分支神经网络模型的弱监督细粒度图像分类方法

技术领域

本发明属于细粒度图像分类领域，特别是涉及一种多分支神经网络模型的弱监督细粒度图像分类方法。

背景技术

细粒度图像分类问题是计算机视觉领域的重要分支，在军用和民用领域都具有重要的意义，其目标是对属于同一基础类别的图像(例如鸟类、狗类、飞机类等)进行更加细致的子类划分。相较于传统的图像分类任务，细粒度图像类间差异更加细微，往往是只能借助微小的局部差异才能区分出不同的类别。同时又因物体存在姿态、视角、遮挡和背景干扰等诸多变化，导致其类内差异巨大，这些因素都给细粒度图像分类带来极大困难。

早期的细粒度图像分类研究大多是基于人工特征的算法，首先借助于标注框完成对前景对象的检测，减少背景噪声的干扰。然后通过部位标注信息(如：头，喙，翅膀)学习部位特征，对部位特征输入到分类网络中得到图像类别的预测。然而由于人工标注的成本较高，且描述主观性强，制约了算法的实用性。

目前，基于深度学习的细粒度图像分类方法研究得到快速发展，具体可分为四个方面：1)利用常规图像分类网络的微调；2)部位检测和对齐；3)细粒度特征学习；4)基于视觉注意力机制的方法。其中有代表性的工作有：Lin等人发表的《细粒度视觉识别的双线性CNN模型》，国际计算机视觉会议，2015，pp.1449-1457(《Bilinear CNN models for fine-grained visual recognition》(International Conference on Computer Vision，2015，pp.1449-1457))。该方法使用VGG-D(Visual Geometry Group-D)和VGG-M(VisualGeometry Group-M)两个网络作为基础网络，并组合它们的输出特征进行分类，端对端的训练过程无需人工标注信息，具有弱监督性。但由于采用结构简单的卷积神经网络，因此特征提取不充分。近年来，从部位检测和细粒度特征学习两个方面，细粒度图像分类识别的工作取得了快速进展。基于部位检测和对齐的方法中，庞程等人公布了发明专利《基于弱监督及无监督部位检测和分割的细粒度分类方法》(公布号：CN110147841A)，该发明专利从无监督和弱监督部位检测角度设计了部位检测算子，利用训练样本优化部位检测算子，理论上有更好的部位检测能力，但缺少实验结果。姚西文等人在发明专利《一种基于层进式特征变换的弱监督细粒度图像分类方法》(公布号：CN110097067A)中利用预训练卷积神经网络模型，对目标进行协同定位，然后联合图像级别分类器、对象级别分类器和部位级别分类器，三种级别的分类器融合得分对图像进行分类。该方法对搜索到的潜在目标区域没有区分对待，且从协方差矩阵角度求特征变换的方式，在大尺度图像数据集上难以得到预期的效果。基于细粒度显著性特征学习方面，庞程等人在发明专利《基于显著性无监督部位划分的弱结构物体细粒度分类方法》(公布号：CN110147840A)中利用超像素分割方法与背景分隔成若干个不同局部区域，然后分别统计这些局部区域的特征直方图。最后，将它们和全局池化特征融合用于弱结构物体分类，但尚未提供实验结果。戴兴华等人公布了发明专利《基于弱监督定位和子类别相似性度量的细粒度车型识别方法》(公布号：CN109359684A)，使用VGG-Net进行定位和B-CNN用作特征提取，基于模糊相似矩阵选择正、负样本对组成三元组损失进行学习，该方法基于双线性卷积神经网络的特征提取仍显不足，且该方法对于弱结构物体类的处理未必奏效，在公开数据集Cars-196上的性能低于其它强监督方法。基于视觉注意力机制的思想，Fu等人提出《循环注意力卷积神经网络》，国际计算机视觉与模式识别会议，2017，pp.4476-4484(《Recurrent Attention Convolutional Neural Network》(Computer Vision and Pattern Recognition，2017，pp.4476-4484))。该方法通过视觉注意力定位判别性区域，关注局部区域中的判别性部位，学习多尺度局部区域特征。不足之处是关注一个多尺度局部区域，特征之间有较大冗余。

综上所述，以上方法仍存在一些局限性，主要困难是：1)如何对潜在语义区域进行有效地关注，定位具有判别性的前景对象；2)非刚性若结构对象具有较大的形状变化，如何提取丰富的特征信息；3)如何减少因姿态、视角和背景干扰等诸多变化对分类造成的影响。

基于此，本发明专利提出一种多分支神经网络模型的弱监督细粒度图像分类方法，对细粒度图像中的潜在语义区域进行定位，并输入到可变形卷积的残差网络和旋转不变编码的方向响应网络进行训练和分类预测，进一步提高了分类性能。

发明内容

有鉴于此，本发明的目的在于针对现有技术对细粒度图像的形状变化、姿态各异的特征表示不足问题，提供一种多分支神经网络模型的弱监督细粒度图像分类方法。

本发明所采用的技术方案是：一种多分支神经网络模型的弱监督细粒度图像分类方法，包括以下几个步骤：

步骤S1，对给定的细粒度图像数据集，按照一定的比例将其随机划分为训练集和测试集；

步骤S2，将划分好的数据集进行图像预处理；

步骤S3，将预处理后的图像输入局部区域定位网络，获得有潜在语义信息的局部区域图像；

其中，所述局部区域定位网络是对卷积神经网络的改进，是将卷积神经网络中的全连接层修改为全局平均池化层，将预处理后的图像输入到改进后的卷积神经网络中提取特征；

步骤S4，构建多分支神经网络模型，包括可变形卷积的残差网络和方向响应网络，其中可变形卷积的残差网络分别位于第一和第二分支中，两个分支的输入不同，方向响应网络作为第三分支；

所述可变形卷积的残差网络是对原始残差网络的改进，是通过利用可变形卷积层替换基准残差网络中的普通卷积层，构成可变形卷积的残差网络；

所述方向响应网络是对给定的卷积网络的改进，是将给定卷积神经网络中的普通卷积替换为方向响应卷积，构成方向响应网络；

步骤S5，将预处理后的图像和局部区域图像分别作为第一分支和第二分支的输入，通过可变形卷积的残差网络进行训练，分别计算交叉熵损失；

步骤S6，将局部区域图像作为输入，通过方向响应网络训练，计算交叉熵损失；

步骤S7，组合多分支神经网络模型中三个分支内损失和分支间损失，初始化权重系数，迭代优化分支内损失和分支间损失，直至收敛；

步骤S8，将测试集输入到优化后的多分支神经网络模型，提取不同分支的输出特征，输入到Softmax分类层，获得类别预测结果。

进一步的，所述可变形卷积的残差网络是对ResNet-50的改进，是将ResNet-50网络中conv5_x层的三个3×3卷积层替换为可变形卷积层，构成可变形卷积的残差网络。

进一步的，所述步骤S4中可变形卷积的残差网络中可变形卷积表示为：

在输入特征图s上使用网格

进行采样，s(p₀+p_n+Δp_n)指p₀+p_n+Δp_n位置处的特征，w(p₀)是p₀位置的权重，z(p₀)即对应图像位置p₀的特征，p_n是下标为n的图像位置，Δp_n为偏移量。

进一步的，所述方向响应网络是对ResNet-18的改进，是将该网络中的普通卷积层替换为方向响应卷积ORConv，构成OR-ResNet-18网络。

进一步的，所述步骤S4中定义方向响应卷积为

为输入特征，

是大小为U×U×O的主动旋转滤波器，滤波器边长为U，通道数为O，在卷积过程中主动旋转O-1次产生O个通道的特征图，输出特征图

其中第k个通道计算为：

其中，

表示第o个方向的特征图，

表示第o个方向旋转角为θ_k的主动旋转滤波器。

进一步的，步骤S3的具体实现方式如下，

首先，将局部区域定位网络中Softmax层输出的预测概率映射回最后一个卷积层来产生类注意力图，定义属于某个类别c的类注意力图为：

在式(1)中，

表示在第k个特征图上第c类的权重，f_k(x,y)表示第k个特征图上位置(x,y)的值；

然后根据类注意力图，在原图上基于自定义的灰度阈值框选出有潜在语义信息的局部区域，裁剪后获得局部区域图像。

进一步的，步骤S5的具体实现方式如下，

步骤S5.1，设置网络学习参数，初始化网络权重，偏差参数；

步骤S5.2，将预处理后的图像和局部图像作为不同分支，输入到可变形卷积的残差网络中进行训练，采用随机梯度下降算法和软最大化损失函数优化网络，训练过程中每一次前向传播和反向传播作为一次迭代过程，共同调整网络参数；

其中，前向传播的计算公式为：

X^l＝f(w^lX^l-1+b^l) (3)

在式(3)中，X^l为网络第l层的输出，w^l为网络第l层的权重值，b^l为网络第l层的偏差，f(·)为ReLU激活函数；

反向传播的计算公式为：

在式(4)中η表示学习率，t表示迭代次数，L表示交叉熵损失函数；

每经过若干次迭代后将学习率减半，达到最大迭代次数或交叉熵损失收敛时结束训练，得到最优可变形卷积的残差网络模型。

进一步的，步骤S6的具体实现方式如下，

步骤S6.1，采用SIFT的对齐方式将方向响应卷积特征进行旋转对齐，构成方向响应对齐层，具体是将最后一层ORConv的第k个通道特征图

进行分块和多方向量化，产生各个方向的响应特征，并选择响应特征最强的方向作为旋转的主方向，最强响应的方向表示为：

对所有方向特征旋转角度

后，作为

的输出特征；

步骤S6.2，初始化网络权重，偏差参数；

步骤S6.3，将局部图像输入到方向响应网络，通过交叉熵损失函数进行训练；通过方向响应网络产生不同方向的特征信息，每次迭代过程中，主动旋转滤波器

被更新为：

在式(7)中，

表示第k个方向对齐到-θ_k的训练误差，η表示学习率，L表示交叉熵损失函数；

步骤S6.4，每经过若干次迭代后将学习率减半，达到最大迭代次数或交叉熵损失收敛时结束训练，得到最优方向响应网络模型。

进一步的，步骤S7的具体实现包括如下子步骤，

步骤S7.1，采用组合的损失函数对整个多分支神经网络模型进行微调，总损失函数表示为：

在式(8)中，B表示分支数，B＝3，α是调整总损失和相邻分支损失之间关系的因子，其中分支内损失

使用交叉熵损失，计算为：

在式(9)中，N表示训练样本数，C是类别数，y_i,k是真实类别，p_i,k是第k个样本被预测为第i个类别的概率；

定义分支间损失为：

在式(10)中，m为边界值，Y_k是所有类别上的y_i,k，P_k ^(·)为所有类别上指定分支的p_i,k；

步骤S7.2，初始化权重系数α，采用随机梯度下降对网络的参数进行更新，在第b个分支上的卷积权重计算为：

其中，t表示迭代次数，η表示学习率，L_j表示第j个训练样本的损失值函数，q表示批大小，τ表示相邻分支之间的关联度，定义为：

步骤S7.3，通过调整学习率η和分支间关系因子α来降低总损失，在各分支内损失函数计算过程中，若

分支损失高于

分支损失，学习率将增加α以加快分支b的训练迭代速度，减少分支b与分支b-1之间的距离；然后通过最小化总损失函数的值来优化整个多分支神经网络模型，当总损失函数收敛时或达到最大迭代次数时结束训练。

本发明采用个多分支神经网络模型的弱监督细粒度图像分类方法，首先，通过轻量级定位网络定位图像中有潜在语义信息的局部区域用作新的输入，将原图和经过局部区域定位网络后获得的局部区域分别输入到可变形卷积的残差网络和方向响应网络进行训练，分别提取混淆少、对象形变适应和旋转不变的判别特征。有效减少因姿态、视角和背景干扰等诸多变化对分类结果造成的负面影响。最后，通过组合分支内损失和分支间损失优化整个网络，对测试集进行分类预测。

因此，本发明通过多分支卷积神经网络模型训练及其融合，组合分支内损失和分支间损失优化整个网络，提取细粒度图像的区分特征并分类，具有提高细粒度图像分类效果和好的应用能力的特点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中多分支神经网络模型的弱监督细粒度图像分类方法的流程图；

图2是本发明中局部区域定位网络流程图；

图3是本发明中可变形卷积的残差网络流程图；

图4是本发明中方向响应网络流程图；

图5是本发明的实施例中细粒度图像数据集的图像示例；

图6是采用本发明的局部区域定位网络获得的局部区域；

图7是采用本发明的多分支神经网络模型获得的损失迭代结果。

具体实施方式

本发明的目的在于针对现有技术对细粒度图像的形状变化、姿态各异的特征表示不足，而导致的分类效果不佳的技术问题，提供一种多分支神经网络模型的弱监督细粒度图像分类方法，从而达到提高分类准确性和分类效果的目的。

为了实现上述技术效果，本发明的主要构思如下：

本发明提供一种多分支神经网络模型的弱监督细粒度图像分类方法，首先将细粒度数据集按比例随机划分训练集和测试集，接着通过轻量级定位网络定位图像中有潜在语义信息的局部区域用作新的输入，将原图和经过局部区域定位网络后获得的局部区域分别输入到可变形卷积的残差网络和方向响应网络进行训练。最后，通过组合分支内损失和分支间损失优化整个网络，对测试集进行分类预测。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为实现上述目的，先将本发明采用的技术方案中所涉及到的标记统一说明如下：

Softmax表示卷积神经网络分类层，

ResNet表示残差网络，

Conv表示卷积层，

ORConv表示方向响应卷积，

ARF表示方向旋转滤波器，

ORAlign表示方向响应对齐，

SIFT表示尺度不变特征变换。

CNN表示卷积神经网络，

本实例提供了一种多分支神经网络模型的弱监督细粒度图像分类方法，请参见图1，以公开的CUB-200-2011细粒度图像数据集为例子，该数据集包括有200种不同鸟类的图像，共有11788幅图像，其具体步骤如下：

步骤S1：将细粒度图像数据集按预设比例对数据集进行划分。

具体来说，对给定的CUB-200-2011细粒度图像数据集，训练集有5994副图像，约为整个数据集的50％，余下的5794作为测试集，部分类别请参见图5。

步骤S2：对细粒度图像数据集中的图像进行预处理。

具体来说，对于给定CUB-200-2011数据集中的图像，每幅图像的大小从200×200像素到500×500像素不等，实验中被调整为448×448像素。

步骤S3：利用局部区域定位网络，获得有潜在语义信息的局部区域图像。

其中，所述局部区域定位网络是对卷积神经网络的改进，是将卷积神经网络中的全连接层修改为全局平均池化层，将预处理后的图像输入到改进后的卷积神经网络中提取特征；具体地，步骤S3可以通过下述步骤来实现：

步骤S3.1：将预处理后的图像输入到卷积神经网络中，用全局平均池化层代替全连接层，提取图像特征，请参见图2。

步骤S3.2：将Softmax层输出的预测概率映射回最后一个卷积层来产生类注意力图，定义属于某个类别c的类注意力图为：

在式(1)中，

表示在第k个特征图上第c类的权重，f_k(x,y)表示第k个特征图上位置(x,y)的值。

步骤S3.3：根据类注意力图，在原图上基于自定义的灰度阈值框选出有潜在语义信息的局部区域，裁剪后获得局部区域图像，部分类别的局部区域图像请参见图6。

步骤S5：将原图和局部区域图像分别作为第一分支和第二分支的输入，通过可变形卷积的残差网络进行训练，计算交叉熵损失。

具体地，步骤S5可以通过下述步骤来实现：

步骤S5.1：用可变形卷积层替换基准残差网络中的部分普通卷积层，构成可变形卷积的残差网络，其中，可变形卷积表示为：

在输入特征图s上使用网格

(

定义感受野大小和空洞，例如卷积核3x3的邻域

)进行采样，s(p₀+p_n+Δp_n)指p₀+p_n+Δp_n位置处的特征，w是位置p₀的权重，z(p₀)即对应图像位置p₀的特征，p_n是下标为n的图像位置。在后向传播阶段，新增的偏移位置p_n+Δp_n会同时被学习，经过双线性插值得到整数的空间位置，进而执行可变形卷积，请参见图3。

在上述步骤S5.1中，本实例使用ResNet-50作为原始网络，其中包含五个卷积层结构，其中conv1包含一个卷积层，conv2_x、conv3_x、conv4_x和conv5_x分别由3、4、6、3个残差块组成，其中每一个残差模块都是由卷积核大小分别为1×1、3×3、1×1的三个卷积层串联在一起。将该原始残差网络中conv5_x层的三个3×3卷积层替换为可变形卷积层，构成可变形卷积的残差网络；

步骤S5.2：设置网络学习参数，可变形卷积分支用于偏移学习的卷积层参数初始化为0，学习率的倍数β设为1，批处理大小统一设置为16，初始学习率为0.002，最大迭代次数为200次。加载在ImageNet数据集上预训练好的CNN模型，初始化网络权重，偏差参数。

步骤S5.3：将原图和S3.3中的局部图像作为不同分支，输入到可变形卷积的残差网络中进行训练，采用随机梯度下降算法和软最大化损失函数优化网络。训练过程中每一次前向传播和反向传播作为一次迭代过程，共同调整网络参数，前向传播的计算公式为：

X^l＝f(w^lX^l-1+b^l) (3)

在式(3)中，X^l为网络第l层的输出，w^l为网络第l层的权重值，b^l为网络第l层的偏差，f(·)为ReLU激活函数。反向传播的计算公式为：

在式(4)中η表示学习率，τt表示迭代次数，L表示交叉熵损失函数，如公式(9)所示。

每经过50次迭代后将学习率减半，达到最大迭代次数或交叉熵损失收敛时结束训练，得到最优可变形残差网络模型。

步骤S6：将局部区域图像通过方向响应网络进行训练。

具体地，步骤S6可以通过下述步骤来实现：

步骤S6.1：将给定卷积网络中的普通卷积替换为方向响应卷积，构成方向响应网络。定义方向响应卷积为

为输入特征，

其中第k个通道计算为：

其中，

表示第o个方向的特征图，

表示第o个方向旋转角为θ_k的主动旋转滤波器。

在上述步骤S6.1中，本实例使用ResNet-18作为原始网络，其中包含四个卷积块结构，每个卷积块含有4个卷积层，将该原始网络中普通卷积核替换为ORConv，构成OR-ResNet-18网络；

步骤S6.2：采用SIFT的对齐方式将以上方向响应卷积特征进行旋转对齐，构成方向响应对齐层。具体是将最后一层ORConv的第k个通道特征图

进行分块(参照SIFT算子的默认方式进行分块)和多方向量化，产生各个方向的响应特征，并选择响应特征最强的方向作为旋转的主方向，最强响应的方向表示为：

对所有方向特征旋转角度

后，作为

的输出特征。

步骤S6.3：加载在ImageNet数据集上预训练好的CNN模型，初始化网络权重，偏差参数。

步骤S6.4：将S3.3中的局部图像输入到方向响应网络，通过交叉熵损失函数进行训练，详细训练过程请参见图4。迭代过程如S4.4中的前向传播和后向传播过程，通过方向响应网络产生不同方向的特征信息，每次迭代过程中，主动旋转滤波器

的更新为：

在式(7)中，

表示第k个方向对齐到-θ_k的训练误差，η表示学习率，设置为0.002，L表示交叉熵损失函数，如公式(9)所示。

步骤S6.5：每经过50次迭代后将学习率减半，达到最大迭代次数或交叉熵损失收敛时结束训练，得到最优方向响应网络模型。

步骤S7：组合分支类损失和分支间损失，训练总损失函数直到收敛。

具体地，步骤S7可以通过下述步骤来实现：

步骤S7.1：采用组合的损失函数对网络进行微调，总损失函数设计为：

在式(8)中，B表示分支数，B＝3，α是调整总损失和相邻分支(即b在数值上相邻)损失之间关系的因子，这里设置α为0.1。其中分支内损失

使用交叉熵损失，计算为：

在式(9)中，N表示训练样本数，C是类别数，y_i,k是真实类别，p_i,k是第k个样本被预测为第i个类别的概率。

定义分支间损失为：

在式(10)中，m为边界值，在这里设置为0.05，Y_k是所有类别上的y_i,k，P_k ^(·)为所有类别上指定分支的p_i,k。

步骤S7.2：初始化权重系数α为0.1，采用随机梯度下降对网络的参数进行更新，在第b个分支上的卷积权重计算为：

其中η表示学习率，这里设置为0.002，L_j表示第j个训练样本的损失值函数，q表示批大小，这里设置为16。τ表示相邻分支之间的关联度，定义为：

步骤S7.3：通过调整学习率η和分支间关系因子α来降低总损失，在各分支内损失函数计算过程中，若

分支损失高于

分支损失，学习率将增加α以加快分支b的训练迭代速度，减少分支b与分支b-1之间的距离。最小化总损失函数的值来优化整个网络，当总损失函数收敛时或达到最大迭代次数时结束训练，本实例总损失函数请参见图7。

步骤S8：将测试集输入到优化后的网络模型，提取不同分支的输出特征，输入Softmax分类层，直到达到最大迭代次数结束微调，获得类别预测结果。

为了验证本发明提出的多分支神经网络模型的弱监督细粒度图像分类方法的优势，使用CUB-200-2011细粒度图像数据集，将本实例算法与其他算法做分析和对比，如表1所示：

表1不同算法的分类正确率比较

其中，Part-RCNN算法参见Zhang等人发表的论文《基于部位的R-CNN用于细粒度图像类别检测》(欧洲计算机视觉会议，瑞士，2014，pp.1173–1182)；MG-CNN算法参见Wang等人发表的论文《用于细粒度分类的多粒度描述算法》(2015IEEE国际计算机视觉会议，2015，pp.2399-2406)；Mask-CNN算法参见Wei等人发表的论文《Mask-CNN：部位定位与选择描述符用于鸟类图像分类》(模式识别，2018，76:704-714)；Bilinear-CNN算法参见Lin等人发表的论文《双线性CNN模型用于细粒度视觉识别》(2015IEEE计算机视觉国际会议，圣地亚哥，2015，pp.1449-1457)；FCANs算法参见Liu等人发表的论文《全卷积注意力网络用于细粒度图像识别》(2016IEEE计算机视觉国际会议，拉斯维加斯，2015:1-9)；RA-CNN算法参见Fu等人发表的论文《看得更近看得更好：循环注意力卷积神经用于细粒度图像识别》(2017IEEE计算机视觉国际会议，火奴鲁鲁，pp.4476-4484)；MA-CNN算法参见Zheng等人发表的论文《学习多注意力卷积神经网络用于细粒度图像识别》(2017IEEE计算机视觉国际会议，威尼斯，pp.5219-5227)

由表1中实验结果可知，本文方法相较于此前使用包围边框等数据集标注的强监督分类方法，分类精度达到了同一水平；同时相较不使用额外标注的弱监督分类方法，本方法有明显提升，比最近的MA-CNN提高了1.2个百分点。这一结果证明了多分支神经网络模型具有有效提取互补特征，对细粒度图像(鸟类图像具有不同大小且对象像素少)进行有效区分的能力。

为了进一步说明本实例算法各个分支的不同贡献，不同分支网络的分类结果如表2所示：

表2不同分支网络上的分类结果

方法	CUB-200-2011/％
		Baseline	81.7
Ours(CAM)	83.2
		Ours(DCN)	83.5
Ours(CAM+DCN)	84.7
		Ours(ORN)	83.1
本实例算法	87.7

从表2可知，本文所述多分支神经网络模型在所有数据集上均要好于单个分支(或两个分支)和基准方法的分类结果，证明了多分支神经网络整体优化可以有效地提取到有助于分类的重要信息。从实验结果还可以看出，可变形卷积的残差网络(DCN)的分类结果略好于局部定位网络(CAM)和方向响应网络(ORN)，这与该网络层数更深有关。说明了本算法中三个分支是具有互补性的，组合后的特征具有更加丰富的判别性。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。