CN110334738A

CN110334738A - 用于图像识别的多分类网络的方法

Info

Publication number: CN110334738A
Application number: CN201910485286.XA
Authority: CN
Inventors: 王智慧; 厉建宾; 张旭东; 郭增源; 马新柱; 王宁
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-10-15

Abstract

本发明属于计算机秘密图像共享技术领域，提出了一种用于图像识别的多分类网络的方法，它集成了低级详细和高级语义信息，以提高图像识别任务的准确性。它在网络的中间层部分引入了额外的分类器，以尽可能简单和直接地使用低层信息。在获得基于浅层特征的中间结果后，我们探究有效的中间结果融合方法，以生成准确的最终结果。由于MCN是一种基于分类器的方法，因此它与其他基于特征提取器的方法兼容。本发明提供了图像识别任务的一种新方法，可以有效提高识别的准确率，为图像识别任务提供了一种新的解决方案。

Description

用于图像识别的多分类网络的方法

技术领域

本发明属于计算机图像识别技术领域，涉及一种用于图像识别的多分类网络的方法。

背景技术

如今，随着图像数据的增加，图像识别任务需求日益明显，图像识别的目标是识别图像中的对象，并理解图像上下文信息，例如：图像中的商品识别、车辆识别等。近年来，卷积神经网络(CNNs)在计算机视觉任务中取得了显着成就，成为图像识别的主要方法。CNNs网络中不同级别的特征包含不同的信息，浅层特征富含图像细节，而深层特征具有更强的语义信息。对于图像分类任务，通常使用更深的网络能够产生更高层的“语义”特征。最近，许多视觉识别相关研究证明，充分利用不同层次的特征可以有效地增强卷积神经网络(CNNs)的特征表示能力，例如：残差、门控和跳跃连接等特征分离模块被证明是非常有效的。除了生成更好的特征表示，还需要进一步探索如何有效的使用这些特征表示。现有的方法是将不同阶段的特征表示进行融合，使用单个分类器生成预测结果，但是即使使用这种特征聚合策略，这种方法也不能充分利用CNNs的潜力。如何获取CNNs不同级别的特征表示的潜力，并能够以自适应的方式使用这些特征表示对图像识别任务非常重要。

图像识别技术的相关研究现状如下：

Highway networks(Rupesh K S,KlausG,Jurgen S，et al.HighwayNetworks.CoRR，2015)和ResNet(He K M,Zhang X Y，Ren SQ，et al.Deep residuallearning for image recognition.CVPR，2016)使用短接路径将当前层的特征图传播到下一层，在许多具有挑战性的视觉任务上达到了很好的性能。DenseNets(Huang G,LiuZ,Laurens V D,et al.Densely Connected Convolutional Networks.CVPR，2017)旨在通过密集跳跃连接来更好地传播特征和损失，这些跳跃连接将所有层分阶段连接起来。DFN(Wang J D,WeiZ,Zhang T，et al.Deeply-Fused Nets.CoRR，2016)，通过组合不同基础网络的中间层特征，来改善信息的传递。FPN(Lin TY，Piotr D,Rose B G，Featurepyramidnetworks for object detection.CVPR，2017)旨在通过自上而下和侧面连接来平衡金字塔特征层次不同分辨率和语义信息。然而，这些研究的重点是如何产生更好的特征表示，它们的研究不包括如何有效地使用这些特征。

除了获取更好的特征表示，还有一些关于分类器的研究。深度监督网络(DSN)(LeeC Y，Xie S N,PatrickWG,etal.Featurepyramid networks for objectdetection.AISTATS，2015)也采用多分类器策略，同时对每个分类器最小化分类损失，使隐藏层的学习过程直观和透明。然而，这些附加分类器仅为网络的中间层提供额外的监督信息，并且不利用浅层特征。HED(Xie Z，Tu Z W，Holistically-nested edgedetection.CVPR，2017)引入了一种深度监督的边缘检测方法，HED预测不同尺度的特征图上的检测结果，并使用这些中间输出的结果加权平均值作为最终结果。Qibin等人通过在HED架构内引入跳过层结构的短连接，提出了一种新的显着对象检测方法(Hou Q B，ChengM M，Hu XW，Deeplysupervisedsalient object detection with shortconnection.CVPR，2017)，通过将浅层输出作为深层特征映射的附加通道。与这些方案相比，我们的方法研究了一些更有效的结果融合策略，以有效地使用这些不同层的特征信息。

发明内容

本发明的目的是提供一个基于多分类器的图像识别网络，通过有效的集成低级详细特征和高级语义特征，以提高图像识别任务的准确性。在这项工作中，我们提出了一种多分类器网络(MCN)，以并行方式处理细节和语义信息，如图1所示。具体而言，MCN使用多个分类器来处理CNN的不同尺度的特征，并能够更好地利用不同规模的信息，得到更加准确的预测。MCN中引入了一个辅助分类器，能够直接优化网络的中间层，约束中间层学习判别性特征，每个分类器可以被视为一个梯度源，以此解决梯度消失的问题。本方案是一个通用模型，可以应用于现有的骨架结构，如VGG，ResNet，ResNeXt，DenseNet等。

本发明的技术方案：

一种基于多层特征融合的图像识别的多分类网络，其包括步骤：

1)构建多分类器网络主体结构，由一系列卷积，池化，全连接，以及激活函数构成的骨架结构；

2)将分类器将网络划分为多个子网络，如图1所示，每个子网络包含不同级别的语义特征；

3)通过步骤2)使用不同子网络的语义特征，每个分类器将获得一个分类器中间结果其中，i指的是分类器，并训练额外的置信度解码器，通过使用不同子网络的语义特征来学习分类器的置信度ω_i，ω_i代表了分类器i的置信度。

4)通过多分类器融合模块融合步骤3)中获取的中间结果，从而获得最终的预测结果，最终的决策过程可以用以下公式描述：

公式(1)Y表示解码器在不同层的融合预测分类最终结果，ω_i表示不同层解码器预测了分类器级别的置信度，为每个分类器的分类结果。

5)由于在网络中引入多个分类器，每个分类器具有其相应的损失函数loss₁，loss₂，...，loss_n(每个损失函数是标准的交叉熵函数)，损失函数的形式loss_final可以写成：

loss_final＝loss₁+loss₂+…+loss_n(2)

在模型中，为了训练置信度解码器，我们需要添加额外的损失。

其中，loss_fuse用于训练置信度ω_i，Loss是交叉熵损失函数，labels是真实的标注信息，是最终预测分类器结果Y，在实验过程中，我们发现分类器不同阶段的不同权重更有利于模型的训练。所以我们给每个损失函数增加一个权重系数：

Loss_final＝α₁×loss₁+α₂×loss₂+…+α_n+1×loss_fuse(4)

其中，α₁，...，α_n+1是指定设置的不同的权重，loss₁，...，loss_n用于训练分类器i的中间结果loss_fuse用于训练置信度ω_i，以此使得网络能够关注不同分类器的效果，从而集成了低级详细和高级语义信息，以提高图像识别任务的准确性。

在本发明的技术方案中，训练数据使用CIFAR10、CIFAR100两个数据集作为MCN的训练数据。构建基于多特征融合的多分类器结构，在CIFAR10和CIFAR100数据集中获取了较低的错误率，这意味着本发明的方案在多个数据集上都取得了很好的结果。

本发明的有益效果：本发明提出了基于多特征融合多分类器的网络，它集成了低级详细和高级语义信息，以提高图像识别任务的准确性。它在网络的浅层部分引入了额外的分类器，以尽可能简单和直接地使用低级信息。在获得基于浅层特征的中间结果后，我们探究有效的中间结果融合方法，以生成准确的最终结果。由于MCN是一种基于分类器的方法，因此它与其他基于特征提取器的方法(如ResNet和DenseNet)兼容。本发明提供了图像识别任务的一种新方法，可以有效提高识别的准确率，为图像识别任务提供了一种新的解决方案。

附图说明

图1为本发明的基于多特征融合的多分类器目标识别方案的网络结构图。

图2为本发明的多分类器结果融合与特征聚合网络结构比较图。

图3为本发明的多分类器结果融合与其他特征融合网络的结构比较图，(a)为深度监督网络，(b)为级联融合策略，(c)为残差融合策略，(d)为分类器结果融合策略。

图4为本发明的梯度传播模式的比较示意图，其中圆形代表梯度源，长方形代表特征图。

图5为本发明的MCN-ResNet-50在CIFAR100+数据集上的不同中间分类器结果融合的自适应置信度图。

图6为本发明的MCN-ResNet-34在ImageNet数据集上，基于类激活图(CAM)的可视化示意图，其中第一列为输入彩色图像，第二列至第四列为MCN-ResNet-34不同层的类激活图，第五列为ResNet-34的类激活图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面对本发明的具体实施方式作进一步的详细描述。

1)构建多分类器网络主体结构，由一系列卷积，池化，全连接，以及激活函数构成，如VGG，ResNet，ResNeXt等现有的骨架网络结构；

3)通过步骤2)使用不同子网络的语义特征，每个分类器将获得一个分类器中间结果Y_i，其中，i指的是分类器，并训练额外的置信度解码器，通过使用不同子网络的语义特征来学习分类器的置信度ω_i，ω_i代表了分类器i的置信度。

loss_final＝loss₁+loss₂+…+loss_n(2)

Loss_final＝α₁×loss₁+α₂×loss₂+…+α_n+1×loss_fuse(4)

实施例

在本实施例中，在GTX Titan X，12G显卡的服务器上，使用XShell,Xftp终端模拟器以及Jupyter notebook交互式界面，采用较为稳定的深度学习框架tensorflow-GPU版本1.8.0，cuda版本为9.0.176。采用本发明提出的多分类器网络，结合低级详细特征和高级语义特征，以提高图像识别任务的准确性。

该方案可以应用于现有的骨架结构，如VGG，ResNet，ResNeXt，PreActResNet，DenseNet等网络骨架，方案通过融合不同层次的特征信息，以提高图像识别任务的准确性，如表1所示。

由于该方案对于输入数据，它能够获取不同层次更具有判别性的特征，因此，在不使用数据扩增技术时，也就是小数据集上，使用本文方案的效果提升更加明显，如表2所示。

在Loss_final中，α₁，...，α_n+1是指定设置的不同的权重，实验中，设置不同的权重，能够影响最终方案的识别效果，本方案在三分类器结构中，参数设置为α₁＝0.3，α₂＝0.3，α₃＝0.6，α₄＝1，其中α₄是loss_fuse的权重，如表4所示。

表1为不同骨干网络下CIFAR10和CIFAR100上的错误率评估

表2为对CIFAR数据集上数据增强策略是否使用时的错误率差异评估

表3为CIFAR数据集上使用ResNet-110其他信息融合方法的错误率比较评测

表4为CIFAR数据集上使用ResNet-110不同损失的评估

参见表2，表3以及图4至图5，可见本发明的方案在图像识别任务中很好的结果。

以上所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种用于图像识别的多分类网络的方法，其特征在于，所述的方法包括步骤：

1)构建多分类器网络主体结构，主要由一系列卷积、池化、全连接以及激活函数构成；

2)将多分类器网络划分为多个子网络，每个子网络包含不同级别的语义特征；

3)通过步骤2)使用不同子网络的语义特征，每个分类器将获得一个分类器中间结果其中，i指的是分类器，并训练额外的置信度解码器使用不同子网络的语义特征来学习分类器的置信度ω_i，ω_i代表分类器i的置信度；

4)通过多分类器融合模块融合步骤3)中获取的中间结果，从而获得最终的预测结果，最终的决策过程用以下公式描述：

公式(1)表示解码器在不同层的融合预测分类最终结果Y，以及不同层解码器预测分类器级别的置信度ω_i，以及每个分类器的分类结果

5)由于在网络中引入多个分类器，每个分类器具有其相应的损失函数loss₁,loss₂,…,loss_n，每个损失函数是标准的交叉熵函数，损失函数的形式loss_final写成：

loss_final＝loss₁+loss₂+…+loss_n (2)

在模型中，为了训练置信度解码器，需要添加额外的损失：

其中，loss_fuse用于训练置信度ω_i，Loss是交叉熵损失，labels是真实的标注信息，是最终预测分类器级别的Y；分类器不同阶段的不同权重更有利于模型的训练，给每个损失函数增加一个权重系数：

Loss_final＝α₁×loss₁+α₂×loss₂+…+α_n+1×loss_fuse (4)

其中，α₁,…,α_n+1是指定设置的不同的权重,loss₁,…,loss_n用于训练分类器i的中间结果loss_fuse用于训练置信度ω_i，以此使得网络关注不同分类器的效果，从而集成了低级详细和高级语义信息，以提高图像识别任务的准确性。