CN110334738A - 用于图像识别的多分类网络的方法 - Google Patents

用于图像识别的多分类网络的方法 Download PDF

Info

Publication number
CN110334738A
CN110334738A CN201910485286.XA CN201910485286A CN110334738A CN 110334738 A CN110334738 A CN 110334738A CN 201910485286 A CN201910485286 A CN 201910485286A CN 110334738 A CN110334738 A CN 110334738A
Authority
CN
China
Prior art keywords
loss
classifier
network
different
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910485286.XA
Other languages
English (en)
Inventor
王智慧
厉建宾
张旭东
郭增源
马新柱
王宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910485286.XA priority Critical patent/CN110334738A/zh
Publication of CN110334738A publication Critical patent/CN110334738A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机秘密图像共享技术领域,提出了一种用于图像识别的多分类网络的方法,它集成了低级详细和高级语义信息,以提高图像识别任务的准确性。它在网络的中间层部分引入了额外的分类器,以尽可能简单和直接地使用低层信息。在获得基于浅层特征的中间结果后,我们探究有效的中间结果融合方法,以生成准确的最终结果。由于MCN是一种基于分类器的方法,因此它与其他基于特征提取器的方法兼容。本发明提供了图像识别任务的一种新方法,可以有效提高识别的准确率,为图像识别任务提供了一种新的解决方案。

Description

用于图像识别的多分类网络的方法
技术领域
本发明属于计算机图像识别技术领域,涉及一种用于图像识别的多分类网络的方法。
背景技术
如今,随着图像数据的增加,图像识别任务需求日益明显,图像识别的目标是识别图像中的对象,并理解图像上下文信息,例如:图像中的商品识别、车辆识别等。近年来,卷积神经网络(CNNs)在计算机视觉任务中取得了显着成就,成为图像识别的主要方法。CNNs网络中不同级别的特征包含不同的信息,浅层特征富含图像细节,而深层特征具有更强的语义信息。对于图像分类任务,通常使用更深的网络能够产生更高层的“语义”特征。最近,许多视觉识别相关研究证明,充分利用不同层次的特征可以有效地增强卷积神经网络(CNNs)的特征表示能力,例如:残差、门控和跳跃连接等特征分离模块被证明是非常有效的。除了生成更好的特征表示,还需要进一步探索如何有效的使用这些特征表示。现有的方法是将不同阶段的特征表示进行融合,使用单个分类器生成预测结果,但是即使使用这种特征聚合策略,这种方法也不能充分利用CNNs的潜力。如何获取CNNs不同级别的特征表示的潜力,并能够以自适应的方式使用这些特征表示对图像识别任务非常重要。
图像识别技术的相关研究现状如下:
Highway networks(Rupesh K S,KlausG,Jurgen S,et al.HighwayNetworks.CoRR,2015)和ResNet(He K M,Zhang X Y,Ren SQ,et al.Deep residuallearning for image recognition.CVPR,2016)使用短接路径将当前层的特征图传播到下一层,在许多具有挑战性的视觉任务上达到了很好的性能。DenseNets(Huang G,LiuZ,Laurens V D,et al.Densely Connected Convolutional Networks.CVPR,2017)旨在通过密集跳跃连接来更好地传播特征和损失,这些跳跃连接将所有层分阶段连接起来。DFN(Wang J D,WeiZ,Zhang T,et al.Deeply-Fused Nets.CoRR,2016),通过组合不同基础网络的中间层特征,来改善信息的传递。FPN(Lin TY,Piotr D,Rose B G,Featurepyramidnetworks for object detection.CVPR,2017)旨在通过自上而下和侧面连接来平衡金字塔特征层次不同分辨率和语义信息。然而,这些研究的重点是如何产生更好的特征表示,它们的研究不包括如何有效地使用这些特征。
除了获取更好的特征表示,还有一些关于分类器的研究。深度监督网络(DSN)(LeeC Y,Xie S N,PatrickWG,etal.Featurepyramid networks for objectdetection.AISTATS,2015)也采用多分类器策略,同时对每个分类器最小化分类损失,使隐藏层的学习过程直观和透明。然而,这些附加分类器仅为网络的中间层提供额外的监督信息,并且不利用浅层特征。HED(Xie Z,Tu Z W,Holistically-nested edgedetection.CVPR,2017)引入了一种深度监督的边缘检测方法,HED预测不同尺度的特征图上的检测结果,并使用这些中间输出的结果加权平均值作为最终结果。Qibin等人通过在HED架构内引入跳过层结构的短连接,提出了一种新的显着对象检测方法(Hou Q B,ChengM M,Hu XW,Deeplysupervisedsalient object detection with shortconnection.CVPR,2017),通过将浅层输出作为深层特征映射的附加通道。与这些方案相比,我们的方法研究了一些更有效的结果融合策略,以有效地使用这些不同层的特征信息。
发明内容
本发明的目的是提供一个基于多分类器的图像识别网络,通过有效的集成低级详细特征和高级语义特征,以提高图像识别任务的准确性。在这项工作中,我们提出了一种多分类器网络(MCN),以并行方式处理细节和语义信息,如图1所示。具体而言,MCN使用多个分类器来处理CNN的不同尺度的特征,并能够更好地利用不同规模的信息,得到更加准确的预测。MCN中引入了一个辅助分类器,能够直接优化网络的中间层,约束中间层学习判别性特征,每个分类器可以被视为一个梯度源,以此解决梯度消失的问题。本方案是一个通用模型,可以应用于现有的骨架结构,如VGG,ResNet,ResNeXt,DenseNet等。
本发明的技术方案:
一种基于多层特征融合的图像识别的多分类网络,其包括步骤:
1)构建多分类器网络主体结构,由一系列卷积,池化,全连接,以及激活函数构成的骨架结构;
2)将分类器将网络划分为多个子网络,如图1所示,每个子网络包含不同级别的语义特征;
3)通过步骤2)使用不同子网络的语义特征,每个分类器将获得一个分类器中间结果其中,i指的是分类器,并训练额外的置信度解码器,通过使用不同子网络的语义特征来学习分类器的置信度ωi,ωi代表了分类器i的置信度。
4)通过多分类器融合模块融合步骤3)中获取的中间结果,从而获得最终的预测结果,最终的决策过程可以用以下公式描述:
公式(1)Y表示解码器在不同层的融合预测分类最终结果,ωi表示不同层解码器预测了分类器级别的置信度,为每个分类器的分类结果。
5)由于在网络中引入多个分类器,每个分类器具有其相应的损失函数loss1,loss2,...,lossn(每个损失函数是标准的交叉熵函数),损失函数的形式lossfinal可以写成:
lossfinal=loss1+loss2+…+lossn(2)
在模型中,为了训练置信度解码器,我们需要添加额外的损失。
其中,lossfuse用于训练置信度ωi,Loss是交叉熵损失函数,labels是真实的标注信息,是最终预测分类器结果Y,在实验过程中,我们发现分类器不同阶段的不同权重更有利于模型的训练。所以我们给每个损失函数增加一个权重系数:
Lossfinal=α1×loss12×loss2+…+αn+1×lossfuse(4)
其中,α1,...,αn+1是指定设置的不同的权重,loss1,...,lossn用于训练分类器i的中间结果lossfuse用于训练置信度ωi,以此使得网络能够关注不同分类器的效果,从而集成了低级详细和高级语义信息,以提高图像识别任务的准确性。
在本发明的技术方案中,训练数据使用CIFAR10、CIFAR100两个数据集作为MCN的训练数据。构建基于多特征融合的多分类器结构,在CIFAR10和CIFAR100数据集中获取了较低的错误率,这意味着本发明的方案在多个数据集上都取得了很好的结果。
本发明的有益效果:本发明提出了基于多特征融合多分类器的网络,它集成了低级详细和高级语义信息,以提高图像识别任务的准确性。它在网络的浅层部分引入了额外的分类器,以尽可能简单和直接地使用低级信息。在获得基于浅层特征的中间结果后,我们探究有效的中间结果融合方法,以生成准确的最终结果。由于MCN是一种基于分类器的方法,因此它与其他基于特征提取器的方法(如ResNet和DenseNet)兼容。本发明提供了图像识别任务的一种新方法,可以有效提高识别的准确率,为图像识别任务提供了一种新的解决方案。
附图说明
图1为本发明的基于多特征融合的多分类器目标识别方案的网络结构图。
图2为本发明的多分类器结果融合与特征聚合网络结构比较图。
图3为本发明的多分类器结果融合与其他特征融合网络的结构比较图,(a)为深度监督网络,(b)为级联融合策略,(c)为残差融合策略,(d)为分类器结果融合策略。
图4为本发明的梯度传播模式的比较示意图,其中圆形代表梯度源,长方形代表特征图。
图5为本发明的MCN-ResNet-50在CIFAR100+数据集上的不同中间分类器结果融合的自适应置信度图。
图6为本发明的MCN-ResNet-34在ImageNet数据集上,基于类激活图(CAM)的可视化示意图,其中第一列为输入彩色图像,第二列至第四列为MCN-ResNet-34不同层的类激活图,第五列为ResNet-34的类激活图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面对本发明的具体实施方式作进一步的详细描述。
1)构建多分类器网络主体结构,由一系列卷积,池化,全连接,以及激活函数构成,如VGG,ResNet,ResNeXt等现有的骨架网络结构;
2)将分类器将网络划分为多个子网络,如图1所示,每个子网络包含不同级别的语义特征;
3)通过步骤2)使用不同子网络的语义特征,每个分类器将获得一个分类器中间结果Yi,其中,i指的是分类器,并训练额外的置信度解码器,通过使用不同子网络的语义特征来学习分类器的置信度ωi,ωi代表了分类器i的置信度。
4)通过多分类器融合模块融合步骤3)中获取的中间结果,从而获得最终的预测结果,最终的决策过程可以用以下公式描述:
公式(1)Y表示解码器在不同层的融合预测分类最终结果,ωi表示不同层解码器预测了分类器级别的置信度,为每个分类器的分类结果。
5)由于在网络中引入多个分类器,每个分类器具有其相应的损失函数loss1,loss2,...,lossn(每个损失函数是标准的交叉熵函数),损失函数的形式lossfinal可以写成:
lossfinal=loss1+loss2+…+lossn(2)
在模型中,为了训练置信度解码器,我们需要添加额外的损失。
其中,lossfuse用于训练置信度ωi,Loss是交叉熵损失函数,labels是真实的标注信息,是最终预测分类器结果Y,在实验过程中,我们发现分类器不同阶段的不同权重更有利于模型的训练。所以我们给每个损失函数增加一个权重系数:
Lossfinal=α1×loss12×loss2+…+αn+1×lossfuse(4)
其中,α1,...,αn+1是指定设置的不同的权重,loss1,...,lossn用于训练分类器i的中间结果lossfuse用于训练置信度ωi,以此使得网络能够关注不同分类器的效果,从而集成了低级详细和高级语义信息,以提高图像识别任务的准确性。
实施例
在本实施例中,在GTX Titan X,12G显卡的服务器上,使用XShell,Xftp终端模拟器以及Jupyter notebook交互式界面,采用较为稳定的深度学习框架tensorflow-GPU版本1.8.0,cuda版本为9.0.176。采用本发明提出的多分类器网络,结合低级详细特征和高级语义特征,以提高图像识别任务的准确性。
该方案可以应用于现有的骨架结构,如VGG,ResNet,ResNeXt,PreActResNet,DenseNet等网络骨架,方案通过融合不同层次的特征信息,以提高图像识别任务的准确性,如表1所示。
由于该方案对于输入数据,它能够获取不同层次更具有判别性的特征,因此,在不使用数据扩增技术时,也就是小数据集上,使用本文方案的效果提升更加明显,如表2所示。
在Lossfinal中,α1,...,αn+1是指定设置的不同的权重,实验中,设置不同的权重,能够影响最终方案的识别效果,本方案在三分类器结构中,参数设置为α1=0.3,α2=0.3,α3=0.6,α4=1,其中α4是lossfuse的权重,如表4所示。
表1为不同骨干网络下CIFAR10和CIFAR100上的错误率评估
表2为对CIFAR数据集上数据增强策略是否使用时的错误率差异评估
表3为CIFAR数据集上使用ResNet-110其他信息融合方法的错误率比较评测
表4为CIFAR数据集上使用ResNet-110不同损失的评估
参见表2,表3以及图4至图5,可见本发明的方案在图像识别任务中很好的结果。
以上所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (1)

1.一种用于图像识别的多分类网络的方法,其特征在于,所述的方法包括步骤:
1)构建多分类器网络主体结构,主要由一系列卷积、池化、全连接以及激活函数构成;
2)将多分类器网络划分为多个子网络,每个子网络包含不同级别的语义特征;
3)通过步骤2)使用不同子网络的语义特征,每个分类器将获得一个分类器中间结果其中,i指的是分类器,并训练额外的置信度解码器使用不同子网络的语义特征来学习分类器的置信度ωi,ωi代表分类器i的置信度;
4)通过多分类器融合模块融合步骤3)中获取的中间结果,从而获得最终的预测结果,最终的决策过程用以下公式描述:
公式(1)表示解码器在不同层的融合预测分类最终结果Y,以及不同层解码器预测分类器级别的置信度ωi,以及每个分类器的分类结果
5)由于在网络中引入多个分类器,每个分类器具有其相应的损失函数loss1,loss2,…,lossn,每个损失函数是标准的交叉熵函数,损失函数的形式lossfinal写成:
lossfinal=loss1+loss2+…+lossn (2)
在模型中,为了训练置信度解码器,需要添加额外的损失:
其中,lossfuse用于训练置信度ωi,Loss是交叉熵损失,labels是真实的标注信息,是最终预测分类器级别的Y;分类器不同阶段的不同权重更有利于模型的训练,给每个损失函数增加一个权重系数:
Lossfinal=α1×loss12×loss2+…+αn+1×lossfuse (4)
其中,α1,…,αn+1是指定设置的不同的权重,loss1,…,lossn用于训练分类器i的中间结果lossfuse用于训练置信度ωi,以此使得网络关注不同分类器的效果,从而集成了低级详细和高级语义信息,以提高图像识别任务的准确性。
CN201910485286.XA 2019-06-05 2019-06-05 用于图像识别的多分类网络的方法 Withdrawn CN110334738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910485286.XA CN110334738A (zh) 2019-06-05 2019-06-05 用于图像识别的多分类网络的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910485286.XA CN110334738A (zh) 2019-06-05 2019-06-05 用于图像识别的多分类网络的方法

Publications (1)

Publication Number Publication Date
CN110334738A true CN110334738A (zh) 2019-10-15

Family

ID=68141166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910485286.XA Withdrawn CN110334738A (zh) 2019-06-05 2019-06-05 用于图像识别的多分类网络的方法

Country Status (1)

Country Link
CN (1) CN110334738A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023050433A1 (zh) * 2021-09-30 2023-04-06 浙江大学 视频编解码方法、编码器、解码器及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832672A (zh) * 2017-10-12 2018-03-23 北京航空航天大学 一种利用姿态信息设计多损失函数的行人重识别方法
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832672A (zh) * 2017-10-12 2018-03-23 北京航空航天大学 一种利用姿态信息设计多损失函数的行人重识别方法
CN108595643A (zh) * 2018-04-26 2018-09-28 重庆邮电大学 基于多分类节点卷积循环网络的文本特征提取及分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘明等: "从局部分类精度到分类置信度的变换", 《计算机研究与发展》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023050433A1 (zh) * 2021-09-30 2023-04-06 浙江大学 视频编解码方法、编码器、解码器及存储介质

Similar Documents

Publication Publication Date Title
Hang et al. Classification of hyperspectral and LiDAR data using coupled CNNs
CN111897964B (zh) 文本分类模型训练方法、装置、设备及存储介质
Liao et al. Deep facial spatiotemporal network for engagement prediction in online learning
Shen et al. BBAS: Towards large scale effective ensemble adversarial attacks against deep neural network learning
JP7213358B2 (ja) アイデンティティ検証方法、アイデンティティ検証装置、コンピュータ機器、及びコンピュータプログラム
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN109376603A (zh) 一种视频识别方法、装置、计算机设备及存储介质
CN110097606A (zh) 面部合成
CN111738355B (zh) 注意力融合互信息的图像分类方法、装置及存储介质
Bhavana et al. Hand sign recognition using CNN
CN113762138B (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
US20230053911A1 (en) Detecting an object in an image using multiband and multidirectional filtering
CN107247952A (zh) 基于深层监督的循环卷积神经网络的视觉显著性检测方法
CN113569607A (zh) 动作识别方法、装置、设备以及存储介质
CN110334738A (zh) 用于图像识别的多分类网络的方法
Bartoli et al. Computer Vision–ECCV 2020 Workshops: Glasgow, UK, August 23–28, 2020, Proceedings, Part VI
CN111651626B (zh) 图像分类方法、装置及可读存储介质
CN112861977A (zh) 迁移学习数据处理方法、系统、介质、设备、终端及应用
Huang et al. Customized meta-dataset for automatic classifier accuracy evaluation
CN117156078B (zh) 一种视频数据处理方法、装置、电子设备及存储介质
CN113313039B (zh) 基于动作知识库与集成学习的视频行为识别方法及系统
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备
CN113709559B (zh) 视频划分方法、装置、计算机设备及存储介质
Zhang et al. BFR-RetinaNet: An Improved RetinaNet Model for Vehicle Detection in Aerial Images
Majtner HEp-2 cell image recognition with transferable cross-dataset synthetic samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20191015

WW01 Invention patent application withdrawn after publication