CN110826558B - 图像分类方法、计算机设备和存储介质 - Google Patents

图像分类方法、计算机设备和存储介质 Download PDF

Info

Publication number
CN110826558B
CN110826558B CN201911033072.5A CN201911033072A CN110826558B CN 110826558 B CN110826558 B CN 110826558B CN 201911033072 A CN201911033072 A CN 201911033072A CN 110826558 B CN110826558 B CN 110826558B
Authority
CN
China
Prior art keywords
candidate frames
layer
network
cnn
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911033072.5A
Other languages
English (en)
Other versions
CN110826558A (zh
Inventor
纪元法
黄铭洁
任风华
孙希延
蓝如师
陈小毛
严素清
付文涛
赵松克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201911033072.5A priority Critical patent/CN110826558B/zh
Publication of CN110826558A publication Critical patent/CN110826558A/zh
Application granted granted Critical
Publication of CN110826558B publication Critical patent/CN110826558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开图像分类方法、计算机设备和存储介质,使用深度残差网络提取特征,得到特征图,解决了网络退化、梯度消失的问题,提取了更多有用的特征信息,所花费的时间也将更短;采用优化后的区域建议网络,过滤掉很多无用的候选框,使筛选下来的候选框置信度更高,对判别图像更有效;采用了稀疏化B‑CNN,提高关键特征的显著性,有效解决训练集不是很大时产生过拟合的影响,提高了识别准确度;本申请实施例将优化后的优化后的区域建议网络和稀疏化B‑CNN网络融为一体,两个网络相互协调作用,较大地提高了细粒度图像分类的准确度以及减少了花费的时间。

Description

图像分类方法、计算机设备和存储介质
技术领域
本申请涉及图像处理技术领域,技术领域,尤其涉及图像分类方法、计算机设备和存储介质。
背景技术
细粒度图像分类是计算机视觉领域一个重要的研究方向,不同于粗粒度图像分类,细粒度图像分类主要目的是对图像进行细致的子类划分。相比粗粒度图像分类,细粒度图像分类更关注图像中微小但十分重要的局部特征,因此细粒度图像分类的难度更大。
RPN(Region Proposal Network,区域建议网络)的作用是输入一张图像,输出置信度排名前N个目标可能存在的区域。RPN第一次出现在Faster RCNN这个结构中,专门用来提取候选框,在RCNN和Fast RCNN等物体检测架构中,用来提取候选框的方法通常是Selective Search(选择性搜索),是比较传统的方法,而且比较耗时,在CPU上要2秒一张图,所以作者提出RPN,专门用来提取候选框,一方面RPN耗时少,另一方面RPN可以很容易结合到Fast RCNN中,称为一个整体。
B-CNN(Bilinear CNN,双线性BNN)模型则同时解决了图像分类任务中存在的精度高和效率低不可同时存在的问题,它只需要训练集样本的标签,不需要目标的边界框及部件的标注,同时又有较高的准确率。B-CNN主要依靠2个D-Net(Deep CNN)如VGG-16同时提取图像中某一图像块的图像特征与位置特征,组合成为一个双线性特征用于分类,因此B-CNN适用于细粒度图像分类任务。但是,B-CNN的特征提取网络采用VGG-16网络深度较深,参数较多,容易造成过拟合现象,模型在测试集上准确率与训练集相差较大。目前许多方法可以避免过拟合,但细粒度图像分类关注于局部关键特征,一些防止过拟合的方法容易造成关键特征丢失。因此,稀疏化B-CNN就应运而生,它能消除网络过拟合,提高关键特征的显著性。稀疏化B-CNN属于弱监督学习,可实现端到端训练。
针对细粒度分类子类别间细微的类间差异、较大的类内差异、依赖大量人工标注信息、过拟合导致关键特征丢失等问题,本发明提出了一种基于RPN与稀疏化B-CNN的细粒度图像分类算法。
申请内容
因此,有必要提供一种图像分类方法、计算机设备和存储介质,以解决细粒度图像分类中采用B-CNN模型容易造成过拟合现象、模型在测试集上准确率与训练集相差较大的技术问题。
为实现上述目的,本申请提出一种图像分类方法,所述方法包括:
将数据集图片放入深度残差网络中提取特征,得到特征图;
将所述特征图作为优化后的区域建议网络的输入,所述优化后的区域建议网络选择出代表所述数据集图片类别特征的目标所在区域,将所述目标所在区域放入全连接层,得到得分最高的N个候选框,N是大于1的整数;
根据所述N个候选框得到目标候选框,将所述目标候选框作为稀疏化双线性CNN网络结构的输入,所述稀疏化双线性CNN网络结构包括第一特征提取函数和第二特征提取函数,所述第一特征提取函数用于对物体的局部信息进行检测定位,所述第二特征提取函数用于对第一特征提取函数检测到的局部信息进行特征提取;
将所述第一特征提取函数和第二特征提取函数所得到的特征相加后,经过双线性池化,作为最后提取的特征向量,将所述最后提取的特征向量输入softmax层进行分类,得到细粒度图像分类结果。
在一些实施例中,所述将所述特征图作为优化后的区域建议网络的输入,所述优化后的区域建议网络选择出代表所述数据集图片类别特征的目标所在区域,将所述目标所在区域放入全连接层,得到得分最高的N个候选框的步骤,具体包括:
将所述特征图作为优化后的区域建议网络的输入,经过第一卷积层,得到多通道特征图;
将所述多通道特征图的每一个锚点生成一系列候选框,将所述候选框输入到RPN网络的分类层和回归层,所述分类层对所述候选框进行分类,确定所述候选框是前景候选框还是背景候选框,对所述候选框打分,同时在所述回归层对其进行初步回归,通过计算所述前景候选框与实际候选框的偏差值对所述前景候选框进行调整修正;
调整过的候选框根据相应的比例将其映射到原始图像中,判断映射后候选框是否大范围超过边界,剔除严重超出边界的候选框;
按照所述分类层生成的得分将所述候选框进行从大到小排序,提取前Y个候选框,Y是大于1的整数,对Y个候选框进行软化非极大值处理,将软化非极大值处理后得到的候选框再次排序,输出N个候选框,其中N<Y。
在一些实施例中,
所述分类层为所述候选框时输出检测框Di以及对应的得分fi
所述检测框Di以及其得分fi的计算如下:
Figure GDA0002289852300000031
其中,Si是重叠框的交集的面积;S是重叠框的并集的面积;
所述对Y个候选框进行软化非极大值处理时的计算算式如下:
Figure GDA0002289852300000032
其中,τ为常数阈值。
在一些实施例中,根据所述N个候选框得到目标候选框,将所述目标候选框作为稀疏化双线性CNN网络结构的输入的步骤具体包括:
将得到的所述N个候选框经过ROI池化层处理后,输出固定尺寸的目标候选框,将所述目标候选框作为稀疏化双线性CNN结构的输入。
在一些实施例中,所述稀疏化双线性CNN网络结构利用批归一化层的比例因子γ组成稀疏层,嵌入在双线性CNN每个第二卷积层后,所述稀疏层中每个比例因子γ与第二卷积层的每个输出在批归一化层中相乘,以筛选特征通道,所述比例因子γ范围为0.001~1.5。
在一些实施例中,所述方法还包括:
批归一化层对小批量输入进行归一化操作,使内部激活标准化,定义xin和xout作为所述批归一化层的输入和输出,B为当前的小批量,批归一化层执行的转换如下:
Figure GDA0002289852300000041
Figure GDA0002289852300000042
Figure GDA0002289852300000043
其中,m是小批量训练数据的数量,i代表此时相加的数据是xi,过程是从x1加到xm,μB和σB分别为小批量B输入激活的平均值和标准偏差值,
Figure GDA0002289852300000044
为对输入xin标准化处理后的输出,其中ε是为了避免除数为0时所使用的微小正数,比例因子γ、β为可训练的仿射变换参数,能将标准化激活线性变换到任何尺度,它们是在训练时网络自己学习到的。
在一些实施例中,所述方法还包括:
在双线性CNN的训练目标函数中添加稀疏惩罚项,以控制比例因子在训练过程中的稀疏性:
训练目标函数
Figure GDA0002289852300000045
其中,第1项l为原双线性CNN的损失函数,采用交叉熵损失函数
Figure GDA0002289852300000046
p(x)为交叉熵函数准确值,q(x)为交叉熵函数预测值,l交叉熵计算值为两者概率分布的距离;(x,y)为输入图像和真实标签;W为可训练的权重.式6中第二项
Figure GDA0002289852300000047
为稀疏惩罚项,g(γ)为对比例因子γ的正则化操作,λ为控制稀疏程度的参数,防止稀疏比例因子过多而丢失重要通道特征,g(·)选用L2正则化,L2正则化处理为
Figure GDA0002289852300000051
Figure GDA0002289852300000052
其中,Φ(I)为通过特征函数输出获得双线性特征,用于提高双线性CNN的性能,y是经过式(9)运算后的结果,z为L2正则化处理y后的结果;
经过通道级稀疏后,网络具有众多接近于0的比例因子,裁剪所述比例因子实现特征通道的修剪。
在一些实施例中,所述方法还包括:
所述稀疏化双线性CNN整体架构为有向非循环图,计算特征提取网络梯度以实现端到端训练,
在训练中对裁剪后的双线性CNN进行微调,以提高分类精度。
为实现上述目的,本申请还提出一种计算机设备,所述计算机设备包括处理器、存储器和通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述计算机设备还包括存储在所述存储器上并可在所述处理器上运行的图像分类程序,所述图像分类程序被所述处理器执行时实现如上述的图像分类方法的步骤。
为实现上述目的,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有图像分类程序,所述图像分类程序被所述处理器执行时实现如上述的图像分类方法的步骤。
本申请实施例提供的图像分类方法、计算机设备和存储介质,使用深度残差网络提取特征,得到特征图,解决了网络退化、梯度消失的问题,提取了更多有用的特征信息,所花费的时间也将更短;采用优化后的区域建议网络,过滤掉很多无用的候选框,使筛选下来的候选框置信度更高,对判别图像更有效;采用了稀疏化B-CNN,提高关键特征的显著性,有效解决训练集不是很大时产生过拟合的影响,提高了识别准确度;本申请实施例将优化后的优化后的区域建议网络和稀疏化B-CNN网络融为一体,两个网络相互协调作用,较大地提高了细粒度图像分类的准确度以及减少了花费的时间。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本申请实施例图像分类方法的流程图;
图2是本申请实施例的图像分类方法的方法原理图;
图3是本申请实施例图像分类方法的流程图;
图4是本申请另一实施例图像分类方法的流程图;
图5是本申请实施例的图像分类方法的执行流程图;
图6是本申请实施例的图像分类方法的梯度计算图;
图7是本申请另一实施例的图像分类装置的执行流程图;
图8是本申请实施例的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
在本申请中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
实施例一
稀疏化B-CNN能消除网络过拟合,提高关键特征的显著性。稀疏化B-CNN属于弱监督学习,可实现端到端训练。针对图像细粒度分类子类别间细微的类间差异、较大的类内差异、依赖大量人工标注信息、过拟合导致关键特征丢失等问题,本申请提出图像分类方法,具体是基于RPN与稀疏化B-CNN的细粒度图像分类算法。本申请提出的基于RPN与稀疏化B-CNN的细粒度图像分类算法主要由ResNet网络(深度残差网络)、经Soft-NMS优化后的RPN和经过网络剪枝稀疏化处理过的双线性卷积神经网络三部分组成。图1为本申请实施例图像分类方法的流程图,图2为方法原理图。如图1和图2所示,本申请实施例提供图像分类方法,所述方法包括:
步骤1、将数据集图片放入深度残差网络(ResNet网络)中提取特征,得到特征图;
步骤2、将所述特征图作为优化后的区域建议网络的输入,所述优化后的区域建议网络选择出代表所述数据集图片类别特征的目标所在区域,将所述目标所在区域放入全连接层,得到得分最高的N个候选框,N是大于1的整数;
将特征图作为优化后的RPN的输入,经过RPN阶段后,选择出置信度更高、更能代表该图像类别特征的目标所在区域。将所得目标所在区域放入一个全连接层(FC Layer),将不同特征整合在一起,最后得到得分最高的候选框。
步骤3、根据所述N个候选框得到目标候选框,将所述目标候选框作为稀疏化双线性CNN网络结构的输入,所述稀疏化双线性CNN网络结构包括第一特征提取函数(Stream A)和第二特征提取函数(Stream B),所述第一特征提取函数用于对物体的局部信息进行检测定位,所述第二特征提取函数用于对第一特征提取函数检测到的局部信息进行特征提取;
步骤4、将所述第一特征提取函数和第二特征提取函数所得到的特征相加后,经过双线性池化,作为最后提取的特征向量,将所述最后提取的特征向量输入softmax层进行分类,得到细粒度图像分类结果。
本申请实施例提供的图像分类方法,使用深度残差网络提取特征,得到特征图,解决了网络退化、梯度消失的问题,提取了更多有用的特征信息,所花费的时间也将更短;采用优化后的区域建议网络,过滤掉很多无用的候选框,使筛选下来的候选框置信度更高,对判别图像更有效;采用了稀疏化B-CNN,提高关键特征的显著性,有效解决训练集不是很大时产生过拟合的影响,提高了识别准确度;本申请实施例将优化后的优化后的区域建议网络和稀疏化B-CNN网络融为一体,两个网络相互协调作用,较大地提高了细粒度图像分类的准确度以及减少了花费的时间。
在一些实施例中,所述将所述特征图作为优化后的区域建议网络的输入,所述优化后的区域建议网络选择出代表所述数据集图片类别特征的目标所在区域,将所述目标所在区域放入全连接层,得到得分最高的N个候选框的步骤,具体包括:
将所述特征图作为优化后的区域建议网络的输入,经过卷积层,得到多通道特征图;
将所述多通道特征图的每一个锚点生成一系列候选框,将所述候选框输入到RPN网络的分类层和回归层,所述分类层对所述候选框进行分类,确定所述候选框是前景候选框还是背景候选框,对所述候选框打分,同时在所述回归层对其进行初步回归,通过计算所述前景候选框与实际候选框的偏差值对所述前景候选框进行调整修正;
调整过的候选框根据相应的比例将其映射到原始图像中,判断映射后候选框是否大范围超过边界,剔除严重超出边界的候选框;
按照所述分类层生成的得分将所述候选框进行从大到小排序,提取前Y个候选框,Y是大于1的整数,对Y个候选框进行soft-NMS处理,将soft-NMS处理后得到的候选框再次排序,输出N个候选框,其中N<Y。
图3是本申请实施例图像分类方法的流程框图。具体地,如图3所示,ResNet50作为算法的提取特征网络结构,经过多次卷积、激活和池化,输入为14*14*256的卷积图,为之后的提取目标候选框(得分最高的N个候选框)服务,优化后的RPN作为获取目标所在区域,目的是为了获得目标候选框,RPN输出的候选框再经过全连接层,把不同特征整合在一起,然后进入ROI池化层,作用是把所有候选框统一尺寸。稀疏化B-CNN作为目标候选框识别结构,利用提取不同目标候选框的图像和位置特征进行图片细粒化分类。
首先采用ResNet来提取图片的特征图,再将特征图输入到优化后的RPN网络中,优化的RPN网络筛选出对最终识别结果影响大的样本,去除了对识别结果影响小的样本,这样可有效防止过拟合,得到置信度较高的目标候选框。具体方法流程如图4所示。
RetNet输出的特征图经过的卷积层相当于一个3*3的滑动窗口,选取所有可能的区域,经过滑动窗口后,得到一个256通道的特征图。将特征图的每一个锚点生成一系列候选框,一般一个锚点生成9个候选框,接下来要对特征图中的每个特征向量做两次全卷积操作,一次可视作分类层得到2个分数,作用是判断该候选框是前景还是背景,为其打分,一次可视作回归层得到4个坐标,作用是对候选框进行微调,使得前景候选框与实际候选框更为接近,然后将这些候选框映射回原图,判断它们是否大范围超过边界,按照分类层生成的分数进行从大到小排序,提取前2000个候选框,对着2000个候选框进行Soft-NMS处理,将得到再次排序,输出300个候选框。
RPN网络输出的检测框(矩形目标框)Di,其得分fi的计算如下:
Figure GDA0002289852300000091
其中,Si是重叠框的交集的面积;S是重叠框的并集的面积。
由于锚点经常重叠,因此建议最终也会在同一个目标上重叠。为了解决重复建议的问题,本申请使用一个简单的算法,称为Soft-NMS(软化非极大值处理),NMS(非极大值抑制)是RPN中重要的组成部分。RPN输出一系列的检测框Di以及对应的分数fi。常规的NMS设置常数阈值τ,当检测框的得分大于阈值τ,将其放入最终的检测结果集合D。同时,集合D中任何与检测框M的重叠部分大于重叠阈值τ的检测框,被强制归零并移除。NMS算法中的最大问题就是将相邻检测框的分数均强制归零后,如果真实的物体在重叠区域出现,则将导致对该物体的检测失败并降低了算法的平均检测率。Soft-NMS不将大于阈值τ的相邻目标框得分重置为0,而是乘以一个衰减函数。选取所有的目标候选框中得分最高的N个,这样可以有效减少假阴性的概率,提高平均识别率。具体计算如下:
Figure GDA0002289852300000101
获取目标区域算法步骤如下:
Step 1:原图片经过ResNet-50后,经过多次卷积、池化、激活后,选取res4a_branch2a的conv2D进行输出,输出为14*14*256的特征图,将该特征图作为RPN网络的输入,首先经过一个3x3的卷积,得到一个256维特征图。
Step 2:将Step 1得到的特征图上的每一个锚点上取9个候选框。
Step 3:将候选框输入到RPN网络的分类层和回归层,分类层生成对这些候选框进行分类,确定这些候选框是前景还是背景,对其打分,同时在回归层对其进行初步回归,通过计算这些前景候选框与真实目标(实际候选框)之间的偏差值对前景候选框进行调整修正,使之与真实的前景框更为接近。
Step 4:将Step 3调整过的候选框根据相应的比例将其映射到原始图像中,判断它是否大范围超过边界,剔除严重超出边界的。
Step 4:将Step 4一系列的检测框Di以及对应的分数fi用Soft-NMS处理,选取所有的目标框中得分最高的前N个候选框。
将获取到的N个目标候选框经过ROI池化层处理后,输出固定尺寸的目标候选框,将提取好的目标候选框作为稀疏化B-CNN结构的输入,其网络结构如图5所示。
BN层(批归一化层)和卷积层,激活层,全连接层一样,也是属于神经网络中的一层。稀疏化双线性神经网络结构利用BN层的比例因子组成稀疏层,嵌入在B-CNN每个卷积层后,稀疏层中每个比例因子γ与卷积层的每个输出在BN层中相乘,达到筛选特征通道的目的。比例因子范围最高为1.5,最低为0.001,该模型手动设置裁剪阈值,设置阈值大概取大于0.9的部分,使百分之四十不重要通道失效,最后经过网络微调消除通道裁剪的影响,提高准确率。
实现通道级稀疏的主要方法是修剪与特征通道关联的连接,但在预训练模型上的输入或输出的权重不可能为零或接近零,因此通道级的稀疏无法直接作用于预训练模型上。B-CNN为基于VGG-16在ImageNet数据集上的预训练模型,常采用分组最小角回归算法,训练期间将所有对应于相同特征通道的权重滤波器逼近于零,从而实现预训练模型上的稀疏过程。但是,这需要额外计算针对所有权重滤波器附加的正则化梯度,模型训练时间开销大,而利用BN层比例因子对B-CNN通道级稀疏的方案可以解决这些困难。
对每个特征通道引入一个对应的比例因子γ(γ≥0),如图7所示,γ组成的稀疏层实现特征通道筛选功能,稀疏层的构造利用BN层的正则化激活方式。可以设计一种简单有效的方法用于合并通道的比例因子,BN层对小批量输入进行归一化操作,使内部激活标准化,若令xin和xout作为BN层的输入和输出,B为当前的小批量,BN层执行的转换如下:
Figure GDA0002289852300000111
Figure GDA0002289852300000112
Figure GDA0002289852300000113
其中,m是小批量训练数据的数量,i代表此时相加的数据是xi,过程是从x1加到xm,μB和σB分别为小批量B输入激活的平均值和标准偏差值,
Figure GDA0002289852300000121
为对输入xin标准化处理后的输出,其中ε是为了避免除数为0时所使用的微小正数,比例因子γ、β为可训练的仿射变换参数,能将标准化激活线性变换到任何尺度,它们是在训练时网络自己学习到的。
将拥有通道级的比例与移位参数的BN层插入到卷积层之后,可直接利用BN层中的γ进行网络稀疏化。这种方法不需要引入任何额外开销,实验中发现这是通道比例因子剪枝的有效方法。理由如下:1)如果未利用BN层实现稀疏化,则比例因子对于评估特征通道的重要性无意义,因为卷积层和稀疏层都是线性变换。通过在卷积层中放大权重的同时减小比例因子,可获得相同的结果;2)如果将含有比例因子的稀疏层插入在BN层之前,缩放层的缩放效果将被BN层一化处理而失去作用;3)如果将含有比例因子的稀疏层插入在BN层之后,则每个特征通道会有两个连续的比例因子。
为了控制比例因子在训练过程中的稀疏性,在B-CNN的训练目标函数中添加稀疏惩罚项。训练目标函数
Figure GDA0002289852300000122
其中,第1项l为原B-CNN的损失函数,这里采用交叉熵损失函数
Figure GDA0002289852300000123
p(x)为交叉熵函数准确值,q(x)为交叉熵函数预测值,l交叉熵计算值为两者概率分布的距离。(x,y)为输入图像和真实标签;W为可训练的权重.式(6)中第二项
Figure GDA0002289852300000124
为稀疏惩罚项,g(γ)为对比例因子γ的正则化操作,λ为控制稀疏程度的参数,防止稀疏比例因子过多而丢失重要通道特征,g(·)选用L2正则化,L2正则化处理为
Figure GDA0002289852300000125
Figure GDA0002289852300000126
其中,Φ(I)为通过特征函数输出获得双线性特征,进一步提高B-CNN的性能,y是经过式(9)运算后的结果,z为L2正则化处理y后的结果;
经过通道级稀疏后,网络具有众多接近于0的比例因子,裁剪所述比例因子实现特征通道的修剪。如图5所示,在剪枝操作中引入一个阈值,对比例因子进行一定比例的裁剪。裁剪后的B-CNN更紧凑,含有更少的参数和更低的模型复杂度,从而避免过拟合。此外,稀疏化B-CNN整体架构为有向非循环图,只需计算特征提取网络梯度就可实现端到端训练,梯度计算图6所示。
综上所述,B-CNN网络进行稀疏剪枝的步骤如下所示。裁剪后的B-CNN识别率有一定程度的下降,但在训练中对裁剪后的B-CNN进行微调,可进一步提高分类精度。
Step 1:将原来的B-CNN结构添加稀疏层仅训练最后一层;
Step 2:将所有的结构联合起来,训练所有的权重和比例因子;
Step 3:设置一个剪枝阈值;
Step 4:微调剪枝后的B-CNN,可进一步提高分类精度。
本申请实施例的图像分类方法,采用的稀疏化B-CNN,利用稀疏层中的比例因子与特征通道相连,通过稀疏正则化调节比例因子的稀疏性,实现B-CNN中特征通道的稀疏性,即对贡献低的特征通道值降低至零或接近零,降低不重要特征通道对最后分类层的影响,可明显改善细粒度图像分类精度。通过设置全局裁剪率,裁剪一定比例的特征通道,使网络忽略对识别结果影响低的特征,提高关键特征的显著性,有效解决训练集不是很大时产生过拟合的影响。在分类层,采用softmax分类器对图片进行分类。
本申请实施例的图像分类方法,将专门提取候选框的RPN和经过网络剪枝稀疏化处理的B-CNN网络结合起来,利用RPN网络自动输出对象级标注,不需要部位级标注,避免标注对象部位花费的精力,稀疏化后的B-CNN网络整体框架结构不变而复杂度降低,提高关键特征的显著性,有效解决训练集不是很大时产生过拟合的影响,进一步提高了方法在细粒度图像数据集上的识别准确度。
实施例二
如图8所示,本申请第二实施例提供一种计算机设备5,所述计算机设备5包括通信总线、存储器51和处理器52。所述计算机设备5还包括存储在所述存储器51上并可在所述处理器52上运行的图像分类程序;所述通信总线用于实现处理器和存储器之间的连接通信;
所述图像分类程序被所述处理器52执行时,用于实现以下所述的图像分类方法的步骤:
所述方法包括:
步骤1、将数据集图片放入深度残差网络(ResNet网络)中提取特征,得到特征图;
步骤2、将所述特征图作为优化后的区域建议网络的输入,所述优化后的区域建议网络选择出代表所述数据集图片类别特征的目标所在区域,将所述目标所在区域放入全连接层,得到得分最高的N个候选框;
步骤3、根据所述N个候选框得到目标候选框,将所述目标候选框作为稀疏化双线性CNN网络结构的输入,所述稀疏化双线性CNN网络结构包括第一特征提取函数(Stream A)和第二特征提取函数(Stream B),所述第一特征提取函数用于对物体的局部信息进行检测定位,所述第二特征提取函数用于对第一特征提取函数检测到的局部信息进行特征提取;
步骤4、将所述第一特征提取函数和第二特征提取函数所得到的特征相加后,经过双线性池化,作为最后提取的特征向量,将所述最后提取的特征向量输入softmax层进行分类,得到细粒度图像分类结果。
本申请实施例提供的图像分类方法,使用深度残差网络提取特征,得到特征图,解决了网络退化、梯度消失的问题,提取了更多有用的特征信息,所花费的时间也将更短;采用优化后的区域建议网络,过滤掉很多无用的候选框,使筛选下来的候选框置信度更高,对判别图像更有效;采用了稀疏化B-CNN,提高关键特征的显著性,有效解决训练集不是很大时产生过拟合的影响,提高了识别准确度;本申请实施例将优化后的优化后的区域建议网络和稀疏化B-CNN网络融为一体,两个网络相互协调作用,较大地提高了细粒度图像分类的准确度以及减少了花费的时间。
需要说明的是,本实施例的计算机设备,与第一实施例的方法属于同一构思,其具体实现过程详细见方法实施例,且方法实施例中的技术特征在本实施例中均对应适用,这里不再赘述。
实施例三
本申请第三实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像分类程序,所述图像分类程序被处理器执行时用于实现第一实施例所述的图像分类方法的步骤。
需要说明的是,本实施例的计算机可读存储介质,与第一实施例的方法属于同一构思,其具体实现过程详细见方法实施例,且方法实施例中的技术特征在本实施例中均对应适用,这里不再赘述。
本申请实施例的计算机可读存储介质,使用深度残差网络提取特征,得到特征图,解决了网络退化、梯度消失的问题,提取了更多有用的特征信息,所花费的时间也将更短;采用优化后的区域建议网络,过滤掉很多无用的候选框,使筛选下来的候选框置信度更高,对判别图像更有效;采用了稀疏化B-CNN,提高关键特征的显著性,有效解决训练集不是很大时产生过拟合的影响,提高了识别准确度;本申请实施例将优化后的优化后的区域建议网络和稀疏化B-CNN网络融为一体,两个网络相互协调作用,较大地提高了细粒度图像分类的准确度以及减少了花费的时间。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上参照附图说明了本申请的优选实施例,并非因此局限本申请的权利范围。本领域技术人员不脱离本申请的范围和实质内所作的任何修改、等同替换和改进,均应在本申请的权利范围之内。

Claims (10)

1.一种图像分类方法,其特征在于,所述方法包括:
将数据集图片放入深度残差网络中提取特征,得到特征图;
将所述特征图作为经Soft-NMS优化后的区域建议网络的输入,所述经Soft-NMS优化后的区域建议网络选择出代表所述数据集图片类别特征的目标所在区域,将所述目标所在区域放入全连接层,得到得分最高的N个候选框,N是大于1的整数;
根据所述N个候选框得到目标候选框,将所述目标候选框作为稀疏化B-CNN网络结构的输入,所述稀疏化B-CNN网络结构包括第一特征提取函数和第二特征提取函数,所述第一特征提取函数用于对物体的局部信息进行检测定位,所述第二特征提取函数用于对第一特征提取函数检测到的局部信息进行特征提取;
将所述第一特征提取函数和第二特征提取函数所得到的特征相加后,经过双线性池化,作为最后提取的特征向量,将所述最后提取的特征向量输入softmax层进行分类,得到细粒度图像分类结果。
2.根据权利要求1所述的方法,其特征在于,将所述特征图作为经Soft-NMS优化后的区域建议网络的输入,所述经Soft-NMS优化后的区域建议网络选择出代表所述数据集图片类别特征的目标所在区域,将所述目标所在区域放入全连接层,得到得分最高的N个候选框的步骤,具体包括:
将所述特征图作为经Soft-NMS优化后的区域建议网络的输入,经过第一卷积层,得到多通道特征图;
将所述多通道特征图的每一个锚点生成一系列候选框,将所述候选框输入到RPN网络的分类层和回归层,所述分类层对所述候选框进行分类,确定所述候选框是前景候选框还是背景候选框,对所述候选框打分,同时在所述回归层对其进行初步回归,通过计算所述前景候选框与实际候选框的偏差值对所述前景候选框进行调整修正;
调整过的候选框根据相应的比例将其映射到原始图像中,判断映射后候选框是否大范围超过边界,剔除严重超出边界的候选框;
按照所述分类层生成的得分将所述候选框进行从大到小排序,提取前Y个候选框,Y是大于1的整数,对Y个候选框进行软化非极大值处理,将软化非极大值处理后得到的候选框再次排序,输出N个候选框,其中N<Y。
3.根据权利要求2所述的方法,其特征在于,
所述分类层为所述候选框时输出检测框Di以及对应的得分fi
所述检测框Di以及其得分fi的计算如下:
Figure FDA0003751526780000021
其中,Si是重叠框的交集的面积;S是重叠框的并集的面积;
所述对Y个候选框进行软化非极大值处理时的计算算式如下:
Figure FDA0003751526780000022
其中,τ为常数阈值。
4.根据权利要求3所述的方法,其特征在于,根据所述N个候选框得到目标候选框,将所述目标候选框作为稀疏化B-CNN网络结构的输入的步骤具体包括:
将得到的所述N个候选框经过ROI池化层处理后,输出固定尺寸的目标候选框,将所述目标候选框作为稀疏化B-CNN结构的输入。
5.根据权利要求1所述的方法,其特征在于,所述稀疏化B-CNN网络结构利用批归一化层的比例因子γ组成稀疏层,嵌入在B-CNN每个第二卷积层后,所述稀疏层中每个比例因子γ与第二卷积层的每个输出在批归一化层中相乘,以筛选特征通道,所述比例因子γ范围为0.001~1.5。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
批归一化层对小批量输入进行归一化操作,使内部激活标准化,定义xin和xout作为所述批归一化层的输入和输出,B为当前的小批量,批归一化层执行的转换如下:
Figure FDA0003751526780000031
Figure FDA0003751526780000032
Figure FDA0003751526780000033
其中,m是小批量训练数据的数量,i代表此时相加的数据是xi,过程是从x1加到xm,μB和σB分别为小批量B输入激活的平均值和标准偏差值,
Figure FDA0003751526780000034
为对输入xin标准化处理后的输出,其中ε是为了避免除数为0时所使用的微小正数,比例因子γ、β为可训练的仿射变换参数,能将标准化激活线性变换到任何尺度,它们是在训练时网络自己学习到的。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在B-CNN的训练目标函数中添加稀疏惩罚项,以控制比例因子在训练过程中的稀疏性:
训练目标函数
Figure FDA0003751526780000035
其中,l为原B-CNN的损失函数,采用交叉熵损失函数:
Figure FDA0003751526780000036
p(x)为交叉熵函数准确值,q(x)为交叉熵函数预测值,l交叉熵计算值为两者概率分布的距离;(x,y)为输入图像和真实标签;W为可训练的权重,式(6)中
Figure FDA0003751526780000037
为稀疏惩罚项,g(γ)为对比例因子γ的正则化操作,λ为控制稀疏程度的参数,防止稀疏比例因子过多而丢失重要通道特征,g(·)选用L2正则化,L2正则化处理为
Figure FDA0003751526780000041
Figure FDA0003751526780000042
其中,Φ(I)为通过特征函数输出获得双线性特征,用于提高B-CNN的性能,y是经过式(9)运算后的结果,z为L2正则化处理y后的结果;
经过通道级稀疏后,网络具有众多接近于0的比例因子,裁剪所述比例因子实现特征通道的修剪。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
所述稀疏化B-CNN整体架构为有向非循环图,计算特征提取网络梯度以实现端到端训练,
在训练中对裁剪后的B-CNN进行微调,以提高分类精度。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器和通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述计算机设备还包括存储在所述存储器上并可在所述处理器上运行的图像分类程序,所述图像分类程序被所述处理器执行时实现如权利要求1至8中任一项所述的图像分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像分类程序,所述图像分类程序被处理器执行时实现如权利要求1至8中任一项所述的图像分类方法的步骤。
CN201911033072.5A 2019-10-28 2019-10-28 图像分类方法、计算机设备和存储介质 Active CN110826558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911033072.5A CN110826558B (zh) 2019-10-28 2019-10-28 图像分类方法、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911033072.5A CN110826558B (zh) 2019-10-28 2019-10-28 图像分类方法、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110826558A CN110826558A (zh) 2020-02-21
CN110826558B true CN110826558B (zh) 2022-11-11

Family

ID=69551097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911033072.5A Active CN110826558B (zh) 2019-10-28 2019-10-28 图像分类方法、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110826558B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414821B (zh) * 2020-03-11 2023-12-19 北京市商汤科技开发有限公司 目标检测方法及相关装置
CN111882525A (zh) * 2020-07-01 2020-11-03 上海品览数据科技有限公司 一种基于lbp水印特征和细粒度识别的图像翻拍检测方法
CN112861970B (zh) * 2021-02-09 2023-01-03 哈尔滨工程大学 一种基于特征融合的细粒度图像分类方法
CN113592807B (zh) * 2021-07-28 2024-04-09 北京世纪好未来教育科技有限公司 一种训练方法、图像质量确定方法及装置、电子设备
CN113744292A (zh) * 2021-09-16 2021-12-03 安徽世绿环保科技有限公司 一种垃圾分类站垃圾投放扫描系统
CN115410184A (zh) * 2022-08-24 2022-11-29 江西山水光电科技股份有限公司 一种基于深度神经网络的目标检测车牌识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
CN108052881A (zh) * 2017-11-30 2018-05-18 华中科技大学 一种实时检测施工现场图像中多类实体对象的方法及设备
WO2019108252A1 (en) * 2017-12-03 2019-06-06 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN109902732B (zh) * 2019-02-22 2021-08-27 哈尔滨工业大学(深圳) 车辆自动分类方法及相关装置
CN110084234B (zh) * 2019-03-27 2023-04-18 东南大学 一种基于实例分割的声呐图像目标识别方法
CN110110719A (zh) * 2019-03-27 2019-08-09 浙江工业大学 一种基于注意层区域卷积神经网络的目标检测方法
CN110222787B (zh) * 2019-06-14 2022-10-14 合肥工业大学 多尺度目标检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110826558A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110826558B (zh) 图像分类方法、计算机设备和存储介质
EP3690742A1 (en) Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same
CN110287960B (zh) 自然场景图像中曲线文字的检测识别方法
CN106845421B (zh) 基于多区域特征与度量学习的人脸特征识别方法及系统
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
US20170124409A1 (en) Cascaded neural network with scale dependent pooling for object detection
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和系统
US8885943B2 (en) Face detection method and apparatus
EP3101594A1 (en) Saliency information acquisition device and saliency information acquisition method
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
EP3690740B1 (en) Method for optimizing hyperparameters of auto-labeling device which auto-labels training images for use in deep learning network to analyze images with high precision, and optimizing device using the same
CN107871103B (zh) 一种人脸认证方法和装置
CN111461145B (zh) 一种基于卷积神经网络进行目标检测的方法
CN110135446B (zh) 文本检测方法及计算机存储介质
CN110555439A (zh) 标识识别方法及其模型的训练方法、装置和电子系统
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN113052170A (zh) 一种无约束场景下的小目标车牌识别方法
CN116630932A (zh) 一种基于改进yolov5的道路遮挡目标检测方法
CN112561801A (zh) 基于se-fpn的目标检测模型训练方法、目标检测方法及装置
CN116543261A (zh) 用于图像识别的模型训练方法、图像识别方法设备及介质
CN110827327B (zh) 一种基于融合的长期目标跟踪方法
CN111339869A (zh) 一种人脸识别方法、装置、计算机可读存储介质及设备
US20240119584A1 (en) Detection method, electronic device and non-transitory computer-readable storage medium
CN114612847A (zh) 一种Deepfake视频篡改检测方法以及系统
CN113627481A (zh) 一种面向智慧园林的多模型组合的无人机垃圾分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant