CN110751195B

CN110751195B - 一种基于改进YOLOv3的细粒度图像分类方法

Info

Publication number: CN110751195B
Application number: CN201910965021.XA
Authority: CN
Inventors: 黄进; 李啸天; 李剑波; 朱明仓; 李继秀; 杨旭; 付国栋; 秦泽宇; 郑思宇; 王敏
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2023-02-07
Anticipated expiration: 2039-10-12
Also published as: CN110751195A

Abstract

一种基于改进YOLOv3的细粒度图像分类方法，该方法包括下述步骤：一、对细粒度图像进行预处理；二、通过Darknet‑53特征提取网络对输入图像提取特征；三、多层卷积网络得到三种大小的分类特征图，分别为13×13，26×26，52×52；四、提取细粒度特征图。五、将原分类特征图与细粒度特征图融合，改进损失函数，训练网络直到达到预先设定的迭代次数或准确率不再提升；六、细粒度图像类别识别。本发明在不增加图像检测时间的前提下，通过加入细粒度分类层，提高YOLOv3原网络对细粒度图像分类的准确度。

Description

一种基于改进YOLOv3的细粒度图像分类方法

技术领域

本发明涉及目标检测领域，具体为一种基于改进YOLOv3的细粒度图像分类方法。

背景技术

目前基于深度学习的目标检测算法主要分为两类：非端到端检测和端到端检测。非端到端检测算法检测效果好，但是耗时高，一般不能实时检测，典型的网络模型有RCNN、faster-RCNN、mask-RCNN。这类算法先在图像中提取可能含有目标的候选框(regionproposal)，然后将候选框输入到CNN模型，让CNN判断候选框中是否真的有目标，以及目标的类别是什么。端到端检测算法可以实时检测，精度没有非端到端检测算法高，典型网络模型如yolo。这两种检测算法在通用图像(General/Generic Images)分类任务中都有很好的表现。

细粒度图像分类问题是对大类下的子类进行识别。细粒度图像分类任务相对通用图像(General/Generic Images)任务的区别和难点在于其图像所属类别的粒度更为精细。常用的方法有基于定位-分类的方法、基于网络集成的方法、卷积特征的高阶编码方法等。基于定位-分类的方法采用强监督学习，则需要大量的人工来标注图像的关键区域，采用弱监督学习则准确率有待提高；基于网络集成的方法干预的因素较多，不能采用端到端的学习方式；卷积特征的高阶编码方法取得了和使用部位(parts)信息相当或甚至更高的性能，其缺点在于外积导致特征的维度增大为原来的平方。

YOLOv3是一种端到端的可实时目标检测网络，在Titan X GPU上，它以30FPS的速度处理图像，在COCO test-dev上不同种类的mAP为57.9％。经在TeslaK80 GPU上测试YOLOv3在CUB200-2011数据集上平均识别精度只有84.20％。

发明内容

针对现有技术中存在的难题，本发明的目的是提供一种基于改进YOLOv3的细粒度图像分类方法，在YOLOv3原网络基础上，采用卷积特征的高阶编码方法，对原网络中的一些特定层通过外积捕获了特征通道之间成对的相关关系，提取检测目标的局部特征。把细粒度特征分类结果与原网络分类结果融合，修改原网络损失计算公式，在保证检测速度的同时提高识别精度。

为达到上述目的，本发明的技术方案为：

一种基于改进YOLOv3的细粒度图像分类方法，包括如下步骤：

步骤1：把细粒度图像数据集随机分为训练集、验证集、测试集，通过图像预处理将图像缩放至416×416，采用数据增强方法扩充数据集；

步骤2：通过Darknet-53网络提取输入图像特征；

步骤3：经过三个(1×1卷积+BatchNormalization+LeakyRelu+3×3卷积+BatchNormalization+LeakyRelu)层后进入1×1分类卷积层得到尺寸为13×13×(4+1+类别)×3的输出特征图；通过上采样，重复上述操作得到尺寸为26×26×(4+1+类别)×3的输出特征图。再次上采样，重复上述操作得到尺寸为52×52×(4+1+类别)×3的输出特征图；

步骤4：在输出特征图尺寸为13×13×(4+1+类别)×3的网络中抽取第76、78、80层的输出作为细粒度特征图，然后将这三个细粒度特征图相互做外积，经过符号平方根变换、拼接后进行1×1分类卷积得到尺寸为13×13×(4+1+类别)×3的细粒度分类特征图；在输出特征图尺寸为26×26×(4+1+类别)×3的网络中抽取第80、82、84层的输出作为细粒度特征图，然后将这三个细粒度特征图相互做外积，经过符号平方根变换、拼接后进行1×1分类卷积得到尺寸为26×26×(4+1+类别)×3的细粒度分类特征图；在输出特征图尺寸为56×56×(4+1+类别)×3的网络中抽取第84、86、88层的输出作为细粒度特征图，然后将这三个细粒度特征图相互做外积，经过符号平方根变换，拼接后进行1×1分类卷积得到尺寸为56×56×(4+1+类别)×3细粒度分类特征图；

步骤5：将原YOLOv3网络得到的三个分类特征图和三个细粒度分类特征图拼接得到13×13×(4+1+类别)×3×2，26×26×(4+1+类别)×3×2，56×56×(4+1+类别)×3×2三个尺寸的分类特征图，修改损失函数，将原特征图和细粒度特征图乘以不同的权重系数。

步骤6：训练网络得到权重参数，对细粒度图像分类。

优选的，步骤2中Darknet-53特征提取网络，网络共75层，其框架由Convolutional层和Residual残差连接层组成；每个Convolutional层包含卷积、归一化、LeakyReLU三个操作；Residual残差连接层结构中令输入特征向量为X，经过两层Convolutional操作后的输出向量为X′，再将输入特征向量矩阵与输出特征向量矩阵逐元素相加得到输出。

优选的，在每个尺度的YOLOv3原网络金字塔卷积分类层中抽取3个1×1Convolutional层的输出作为细粒度特征图。在每个尺度上将得到的三个细粒度特征图相互作外积(matrix outerproduct)，经过

函数非线性激活，得到三个大小与输入相同的细粒度特征图，最后将三个特征图拼接成一个特征图。最终得到三个不同尺度的细粒度特征图为13×13×(1024×3)、26×26×(512×3)、52×52×(256×3)。

优选的，步骤3原YOLOv3输出特征图进行1×1卷积分类得到三个尺度的输出，即13×13×(4+1+类别)×3，26×26×(4+1+类别)×3，52×52×(4+1+类别)×3；在每个尺度上预测3个不同大小的预测框，每种大小的预测框值包括4个边框预测值(x、y、w、h)，(x,y)对应的是预测目标框的几何中心坐标，(w,h)对应的是预测目标框的宽度与高度；1为该像素点的目标置信度值以及预测的每个类别的得分值；步骤4将三个不同尺度的细粒度特征图进行1×1卷积分类得到13×13×(4+1+类别)×3，26×26×(4+1+类别)×3，52×52×(4+1+类别)×3三个输出，并与步骤3输出的结果图进行拼接得到13×13×(4+1+类别)×3×2，26×26×(4+1+类别)×3×2，52×52×(4+1+类别)×3×2三个输出。

优选的，边框预测公式为：

其中Cx,Cy是特征图中grid cell的左上角坐标，在yolov3中每个gridcell在featuremap中的宽和高均为1；t_x1、t_y1、t_h1、t_w1分别是原分类网络预测的边框值，t_x2、t_y2、t_h2、t_w2分别为细粒度分类预测边框值，α为调解权重的参数，这里取α＝0.6。

优选的，置信度计算公式为：

其中d₁、d₂分别为原网络分类和细粒度分类置信度值，β为调解权重的参数，这里取β＝0.5。

优选的，类别得分计算公式为：

其中p₁、p₂分别为原网络分类和细粒度分类预测每个类别的值，γ为调解权重的参数，这里取γ＝0.6。

优选的，网络损失函数计算公式为：

其中λ_coord、λ_noobj、α、β为权重调节参数分别取值为0.5、0.5、0.6、0.5。

表示该cell中存在物体为1，否则为0。x_truth、y_truth、C_truth、p_truth(c)为图像中框的真实值。x_1i、y_1i、C_1i、p_1i(c)为原网络预测框的值。x_2i、y_2i、C_2i、p_2i(c)为细粒度分类网络预测框的值。

相对于现有技术，本发明的有益效果为：

1、本发明所述的所述的一种基于改进YOLOv3的细粒度图像分类方法，在原网络模型基础上添加细粒度分类层。

2、本发明所述的一种基于改进YOLOv3的细粒度图像分类方法，在不增加检测时间的同时，CUB200-2011数据集上的测试结果显示该发明的mAP为95.25％，高于原网络识别精度。

附图说明

图1为本发明实例中所述算法的流程框图。

图2为YOLOv3原网络结构图。

图3为本发明结构图

具体实施方式

下面结合附图对本发明的实施方案进行详细阐述，以使本发明的优点和特征能易被本领域的技术人员理解，所述是对本发明的解释而不是限定。

本发明一种基于改进YOLOv3的细粒度图像分类方法，如图1所示，具体包括以下步骤：

步骤1：数据集选用CUB200-2011，随机选取其中的20个不同的鸟类，共1195张图片，其中训练集959张，验证集60张，测试集176张；

步骤2：通过Darknet-53网络提取输入图像特征。作为全卷积网络，darknet53主要由卷积层、BatchNormalization及跨层连接组成，激活函数采用LeakyRelu；

步骤5：将得到的三个分类特征图和三个细粒度分类特征图拼接得到13×13×(4+1+类别)×3×2，26×26×(4+1+类别)×3×2，56×56×(4+1+类别)×3×2三个尺寸的分类特征图，修改损失函数，将原特征图和细粒度特征图乘以不同的权重系数。

5.1)改进边框预测公式、置信度公式、类别得分公式，如下：

其中Cx,Cy是特征图中grid cell的左上角坐标，在yolov3中每个grid cell在feature map中的宽和高均为1。t_x1、t_y1、t_h1、t_w1分别是原分类网络预测的边框值，t_x2、t_y2、t_h2、t_w2分别为细粒度分类预测边框值，α为调解权重的参数，这里取α＝0.6。d₁、d₂分别为原网络分类和细粒度分类置信度值，β为调解权重的参数，这里取β＝0.5。p₁、p₂分别为原网络分类和细粒度分类预测每个类别的值，γ为调解权重的参数，这里取γ＝0.6。

5.2)修改损失函数，将原特征图和细粒度特征图乘以不同的权重系数，如下：

步骤6：训练网络得到权重参数，对细粒度图像分类，计算平均正确率mAP。对比结果如表1所示。

原网络与本发明在CUB200-2011数据集上检测时间和mAP结果对比

从上表可以看出，改进后的YOLOv3网络在不显著增加检测时间的同时提高了细粒度图像的检测精度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.一种基于改进YOLOv3的细粒度图像分类方法，其特征在于，包括如下步骤：

步骤2：通过Darknet-53网络提取输入图像特征；

步骤3：经过三个(1×1卷积+Batch Normalization+LeakyRelu+3×3卷积+BatchNormalization+LeakyRelu)层后进入1×1分类卷积层得到尺寸为13×13×(4+1+类别)×3的输出特征图；通过上采样，重复上述操作得到尺寸为26×26×(4+1+类别)×3的输出特征图；再次上采样，重复上述操作得到尺寸为52×52×(4+1+类别)×3的输出特征图；

步骤5：将原YOLOv3网络得到的三个分类特征图和三个细粒度分类特征图拼接得到13×13×(4+1+类别)×3×2，26×26×(4+1+类别)×3×2，56×56×(4+1+类别)×3×2三个尺寸的分类特征图，修改损失函数，将原特征图和细粒度特征图乘以不同的权重系数；

步骤6：训练网络得到权重参数，对细粒度图像分类；

步骤2中Darknet-53特征提取网络，网络共75层，其框架由Convolutional层和Residual残差连接层组成；每个Convolutional层包含卷积、归一化、LeakyReLU三个操作；Residual残差连接层结构中令输入特征向量为X，经过两层Convolutional操作后的输出向量为X′，再将输入特征向量矩阵与输出特征向量矩阵逐元素相加得到输出；

在每个尺度的YOLOv3原网络金字塔卷积分类层中抽取3个1×1Convolutional层的输出作为细粒度特征图；在每个尺度上将得到的三个细粒度特征图相互作外积(matrixouter product)，经过

函数非线性激活，得到三个大小与输入相同的细粒度特征图，最后将三个特征图拼接成一个特征图；最终得到三个不同尺度的细粒度特征图为13×13×(1024×3)、26×26×(512×3)、52×52×(256×3)；

步骤5所述损失函数计算公式为：

其中λ_coord、λ_noobj、α、β为权重调节参数分别取值为0.5、0.5、0.6、0.5；

表示该cell中存在物体为1，否则为0；x_truth、y_truth、C_truth、p_truth(c)为图像中框的真实值，x_1i、y_1i、C_1i、p_1i(c)为原网络预测框的值，x_2i、y_2i、C_2i、p_2i(c)为细粒度分类网络预测框的值。

2.根据权利要求1所述的基于改进YOLOv3的细粒度图像分类方法，其特征在于，步骤3原YOLOv3输出特征图进行1×1卷积分类得到三个尺度的输出，即13×13×(4+1+类别)×3，26×26×(4+1+类别)×3，52×52×(4+1+类别)×3；在每个尺度上预测3个不同大小的预测框，每种大小的预测框值包括4个边框预测值(x、y、w、h)，(x,y)对应的是预测目标框的几何中心坐标，(w,h)对应的是预测目标框的宽度与高度；1为该像素点的目标置信度值以及预测的每个类别的得分值；步骤4将三个不同尺度的细粒度特征图进行1×1卷积分类得到13×13×(4+1+类别)×3，26×26×(4+1+类别)×3，52×52×(4+1+类别)×3三个输出，并与步骤3输出的结果图进行拼接得到13×13×(4+1+类别)×3×2，26×26×(4+1+类别)×3×2，52×52×(4+1+类别)×3×2三个输出。

3.根据权利要求2所述的基于改进YOLOv3的细粒度图像分类方法，其特征在于，所述边框预测公式为：

其中Cx,Cy是特征图中grid cell的左上角坐标，在yolov3中每个grid cell在featuremap中的宽和高均为1；t_x1、t_y1、t_h1、t_w1分别是原分类网络预测的边框值，t_x2、t_y2、t_h2、t_w2分别为细粒度分类预测边框值，α为调解权重的参数，这里取α＝0.6。

4.根据权利要求2所述的基于改进YOLOv3的细粒度图像分类方法，其特征在于，所述置信度计算公式为：

5.根据权利要求2所述的基于改进YOLOv3的细粒度图像分类方法，其特征在于，所述类别得分计算公式为：