CN107392251B

CN107392251B - 一种使用分类图片提升目标检测网络性能的方法

Info

Publication number: CN107392251B
Application number: CN201710616494.XA
Authority: CN
Inventors: 李宏亮
Original assignee: Chengdu Kuaiyan Technology Co ltd
Current assignee: Chengdu Kuaiyan Technology Co ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2020-08-11
Anticipated expiration: 2037-07-26
Also published as: CN107392251A

Abstract

本发明提供了一种使用分类图片提升目标检测网络性能的方法，具体方法为：训练好的目标检测网络中，针对目标检测性能最差的目标类别，制作该目标类别的分类图片数据库，并把所述目标类别的分类图片中包含的特征信息学习到所述目标检测网络中，扩充网络中有关所述目标类别目标特征的信息。在训练目标检测网络时，针对检测性能最差的类别，考虑构造该类别的分类图片数据库，并使用目标检测网络在该分类图片数据库上进行微调，使得目标检测网络中关于该类别的特征信息变得更加丰富，提升该类别的目标检测性能，进而提升目标检测网络的整体性能。

Description

一种使用分类图片提升目标检测网络性能的方法

技术领域

本发明涉及一种提升目标检测网络性能的方法，特别是涉及一种使用分类图片提升目标检测网络性能的方法。

背景技术

目标检测是计算机视觉的重要应用之一，其目的是通过构建软件算法，让计算机系统能够模仿人类的视觉处理方式，对输入的图像进行分析，输出图像中目标的位置及类别信息。典型的目标检测算法框架由特征提取和特征学习两个部分组成。特征提取部分负责把图像数据中的原始信息进行提取和变换，得到抽象程度更高、表达能力更强的特征(例如边缘谱、梯度、特征点、显著谱等)。特征学习部分利用特征提取部分输出的特征表示对图像中可能的目标位置进行判断，最终输出目标检测结果。

传统的目标检测方法使用人工设计的特征提取器来提取图像特征，然后把图像特征作为样本来训练特征学习器。例如，Viola和Jones等人提出了一种快速人脸检测方法，该方法使用Harr小波从图像中提取特征并采用AdaBoost算法对特征进行分类得到检测结果。Dalal等人提出了一种突破性的垂直行人检测方法，该方法利用滑动窗从图像的局部区域中提取HoG特征(梯度直方图，Histogram of Gradient)，然后使用SVM(支持向量机，Support Vector Machine)对每个滑动窗区域的HoG特征进行分类得到检测结果。后来在Dalal等人工作的基础上，Felzenszwalb等人提出了形变模型DPM(Deformable PartModel)，该模型很好地解决了有形变目标的检测问题。虽然这些方法的出现使得目标检测性能不断提升，不过这些方法都需要设计人员手工设计特征提取器，而特征提取器的设计需要设计人员对所需要解决的问题有一定认识，特征提取器设计质量的高低直接决定了目标检测算法能否正常工作。目标检测器的性能容易受到人为因素的干预。

近年来，深度学习技术，特别是CNN(卷积神经网络，Convolutioanl NeuralNetwork)的出现对目标检测方法的设计产生了深远的影响。CNN把特征提取和特征学习这两个部分有机地结合在一起，通过端到端(end-to-end)的学习方式，使得CNN能够自动从输入图像数据中学习得到合适的特征提取算子，并能够利用提取到的特征训练分类器。CNN的出现降低了目标检测方法的设计难度，设计人员无需考虑特征提取器的设计细节，只需要考虑CNN网络的结构。CNN目标检测框架种类繁多、结构多样，常用的CNN目标检测框架有R-CNN及其衍生结构Fast(er)-RCNN，SSD，YOLO等。不过，所有的CNN目标检测框架都有一个共同的特点，即检测性能的好坏与训练样本的数据分布有很大的关系。训练样本分布不均是限制CNN目标检测框架性能的重要因素，这主要由客观原因造成。当前，目标检测方法的性能都是通过在在多个公开的图像数据库中运行算法得到。在这些公开的目标检测图像数据库中，目标类别少，不同类别的训练样本个数差异很大，有些样本数据甚至有误。其次，公开数据库中的图像数据很难反映出日常生活中的真实情形。例如，日常生活中人跌倒的情形是很常见的，而现有的公开数据库中，包含有人跌倒的图片的数量是非常少的。即使实验人员通过多种途径获取到这类图片，为了能够训练算法，后面还需要组织大量的人力对获取的图片进行目标标注，工作量大、非常耗时。

发明内容

本发明要解决的技术问题是提供一种使用分类图片提升目标检测网络性能的方法，能够解决现有技术中由于训练样本分布不均和训练样本难以获取，造成网络性能无法进一步提升的问题。

本发明采用的技术方案如下：一种使用分类图片提升目标检测网络性能的方法，具体方法为：训练好的目标检测网络中，针对目标检测性能最差的目标类别，制作该目标类别的分类图片数据库，并把所述目标类别的分类图片中包含的特征信息学习到所述目标检测网络中，扩充网络中有关所述目标类别目标特征的信息。

具体方法步骤为：

步骤一，构建一个目标检测网络，由特征提取子网络和目标检测子网络两部分组成；并对所构建的目标检测网络进行训练，训练完成，进入下一步；

步骤二，统计得到每个类别的检测精度以及网络的整体检测精度，得到检测精度最低的目标类别C；

步骤三，收集设置数量的包含有目标类别C的目标的分类图片，并为图片加上目标类别为C的标签；收集设置数量的不包含目标类别C的目标的分类图片，并为图片加上目标类别不为C的标签；利用收集到的加上目标类别为C和目标类别不为C的标签的图片，制作一个针对目标类别C的分类图片数据集；

步骤四，修改所构建的目标检测网络：把目标检测网络中所有的目标检测子网络换成用于分类的分类子网络，并在分类子网络的输出端添加一个输出用来指示图片被识别为目标类别C的打分；

步骤五，把步骤三得到的针对目标类别C的分类图片数据集送入步骤四修改后的网络进行训练，通过对目标类别C的分类图片进行学习，网络中添加更多的有关目标类别C的特征信息；训练完成后，保存分类子网络的网络结构和权重参数信息；

步骤六，恢复步骤一构建的目标检测网络，对目标检测网络的权重进行细调，直到网络收敛为止，得到最终可用于测试的目标检测网络；

步骤一中，所述目标检测子网络由两个以上卷积层组成，每个卷积层的输入从所述特征提取子网络中任意选取，且卷积层的输入特征谱和输出特征谱大小相同；所述目标检测子网络的滤波器通道数n_det＝检测目标类别个数+4，输出特征谱上每一个位置的n_det维特征，有4个维度的数值分别代表检测目标中心位置和宽高，剩余维度的数值分别代表了检测目标属于某个类别的打分值；

所述分类子网络的结构与用于构建所述特征提取子网络的分类卷积网络的全连接层相同。

与现有技术相比，本发明的有益效果是：

通过扩充网络中检测性能最差的目标类别的目标特征信息，提升该目标类别的目标检测性能，最终提升目标检测网络的整体性能；通过引入指定类别的分类图片对目标检测网络进行微调，实现目标检测网络性能的提升。

附图说明

图1为本发明其中一实施例的一开始构建的目标检测网络结构示意图。

图2为图1所示实施例中修改后的网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

具体实施例1

一种使用分类图片提升目标检测网络性能的方法，具体方法为：训练好的目标检测网络中，针对目标检测性能最差的目标类别，制作该目标类别的分类图片数据库，并把所述目标类别的分类图片中包含的特征信息学习到所述目标检测网络中，扩充网络中有关所述目标类别目标特征的信息。实现提升所述目标类别的目标检测性能，从而最终提升目标检测网络的整体性能。

具体实施例2

在具体实施例1的基础上，具体方法步骤为：

步骤一，构建一个目标检测网络(如图1所示)，由特征提取子网络和目标检测子网络两部分组成；并对所构建的目标检测网络进行训练，训练完成，进入下一步；

步骤四，修改所构建的目标检测网络：把目标检测网络中所有的目标检测子网络换成用于分类的分类子网络，并在分类子网络的输出端添加一个输出用来指示图片被识别为目标类别C的打分；修改后的网络结构如图2所示；

步骤六，恢复步骤一构建的目标检测网络，对目标检测网络的权重进行细调，直到网络收敛为止，得到最终可用于测试的目标检测网络；此时生成的目标检测网络即为最终可用于测试的目标检测网络。

特征提取子网络可以是任意的分类卷积网络(例如AlexNet、VGG16、ResNet等)。

特征提取子网络中，卷积层、池化层等网络层按照一定的次序进行连接，每个网络层的具体参数如下：

卷积层：滤波器大小为[w_fea,h_fea]]，滤波器移动步长为s_fea，滤波器个数为n_fea；

池化层：池化区域大小为[w_p,h_p]]，池化区域移动步长为s_p。

目标检测子网络中，每个卷积层的参数如下：滤波器大小为[w_det,h_det]，滤波器移动步长为s_det，滤波器个数为n_det；对于目标检测子网络由如下特殊要求：

a)卷积层的输入特征谱和输出特征谱大小应保持相同；

b)由于目标检测结果需要输出目标的类别信息以及目标的位置信息，因此滤波器通道数n_det＝检测目标类别个数+4。输出特征谱上每一个位置的n_det维特征，有4个维度的数值分别代表检测目标中心位置[x_obj,y_obj]和宽高[w_obj,h_obj]，剩余维度的数值分别代表了检测目标属于某个类别的打分值。

步骤一中，使用预先准备好的目标检测数据库对所构建的目标检测网络进行训练。目标检测网络训练过程中所需参数包括学习率a，正样本与负样本的比例b，以及网络输出的目标约束框与训练数据中样本约束框匹配时二者的重叠比例因子IOU需要满足的最小值thresh(IOU)；其中正样本与负样本的比例b小于1，以保证网络能够正常训练；网络损失函数

其中，N是是在IOU不小于thresh(IOU)的条件下，与网络输出的目标约束框相匹配的训练数据库中样本约束框的个数；γ为损失加权系数，要大于1，以确保网络能够正常训练；L_conf为网络输出的目标约束框的分类损失，在本具体实施例中，采用softmaxloss损失；L_loc为网络输出的目标约束框的定位损失，在本具体实施例中采用smooth-L1损失，其计算公式为：

所述步骤六中，用已有的目标检测数据库(步骤一中预先准备好的)对目标检测网络的权重进行细调。通过引入指定类别的分类图片对目标检测网络进行微调，实现目标检测网络性能的提升。

传统的目标检测网络训练只包括步骤一，通过训练得到的目标检测网络中，会有第C个类别的目标检测性能最差，这会影响目标检测网络的整体性能。为此，首先通过第三步制作针对第C个类别的分类图片数据库。然后通过第四步和第五步，把第C个类别的分类图片中所包含的特征信息学习到目标检测网络中，扩充网络中有关第C个类别目标特征的信息，提升第C个类别的目标检测性能，最终提升目标检测网络的整体性能。在训练目标检测网络时，针对检测性能最差的类别，考虑构造该类别的分类图片数据库，并使用目标检测网络在该分类图片数据库上进行微调，使得目标检测网络中关于该类别的特征信息变得更加丰富，提升该类别的目标检测性能，进而提升目标检测网络的整体性能。

具体实施例3

在具体实施例2的基础上，考虑使用全卷积的VGG16网络(原VGG16网络的fc6、fc7两个全连接层被替换为卷积层)作为特征提取子网络，并在其后添加3个卷积层(conv8、conv9、conv10)用于为目标检测子网络提供输入。此外设置有6个目标检测子网络，均由卷积层组成。每个目标检测子网络的输入特征谱来自于VGG16的conv4_3、fc6、fc7以及新添加的conv8、conv9、conv10三个卷积层，这六个卷积层的特征谱大小以2倍大小递减。每个目标检测子网络使用3x3的卷积核进行卷积操作。目标检测数据库使用PASCAL VOC 2007，该数据库一共有20个类别，训练和测试图片各有5000张左右。每个目标检测子网络的输出通道个数为20+4＝24。

对该目标检测网络训练的结果为：目标检测精度mAP＝72.4％。其中，椅子类别检测效果最差，AP＝56.2％。为此，考虑构建椅子分类图片数据库。从互联网上寻找200张包含椅子的照片，以及300张不包含椅子的照片，用这些照片构成分类图片数据库，对前面训练的目标检测网络进行细调。最后把目标检测网络用PASCAL VOC 2007再进行一次细调得到最终的网络。对该网络进行测试，目标检测精度mAP＝74.1％。此实例证明了本发明提供的方法能够有效地提升目标检测网络的性能。

Claims

1.一种使用分类图片提升目标检测网络性能的方法，具体方法为：训练好的目标检测网络中，针对目标检测性能最差的目标类别，制作该目标类别的分类图片数据库，并把所述目标类别的分类图片中包含的特征信息学习到所述目标检测网络中，扩充网络中有关所述目标类别目标特征的信息；

具体方法步骤为：

步骤一中，所述目标检测子网络由两个以上卷积层组成，每个卷积层的输入从所述特征提取子网络中任意选取，且卷积层的输入特征谱和输出特征谱大小相同；所述目标检测子网络的滤波器通道数

=检测目标类别个数+4，输出特征谱上每一个位置的

维特征，有4个维度的数值分别代表检测目标中心位置和宽高，剩余维度的数值分别代表了检测目标属于某个类别的打分值；