CN109978036A

CN109978036A - 目标检测深度学习模型训练方法以及目标检测方法

Info

Publication number: CN109978036A
Application number: CN201910202433.8A
Authority: CN
Inventors: 蔡恒; 庄浩; 张继勇
Original assignee: Huarui Xinzhi Technology (beijing) Co Ltd
Current assignee: Huarui Xinzhi Technology (beijing) Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-07-05

Abstract

本发明公开了一种基于深度学习的目标检测中对深度学习模型进行训练的方法，包括，建立模型训练图片集，其中包括由不包含检测目标的实际场景图片构成的负样本训练集和由包含检测目标的非实际场景图片构成的正样本训练集；使用所述模型训练图片集以及其中的图片与检测目标相关的信息，对深度学习模型进行训练。本发明计算损失时考虑进了背景图片的损失，极大地降低了模型对实际检测场景中背景的误检率；对光照变化、场景改变有较强鲁棒性；运行速度快且能在cpu上实时运行检测，稳定而高效；硬件要求简单，易于大规模推广。

Description

目标检测深度学习模型训练方法以及目标检测方法

技术领域

本发明涉及计算机视觉图像处理技术中基于深度学习的目标检测方法，具体涉及基于深度学习的目标检测中对深度学习模型进行训练的方法，以及相应的目标检测方法。

背景技术

目标检测作为计算机视觉图像处理领域的经典课题在自动驾驶、交通监控、图像检索等方面有着重要应用，它的目的是从图像或视频中检测并分类出人们感兴趣的特定对象即目标。传统目标检测方法例如HOG、SIFT等通常把图像特征提取和分类过程分开进行。这些方法先使用特征模型提取出图像的相关视觉特征，然后利用分类器，如SVM，进行识别。

自Hinton教授提出深度学习(Deep Learning)理论以来，越来越多的基于深度学习的目标检测方法被提出，如SSD、R-CNN系列、YOLO系列等。如今借助深度学习，目标检测效率和精度已经有了极大提高。然而不同于学术研究，在实际应用中往往缺乏包含检测目标的实际场景训练集，并且实际应用检测场景有时会过于复杂，以上两点是造成目标检测误检率居高不下的主要原因。

发明内容

本发明的目的是针对现有基于深度学习的目标检测技术应用到实际场景时出现的不足与缺陷，特别是对复杂的实际应用检测场景以及缺乏包含检测目标的实际场景训练图片集的情况做出改进。

根据本发明的实施例，提供一种基于深度学习的目标检测中对深度学习模型进行训练的方法。根据该方法，使用包含检测目标的非实际场景图片以及不包含检测目标的实际场景图片对深度学习模型进行训练，从而在不需要包含检测目标的实际场景训练集的情况下，也可以提高深度学习模型的目标检测精度。

特别是，本发明提供一种基于深度学习的目标检测中对深度学习模型进行训练的方法，包括，建立模型训练图片集，其中包括由不包含检测目标的实际场景图片构成的负样本训练集和由包含检测目标的非实际场景图片构成的正样本训练集；使用所述模型训练图片集以及其中的图片与检测目标相关的信息，对深度学习模型进行训练。

根据本发明的一个实施例，建立模型训练图片集包括对图片进行大小调整。

根据本发明的一个实施例，调整用于训练的图片的旋转角度、曝光度、饱和度、色调等来增加训练数据集数量，以提升检测效果以及模型泛化能力。从而对复杂的实际应用检测场景也能提高深度学习模型的目标检测精度。

根据本发明的一个实施例，图片与检测目标相关的信息包括图片是否包含检测目标，对于包含检测目标的图片，信息还包括目标物体类别及边界框坐标。

根据本发明的一个实施例，建立模型训练图片集包括，利用Label Image工具将图片与检测目标相关的信息标注到图片。

根据本发明的一个实施例，使用所述模型训练图片集对深度学习模型进行训练包括前向传播和反向传播。

根据本发明的一个实施例，前向传播获得图片每个网格的各类别概率以及每个边框的坐标信息和含有物体的置信度。

根据本发明的一个实施例，反向传播包括，根据前向传播获得图片每个网格的各类别概率以及每个边框的坐标信息和含有物体的置信度以及图片的与检测目标相关的信息，通过损失函数计算深度学习模型的损失。

根据本发明的一个实施例，反向传播还包括，根据深度学习模型的损失计算敏感度图，然后计算偏置更新需要的梯度和权重更新需要的梯度，最后根据梯度通过梯度下降对偏置和权重进行更新。

本发明还提供一种基于深度学习的目标检测方法，其中的深度学习模型是使用根据上面所述的方法训练的。

与现有技术相比，本发明具有如下优点：(1)训练集中加入了不包含检测目标的实际场景图片用作负样本，计算损失时考虑进了此部分背景图片的损失，因此极大地降低了模型对实际检测场景中背景的误检率。(2)对光照变化、场景改变有较强鲁棒性。(3)运行速度快且能在cpu上实时运行检测，稳定而高效。(4)硬件要求简单，易于大规模推广。

附图说明

图1是根据本发明的实施例训练目标检测深度学习模型的方法的流程图；

图2是根据本发明的实施例前向传播结合反向传播训练深度学习模型的流程图；

图3是示例性的卷积神经网络深度学习模型的结构图；

图4是本发明实施例中使用的多通道图像矩阵转向量的示意图；

图5是本发明实施例中使用的卷积操作示意图；

图6给出了本发明实施例的考虑负样本与否的检测效果对比图，其中(a)为不考虑负样本，(b)为考虑负样本。

具体实施方式

本发明提供了基于深度学习的目标检测中对深度学习模型进行训练的方法，以及相应的目标检测方法。能在缺乏包含检测目标的实际场景训练集的情况下，针对复杂的检测应用场景，极大降低目标检测的误检率。而且对光照变化、场景改变有较强鲁棒性。运行速度快且能在中央处理器(cpu)上实时运行检测，稳定而高效，以克服现有技术应用于实际场景而产生的不足。

为实现上述改进，本发明通过以下对深度学习模型进行训练的方法实现，如图1所示，该方法包含如下步骤：建立模型训练图片集，其中包括由不包含检测目标的实际场景图片构成的负样本训练集和由包含检测目标的非实际场景图片构成的正样本训练集；使用所述模型训练图片集以及其中的图片与检测目标相关的信息，对深度学习模型进行训练。

首先需要建立模型训练图片集，用于对深度学习模型进行训练。根据本发明的实施例，模型训练图片集包括由不包含检测目标的实际场景图片构成的负样本训练集和由包含检测目标的非实际场景图片构成的正样本训练集。

根据一个具体实施例，可以采用以下方法建立模型训练图片集。

首先，收集图片数据，图片数据包括包含检测目标的非实际场景图片以及不包含检测目标的实际场景图片。需要注意的是所挑选出来的不包含检测目标的实际场景图片不能有任何目标类别出现，否则训练出来的模型在检测时会将目标识别为背景造成正确率下降。

根据一个具体实施例，可以将图片大小调整(resize)到固定的较小像素数值的宽高来压缩图像以提升检测速度。例如，可以将图片resize到448*448像素的宽高。

此外，可以进行数据助增(data augumentation)，即对收集的图片的旋转角度、曝光度、饱和度、色调中的一个或者多个进行调整，来增加模型训练图片集中图片的数量，以提升检测效果以及模型泛化能力。

这样就得到了可以用于对深度学习模型进行训练的模型训练图片集，包括由不包含检测目标的实际场景图片构成的负样本训练集和由包含检测目标的非实际场景图片构成的正样本训练集。

其中的每个图片本身具有相应的与目标相关的信息，包括图片是否包含检测目标，对于包含检测目标的图片，图片信息还包括目标物体类别及边界框坐标。

之后，根据本发明的实施例，可以利用图片标注工具将图片信息标注到图片。根据一个具体实施例，本发明可以利用Label Image工具对图片进行标注。注意对于包含检测目标的图片按照正常标注步骤对图片标上图片中目标物体的类别及边界框坐标信息，对于不包含检测目标的图片则生成空标签文件。

这样，就可以用该模型训练图片集以及每个图片相应的与目标相关的信息,对深度学习模型进行训练。

一般可以通过前向传播结合反向传播的方式来对深度学习模型进行训练。该方式的流程图如图2大致示出。

首先，将模型训练图片集中的图片输入深度学习模型神经网络前向传播，得到模型输出。模型输出可以是图片中每个网格的各类别概率以及每个边框的坐标信息即和含有物体的置信度。

之后，可以进行反向传播，根据模型输出以及与图片相应的与目标相关的信息，通过损失函数计算损失。

其后，根据损失计算敏感度图，然后计算权重更新需要的梯度和偏置更新需要的梯度。

根据梯度通过梯度下降对权重和偏置进行更新，向“模型输出”使损失趋于0或收敛的趋势调节。

重复上述过程直到设定次数或损失的平均值不再下降(最低点)从而训练完成。

以下仅以举例的方式，介绍深度学习模型及训练细节。

如图3所示，根据本发明的一个实施例，深度学习模型为由24个卷积层(Conv.layer)和4个最大值池化层(Maxpool.Layer)和两个全连接层(Conn.layer)组成卷积神经网络。该卷积神经网络可以对图片中对象网格包含目标物体的置信度以及边框位置进行预测，并且在对象网格边框坐标记忆在含有目标物体的情况下对目标物体所属类别的概率进行预测。

下面参照图3具体描述卷积神经网络模型结构。图3中最左面为网络输入层，大小为448*448*3的红绿蓝(rgb)图像。之后卷积神经网络模型结构从左到右分别为：第一部分，由卷积核大小为7*7，步长为2，通道数为64的卷积层以及核大小为2*2，步长为2的池化层组成；第二部分，由卷积核大小为3*3，步长为1，通道数为192的卷积层以及核大小为2*2，步长为2的池化层组成；第三部分，由卷积核大小为1*1，步长为1，通道数为128的卷积层以及卷积核大小为3*3，步长为1，通道数为256的卷积层以及卷积核大小为1*1，步长为1，通道数为256的卷积层以及卷积核大小为3*3，步长为1，通道数为512的卷积层以及核大小为2*2，步长为2的池化层组成；第四部分，由四组卷积核大小为1*1，步长为1，通道数为256的卷积层以及卷积核大小为3*3，步长为1，通道数为512的卷积层，加上一个卷积核大小为1*1，步长为1，通道数为512的卷积层，加上一个卷积核大小为3*3，步长为1，通道数为1024的卷积层，加上一个核大小为2*2，步长为2的池化层组成；第五部分，由两组卷积核大小为1*1，步长为1，通道数为512的卷积层以及卷积核大小为3*3，步长为1，通道数为1024的卷积层，加上一个卷积核大小为3*3，步长为1，通道数为1024的卷积层，加上一个卷积核大小为3*3，步长为2，通道数为1024的卷积层构成；第六部分，由两个卷积核大小为3*3，步长为1，通道数为1024的卷积层组成；第七部分和第八部分，分别是两个全连接层。

为方便卷积矩阵运算，将通道(channel)数为3的rgb图片依照卷积核大小拉伸为列向量之后输入神经网络的第一个卷积层进行卷积运算，如图4、图5所示，再根据神经网络结构将输出矩阵再依次进行卷积或池化或全连接操作，其中每次进行卷积操作之前都要根据卷积核大小将输入矩阵拉伸为列向量。

将模型训练图片集中的图片输入此网络结构进行前向传播后，即可得到每个网格的各类别概率以及每个边框的坐标信息即(x,y,w,h)和含有物体的置信度。(x,y)坐标代表边框的中心与栅格边界相对值，w,h分别代表边框相对于整幅图像的宽和高。结合各图片的相应的与目标相关的信息，通过损失函数的计算，可得到该卷积神经网络的损失。损失包括每层的损失值以及总的损失值。其中总的损失值包括边界框是否包含物体的置信度损失，以及每个边界框的各个类别损失，以及边界框的位置损失。

具体来说，可以使用不同的损失函数来计算卷积神经网络的损失。由于损失函数的设计目标就是让坐标(x,y,w,h)，置信度，分类这个三个方面达到很好的平衡，因此简单的全部采用平方和距离误差损失(sum-squared error loss)函数来做这件事会有以下不足：①不同维数的位置损失和分类损失同等重要显然是不合理的。②如果一些网格中没有物体，一般一幅图中这种网格很多，那么就会将这些网格中的边界框的置信度置为0，相比于较少的有物体的网格，这些不包含物体的网格对梯度更新的贡献会远大于包含物体的网格对梯度更新的贡献，这会导致网络不稳定甚至发散。

对于这个问题的解决方法，本发明的实施例更重视坐标预测。根据本发明的一个具体实施例，采用改进的平方和距离误差函数来计算损失。给位置损失前面赋予更大的损失权重(lossweight),记为λcoord。对没有物体的边界框的置信度损失，赋予小的lossweight，记为λnoobj；有物体的边界框的置信度损失和类别损失的loss weight正常取1。根据一个实施例总的损失值的计算具体如以下公式所示：

式中，代表第i个网格中是否有物体,以及第i个网格中第j个边界框负责预测这个物体，S²表示网格数，例如7*7，B表示每个单元格预测框的个数，wi,hi分别代表边框相对于整幅图像的宽和高，(xi,yi)表示边框中心点坐标，Ci表示有物体边框的置信度,pi(c)表示类别概率。

对于模型训练图片集中没有标签信息的用作负样本的不包含检测目标的实际场景图片，只需要计算置信度损失即可得到该卷积神经网络的损失。需要注意的是由于没有标注的边界框坐标以及类别信息，因此对此类没有物体的边界框置信度也赋予小的lossweight。之后，可以根据计算得到的损失对各层权重进行反向传播操作。利用反向传播对各层偏置和各层权重进行更新的具体计算细节如下。先计算敏感度图(也叫误差图，在反向传播算法中误差图就是loss function损失函数针对某个变量的偏导数，比如权重w或者偏移向量b的偏导数)，然后计算偏置更新需要的梯度和权重更新需要的梯度，最后根据梯度通过梯度下降对偏置和权重进行更新。

具体来说，对于反向传播过程，假设a^l为第l层输出，z^l为经激活函数前的值即a^l＝σ(z^l)，C为误差,如表示整个网络的输出和标签的差值的平方和，b^l为第l层偏置，w^l为第l层权重，为第l层的敏感度图，α为学习率，⊙为逐元素乘积。敏感度图δ，也叫误差图可以如下计算：

若l层为全连接层

δ^l-1＝(W^l)^Tδ^l⊙σ′(z^l-1)

若l-1层为卷积层

δ^l-1＝δ^l*rot180(w^l)⊙σ′(z^l-1)

偏置更新需要的梯度

全连接层：

卷积层：

其中w，h代表卷积核的宽和高；

权重更新需要的梯度，这里*为卷积符号

全连接层

卷积层

最后，根据上面的偏置更新需要的梯度和权重更新需要的梯度通过梯度下降对偏置和权重进行更新。

迭代进行上述的前向传播和反向传播，直到一定的次数，或者损失达到期望的范围。从而，得到了经过训练的可以用于进行目标检测的神经网络模型。

图6给出了本发明实施例的考虑负样本与否的检测效果对比图，其中(a)为不考虑负样本，(b)为考虑负样本，从图中可以看出，在不考虑负样本的情况下，模型未能识别出图中的物体，即(a)中左侧的人，而在加入负样本后，模型识别出了之前无法识别的物体，可见本发明的检测方法能够有效降低模型对实际检测场景中背景的误检率。

应该理解，这里举例的深度学习模型和训练方法仅仅是示例性的，本发明还可以通过其他深度学习模型和训练方法来实现。

应该理解，本发明还包括使用通过以上方法训练的深度学习模型来进行目标检测的方法。

应该认识到，此处所述的实施例可用存储在可机读的存储介质中的、由指令接收机或其他合适的计算装置执行的、例如程序等的计算机可执行指令或代码来实现。另外，此处的实施例可在诸如FPGA、ASIC或其它适宜的硬件结构等的硬件上实现。

一般来讲，程序包括子程序、对象程序、插件、数据结构等执行特殊工作或实现特定抽象数据类型。这里的“程序”可指剧场中表演的单个或多个程序，也可指应用程序、服务程序及任何其它形式的程序。同样。此处所用的“计算机”和“计算机装置”包括电执行一个或多个程序的任何装置，包括但不限于数字频谱分析器或任何其它合适的射频信号装置。

还应进理解此处所述的方式方法是举例式的，这些特别的实施或例子不具限制性的意味，因为可有大量的变换形式。这里所述的具体程序和方法代表了众多处理方案中的一个或多个。因此，可进行多种操作，可以示例的顺序、以其它顺序、并行执行，可用于一些省略说明的情形。同样，要执行此处所述的实施例的特征和/或结果，对上述任一过程的先后顺序并无要求，这里的先后顺序仅作为图示和说明使用。本发明的权利要求包括所有新颖的及不明显的、对此处所述的各种过程、系统、配置、其它特征、功能、操作和/或特征的组合和亚组合，也包括所有的类同物。

Claims

1.一种基于深度学习的目标检测中对深度学习模型进行训练的方法，包括，

建立模型训练图片集，其中包括由不包含检测目标的实际场景图片构成的负样本训练集和由包含检测目标的非实际场景图片构成的正样本训练集；

使用所述模型训练图片集以及其中的图片与检测目标相关的信息，对深度学习模型进行训练。

2.根据权利要求1所述的方法，其中建立模型训练图片集包括对图片进行大小调整。

3.根据权利要求1所述的方法，其中调整模型训练图片集中图片的旋转角度、曝光度、饱和度、色调中至少一个来增加训练数据集数量。

4.根据权利要求1所述的方法，其中图片与检测目标相关的信息包括图片是否包含检测目标，对于包含检测目标的图片，信息还包括目标物体类别及边界框坐标。

5.根据权利要求4所述的方法，其中建立模型训练图片集包括，利用Labe l Image工具将图片与检测目标相关的信息标注到图片。

6.根据权利要求1所述的方法，其中使用所述模型训练图片集对深度学习模型进行训练包括前向传播和反向传播。

7.根据权利要求6所述的方法，其中前向传播获得图片每个网格的各类别概率以及每个边框的坐标信息和含有物体的置信度。

8.根据权利要求7所述的方法，其中反向传播包括，根据前向传播获得图片每个网格的各类别概率以及每个边框的坐标信息和含有物体的置信度以及图片的与检测目标相关的信息，通过损失函数计算深度学习模型的损失。

9.根据权利要求8所述的方法，其中反向传播还包括，根据深度学习模型的损失计算敏感度图，然后计算偏置更新需要的梯度和权重更新需要的梯度，最后根据梯度通过梯度下降对偏置和权重进行更新。

10.一种基于深度学习的目标检测方法，其中的深度学习模型是使用根据权利要求1-9任一项所述的方法训练的。