CN110084304B

CN110084304B - 一种基于合成数据集的目标检测方法

Info

Publication number: CN110084304B
Application number: CN201910348854.1A
Authority: CN
Inventors: 陈文颉; 孙洋洋; 李婧; 窦丽华; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2021-04-30
Anticipated expiration: 2039-04-28
Also published as: CN110084304A

Abstract

本发明公开了一种基于合成数据集的目标检测方法，在3ds MAX软件中给待检测目标的三维模型添加真实环境图片作为背景贴图进而建立三维场景，渲染生成所需数量的合成图像，并自动完成对图像类别和标注框的标记，进而完成合成数据集构建；采用合成数据集作为训练集，对目标检测网络进行训练；训练完成后用于进行目标检测。使用本发明可以低成本快速获取任何目标的标注数据集，解决了真实数据集标注成本高，特定场景下真实数据无法获取的问题。进一步地，所设计的目标检测网络加入了SOMConv层，能够提高网络对真实数据的识别能力。

Description

一种基于合成数据集的目标检测方法

技术领域

本发明属于目标检测领域，涉及目标检测中的合成数据集的构建及适用于合成数据集的目标检测方法。

背景技术

在目标检测任务中，基于深度学习的目标检测算法已经完全超越了基于非深度学习方法的目标检测算法，成为主流目标检测算法。但是基于深度学习的目标检测算法依赖于大规模的标注数据集。

目标检测数据集构建是目标检测任务中的一项关键技术。目标检测数据集的样本容量大小及种类多少很大程度上决定目标检测算法的效果。目标检测数据集构建过程中，会获取大量待检测目标图片，然后对获取到的图片进行数据标注，数据标注过程中将图片中的每个物体找出给出其对应类别，并把每个物体用框标注。数据集构建的数据标标注工作较为繁琐，成本较高，目标检测算法研究多在公开数据集上进行，公开数据集提供了大量标注图片，节省了研究成本，但是在解决特定任务时，由于公开数据集的种类较少不能满足特定需求。同时在某些特定场景下，如自动驾驶中的危险场景、某些非公开目标，此时目标图像难以获取，数据获取成本较高。因此如何快速获取待检测目标图像，进行数据标注进而完成目标检测数据集构建是目标检测任务目前亟待解决的问题之一。

发明内容

有鉴于此，在大量标注数据集获取成本较高，特定场景下数据集难以获取的情况下，本发明提出了一种利用计算机图形学方法生成大量合成图像，并对合成图像进行自动标注构建合成图像数据集的方法。

同时，由于合成图像数据集与待检测真实目标存在一定的差异，本发明针对合成数据集作为训练集的情况设计了一种命名为SOM R-CNN的目标检测方法，该SOM R-CNN目标检测方法通过引入竞争机制，构建SOMConv层，使其适用于合成图像数据集，进而提高检测效果。

为了解决上述技术问题，本发明是这样实现的：

一种基于合成数据集的目标检测方法，包括：

步骤一、3ds MAX软件将待检测目标的三维模型和真实环境图片组合，通过渲染生成所需数量的合成图像，并进行目标类别和位置的标注，得到合成数据集；

步骤二、采用合成数据集作为训练集，对目标检测网络进行训练：

所述目标检测网络的构建方式为：将自组织特征映射网络与卷积层结合，构建SOMConv层；所述SOMConv层对输入的特征图进行卷积并计算激活值，得到特征图；对不同特征图上处在同一位置的激活值进行由大到小的排序，前n个特征保持大小不变，其余特征全部设定为0；n为正整数；

将SOMConv层加入Faster R-CNN网络的分类定位网络中，加入位置在分类定位网络的特征提取网络内且位于第一个卷积层之后，形成SOM R-CNN网络，即所述目标检测网络；

步骤三、待检测图像输入训练完成的SOM R-CNN网络，获得检测结果。

较佳地，步骤二中，所述n的取值为前一层卷积层输出的特征图数目乘以SOMConv层给定的比率p。

较佳地，所述SOM Conv层设置在特征提取网络的第二层。

较佳地，所述步骤一为：

在3ds MAX软件中给待检测目标的三维模型添加真实环境图片作为背景贴图进而建立三维场景，渲染生成所需数量的合成图像；

根据三维模型种类确定目标类别，从而完成合成图像的类别标记；

利用3ds MAX渲染获取仅含背景贴图的图像，通过对背景贴图图像和合成图像进行差值计算，获取合成图像中目标位置的标注框，完成合成图像的标注。

较佳地，步骤一中所述合成图像的生成方式为：

步骤S11：针对待检测目标，从三维模型库中获取其三维模型，送入到3ds MAX软件中；

步骤S12：3ds MAX软件给三维模型添加地面贴图和环境贴图进而构建三维场景，在三维场景中添加目标摄像机，将其目标设定在三维模型上；

步骤S13：给摄像机添加路径约束，使摄像机绕三维模型旋转，自动获取目标的多个视角图像；

步骤S14：设定渲染参数，每个摄像机间隔设定数量帧渲染其拍摄到的图像，保存渲染得到的图像。

较佳地，步骤S12中所述在三维场景中添加目标摄像机为：添加多个摄像机，为每个摄像机设定不同的运动路径。

较佳地，步骤一所述获取合成图像中目标位置的标注框的方式为：

步骤S31:将利用3ds Max软件对待检测目标的三维模型进行渲染从而获取的合成图像记为G(x,y)；

步骤S32：从渲染场景中删除待标注物体的三维模型，仅对背景进行渲染，获得背景图I(x,y)；

步骤S33：计算两幅图像G(x,y)和I(x,y)的差值C(x,y)，并将C(x,y)中孤立的不为0的点设为0；

步骤S34：获取C(x,y)中不为0的点的x,y坐标的最大值与最小值，即可获得当前待标注物体的包围框坐标描述，即为所述合成图像的目标标注框。

较佳地，当同一合成图像中具有多个待标注物体，从渲染场景中删除待标注物体时，先删除一个，执行步骤S32～S34，然后改变待标注物体，再次执行S32～S34，直到处理完合成图像中所有的待标注物体。

有益效果：

(1)本发明利用计算机图形学方法生成大量合成图像，并对合成图像进行自动标注构建合成图像数据集，该方法可以低成本快速获取任何目标的标注数据集，解决了真实数据集标注成本高，特定场景下真实数据无法获取的问题。

(2)本发明为了解决合成图像数据集与待检测真实目标存在一定差异的问题，基于自组织特征映射的思想，在卷积层引入竞争机制，从而构建了新的处理层——SOMConv层，该SOMConv层迫使网络学习更重要的特征，以提高网络对真实数据的识别能力；采用合成数据集作为训练集，对具有SOMConv层的网络进行训练，检测精度高于常用的Faster R-CNN网络。

附图说明

图1为本发明的基于合成数据集的目标检测方法的示意图；

图2是本发明的生成合成图像的方法的示意图；

图3是本发明的对合成图像自动标注的示意图；

图4是Faster R-CNN网络的结构示意图；

图5是本发明的SOM R-CNN网络模型的示意图。

具体实施方式

本发明提供了一种基于合成数据集的目标检测方法，其具有两个特点：

一是、在大量标注数据集获取成本较高，特定场景下数据集难以获取的情况下，本发明提出了一种利用计算机图形学方法生成大量合成图像，并对合成图像进行自动标注构建合成图像数据集的方法。参见步骤1～2。

二是、由于合成图像数据集与待检测真实目标存在一定的差异，本发明专门针对合成数据集作为训练集的情况设计了SOM R-CNN目标检测算法，SOM R-CNN目标检测算法通过引入竞争机制、构建SOMConv层，使得算法模型适用于合成图像数据集，进而提高检测效果。参见步骤3～4。

下面结合附图并举实施例，对本发明进行详细描述。

步骤1、在3ds MAX软件中给待检测目标的三维模型添加真实环境图片作为背景贴图进而形成三维场景，对三维场景渲染生成所需数量的合成图像。

参见图2，本步骤包括如下子步骤：

步骤S11：针对待检测目标，从三维模型库中获取三维模型，送入到3ds MAX软件中。

这里待检测物体以坦克、直升飞机、战斗机、装甲车、汽车这5类为例。对于每类待检测物体，从模型库中选取5个模型用于生成合成图像，渲染软件选取为3ds MAX。在构建合成图像数据集时，每次选取2-4类目标，每类目标选取1-2个模型送到3ds MAX软件中去渲染生成合成图像。同时将一些真实环境图片送入到3ds MAX软件中。

步骤S12：3ds MAX软件提取其中一种三维模型，给三维模型添加地面贴图和环境贴图进而构建三维场景，在三维场景中添加目标摄像机，将其目标设定在三维模型上。

步骤S13：给摄像机添加路径约束，使摄像机绕三维模型旋转，自动获取目标的多个视角图像。在图2中仅显示了一个摄像机，实际操作时，可在三维场景中添加多个摄像机，为每个摄像机设定不同的运动路径。

步骤S14：设定渲染参数，如光照、渲染精度等，对每个摄像机，每八帧渲染其拍摄到的图像，并设定其尺寸为1000x600，保存渲染得到的图像，同时标注其类别，即三维模型的种类。这里的模型种类是指坦克、直升飞机、战斗机、装甲车。一副图像中可以有一个或者一个以上的待检测目标。

步骤S15：改变三维模型和背景，重复S12～S14，从而获得不同目标结合不同场景的合成图片，这些图片组成了合成数据集。

步骤2、对合成图像进行目标标注框的标注，从而完成合成数据集构建。

在目标检测任务中，需标注物体的类型和位置信息，其中物体类型已经在步骤1中进行了标注。本步骤是对物体位置进行标注。利用3ds MAX渲染获取仅含背景贴图的图像，通过对背景贴图图像和合成图像进行差值计算，获取合成图像中的目标标注框，完成合成图像的标注，进而完成合成数据集构建。

本步骤标注框的标注可以在获取所有合成图像后执行，也可以在创建每个合成图像后执行。如果采用后者方案，则步骤1的S15需要在完成一幅合成图像的所有标注后执行。

如图3所示，本步骤三包括如下子步骤：

步骤S21：将通过步骤1获取的合成图像记为G(x,y)；

步骤S22：从渲染场景中删除待标注物体的三维模型，仅对背景进行渲染，获得背景图I(x,y)；

步骤S23：计算两幅图像的差值

C(x,y)＝G(x,y)-I(x,y)

并将C(x,y)中孤立的不为0的点设为0，这些点属于噪声。所谓的孤立是指少数几个点聚集在一起，且设定范围内没有其他非零点。少数几个点的个数可以自行设定，例如设为2-3个。

步骤S24：获取C(x,y)中不为0的点的x,y坐标的最大值与最小值，即可获得该物体的包围框坐标描述，即为想要获得的合成图像的目标标注框。

步骤S25：一般来说，一副图像中可以包含1个或者1个以上的目标，如果包含不止一个，则需要一个一个的顺序标注，那么改变待标注物体，按照上述步骤S22～S24的方式逐一进行标注，即可完成该幅合成图像的标注。

通过上述方法，构建出了针对本实施例中5类目标检测任务的图像数据集，共有约9900张，每幅图像有目标1～4个。

步骤3、完成合成数据集构建后，针对合成数据集作为测试集，真实数据集作为测试集的情况，构建SOMConv层，基于SOMConv层构建SOM R-CNN网络。

由于合成图像并非真实图像，其与待检测真实目标存在一定的差异，为了提高目标检测网络的有效性，本发明设计了一种称为SOM R-CNN网络的目标检测模型。本发明的SOM R-CNN是在Faster R-CNN网络基础上进行改进得到的。下面首先对Faster R-CNN网络进行简单描述。

如图4所示，Faster R-CNN网络包括分类定位网络和候选区域生成网络(RPN网络)，分类定位网络又分为特征提取网络和全连接层。RPN网络与分类定位网络共享卷积计算。使用时，图像数据输入特征提取网络，产生特征图，送入RPN网络；RPN网络提取出候选区域；候选区域和特征图一同送入全连接层，用于获取分类信息和定位信息。

本发明对于目标检测模型的改进是：在Faster R-CNN网络的特征提取网络中增加一层本发明创新设计的SOMConv层。该SOMConv层的设计思路为：合成图像可以解决构建大规模真实数据集的成本较高，以及某些场景下真实数据无法获取的问题，但是合成数据和真实数据存在一定差异。利用合成数据训练的目标检测网络在真实图像上的检测精度较差。目标检测网络是模仿人类识别物体的过程，但是人类在从合成图像学习获取知识后，却能够很好地应用于真实图像上。分析认为，人类在从合成图像学习知识应用于真实图像时，充分学习了两者的相似特征如形状、纹理等，忽略了一些细节特征。合成图像和真实图像在一些重要特征上具有相似性，因此本发明考虑利用一个映射将合成图像和真实图像的特征映射到一个公共子空间，在公共子空间中合成图像和真实图像的特征具有相似性。在目标检测网络中，利用卷积神经网络提取特征，而特征重要程度由特征图上的激活值的大小决定，因此我们利用SOMConv层的竞争机制去提取重要特征，利用SOMConv层作为映射，将合成图像和真实图像映射到具有相似特征的子空间内，提升合成图像训练的目标检测网络在真实图像上的检测精度。

本发明所设计的SOMConv层实际上是一个改进的卷积层，它对于卷积处理产生的特征图进行激活值排序和置零操作，从而去掉与真实图像符合度较差的点。该SOMConv层的增加位置是在特征提取网络的第一个卷积层之后。

SOMConv层内的具体操作包括①～③：

①对前一卷积层得到的特征图进行卷积运算并计算激活值，得到新的特征图；特征图是由激活值组成的。

②根据SOMConv层给定的比率p，计算该层将要保留的特征数n。该特征n与前一层卷积层输出的特征图数目num_c有关。因为前一层的特征图数目是这个SOMConv层的输入，所以需要对这个特征图进行竞争机制，因此选取n＝p×num_c。

③对处在同一位置不同特征图上的激活值进行由大到小的排序，前n个特征保持大小不变，其余特征全部在特征图上设定为0。

加入SOMConv层的SOM R-CNN网络仍然包括两部分，如图5所示，包括候选区域生成网络(RPN网络)和分类定位网络。

其中，分类定位网络以VGG16网络为基础。VGG卷积神经网络是牛津大学在2014年提出来的卷积神经网络模型，VGG16是具有16个层的VGG网络模型。这个VGG16网络具有16个卷积层，4个Pooling层，其中13个卷积层位于特征提取网络，另外3个作为全连接层。本发明将SOMConv层加入特征提取网络中第一和第三个卷积层之间，作为第二层出现。SOMConv层的参数比率p设为0.75，卷积层的卷积核大小及其他参数与VGG16网络保持一致。在实际中，SOMConv层还可以设置在其他位置，只要在第一个卷积层之后，且位于特征提取网络之中即可。

候选区域生成网络被称为RPN网络，RPN网络与分类定位网络共享卷积计算，特征提取网络的最后一层卷积层(conv.512)输出的特征图送入RPN网络，特征图的每个位置上都产生9个固定大小的可能窗口，包括三种面积和三种比例的组合，在特征图上滑动得到约2000个候选区域。提取候选区域时，首先将这些候选窗口映射至原图像，将长和宽都低于阈值的窗口除去，将其余窗口按照得分的高低进行排序，选取排名靠前的候选区域保留下来，其余的舍去，对这些区域进行非极大值抑制(Non-maximum suppression，NMS)操作，本实施例设定IoU阈值为0.7，保留300个候选框即为提取出的候选区域。

提取出的300个候选区域被送回分类定位网络，与提取出的特征图一起被送入全连接层，进而获取分类信息和定位信息。

以上就是本发明SOM R-CNN网络的结构描述。

步骤4、采用合成数据集作为训练集，对SOM R-CNN网络进行训练。然后利用真实数据集进行测试。

本发明在对SOM R-CNN网络进行训练时，采用交替训练的方式进行。包括如下步骤：

步骤S41：首先利用大规模数据集ImageNet对分类定位网络中的特征提取网络进行预训练，获取网络的初始化参数W₀，在训练过程中采用随机梯度下降法进行训练。

步骤S42：获取网络的初始化参数W₀后，以W₀为初始参数，训练候选区域生成网络(RPN网络)。RPN网络在训练时同时最小化两种代价函数，分别为分类误差及前景样本的窗口位置偏差。

步骤S43：RPN网络训练完成后，以W₀为初始参数，将合成图像训练集送入分类定位网络，获取特征图，利用训练好的RPN网络提取合成图像训练集的候选区域，利用候选区域和特征图对分类定位网络进行训练。首先执行前向过程，获取误差损失，然后进行后向传播过程更新参数，训练时采用随机梯度下降的方法对网络参数进行训练。分类定位网络中的各层参数训练与常见卷积神经网络的训练基本相同，仅SOMConv层存在差异。

SOMConv层的学习算法包括前向传播和反向传播：

前向传播的训练过程与SOMConv层的结构设计一致：

Step 1：进行卷积运算并计算激活值；

Step 2：根据SOMConv层给定的比率p，计算该层将要保留的特征数n；

Step 3：对处在同一位置不同特征图上的激活值进行由大到小的排序，前n个特征保持大小不变，其余特征全部设定为0。

反向传播过程类似于最大池化，梯度数据通过非0的特征值向前反向传播，已被设定为0的特征值将不再参与。

步骤S44：S43步骤训练完成后获取到网络参数W₁,以W₁为初始参数，再次训练区域生成网络(RPN网络)，方法同步骤S42。

步骤S45：S44步骤训练的RPN网络可以获取新的候选区域，以W₁为初始参数，利用新获取的候选区域再次训练分类定位网络，获取最终参数W，完成SOM R-CNN网络训练。

步骤S46：利用合成图像数据集对SOM R-CNN网络训练完成后，将真实图像数据集送入SOM R-CNN网络执行前向传播过程，利用输出结果验证网络训练效果。

步骤5：将待检测的真实图像数据集送入SOM R-CNN网络执行前向传播过程，即可获取最终检测到的分类及定位信息。

至此，完成了目标检测过程。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于合成数据集的目标检测方法，其特征在于，包括：

所述目标检测网络的构建方式为：将自组织特征映射网络与卷积层结合，构建SOMConv层；所述SOMConv层对输入的特征图进行卷积并计算激活值，得到特征图；对不同特征图上处在同一位置的激活值进行由大到小的排序，前n个特征保持大小不变，其余特征全部设定为0；n为正整数；所述n的取值为前一层卷积层输出的特征图数目乘以SOMConv层给定的比率p；

2.如权利要求1所述的方法，其特征在于，所述SOM Conv层设置在特征提取网络的第二层。

3.如权利要求1所述的方法，其特征在于，所述步骤一为：

4.如权利要求3所述的方法，其特征在于，步骤一中所述合成图像的生成方式为：

5.如权利要求4所述的方法，其特征在于，步骤S12中所述在三维场景中添加目标摄像机为：添加多个摄像机，为每个摄像机设定不同的运动路径。

6.如权利要求3所述的方法，其特征在于，步骤一所述获取合成图像中目标位置的标注框的方式为：

7.如权利要求6所述的方法，其特征在于，当同一合成图像中具有多个待标注物体，从渲染场景中删除待标注物体时，先删除一个，执行步骤S32～S34，然后改变待标注物体，再次执行S32～S34，直到处理完合成图像中所有的待标注物体。