CN111932673A

CN111932673A - 一种基于三维重建的物体空间数据增广方法及系统

Info

Publication number: CN111932673A
Application number: CN202010999116.6A
Authority: CN
Inventors: 康来; 万珊珊; 魏迎梅
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-11-13
Anticipated expiration: 2040-09-22
Also published as: CN111932673B

Abstract

本发明公开一种基于三维重建的物体空间数据增广方法及系统，该方法通过物体的少量多视角图像重建出物体的三维模型，然后对该三维模型进行不同虚拟场景设置下的图像渲染得到三维模型不同角度、不同大小、不同光照强度下的二维图像，再将二维图像叠加到随机背景图的随机位置上生成合成图并标注，得到大规模多样化合成样本，可有效克服现有技术中难以构建出物体的CAD模型、无法得到多样性强的合成样本等缺陷。

Description

一种基于三维重建的物体空间数据增广方法及系统

技术领域

本发明涉及图像样本生成技术领域，尤其是一种基于三维重建的物体空间数据增广方法及系统。

背景技术

目标检测是计算机视觉的基本任务之一，在智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。近年来目标检测模型多是通过深度学习算法训练得到的，进行深度学习目标检测的模型训练需要大量训练样本作为支撑，数据增广方法可在短时间内得到大量自动标注后的训练数据。

根据数据增广空间维度的不同，现有数据增广方法可大致分为两种：物体空间数据增广和图像空间数据增广。前者通过在计算机图形软件中设置场景，然后使用脚本来渲染CAD（Computer Aided Design, CAD）模型，获取足够数量的合成样本；后者通过将原图中的对象提取出来、与背景分离，并粘贴到其他图像上，同时自动生成标注，获取大量合成样本。

在目标对象原始图像充足的情况下，可通过现有数据增广方法获取足量多样性强的合成样本。然而，在仅有少量目标对象原始图像的情况下，已有的物体空间数据增广方法难以构建出物体的CAD模型，图像数据增广方法则由于合成图像中物体的角度与原图相同而无法得到多样性强的合成样本。因此，现有的方法均无法实现有效的数据增广。

发明内容

本发明提供一种基于三维重建的物体空间数据增广方法及系统，用于克服现有技术中难以构建出物体的CAD模型、无法得到多样性强的合成样本等缺陷。

为实现上述目的，本发明提出一种基于三维重建的物体空间数据增广方法，包括：

获取物体的多视角图像；

根据所述多视角图像进行点云的重建，获得所述物体的三维模型；

设定虚拟场景，将所述三维模型置于所述虚拟场景中，通过图像渲染将三维模型转换为二维图像，并通过改变虚拟场景获得多种不同的二维图像；

将多种不同的二维图像分别叠加到随机背景图的任意位置上得到多张合成图，并对所述合成图进行标注，获得合成样本；

将多种不同的二维图像分别叠加到随机背景图的任意位置上得到多张合成图，包括：

将多种不同的二维图像分别转换为灰度图，将所述灰度图二值化得到初始蒙版；

寻找所述初始蒙版中的最大轮廓，用白色填充所述最大轮廓中的内容，得到未裁剪蒙版；

对所述未裁剪蒙版进行裁剪和归一化，获得蒙版；

根据所述蒙版，得到反蒙版；

将所述反蒙版置于随机背景图的任意位置，将二维图像中所述蒙版对应的图像叠加到背景图中所述反蒙版对应的位置处，得到合成图。

为实现上述目的，本发明还提出一种基于三维重建的物体空间数据增广系统，包括：

图像获取模块，用于获取物体的多视角图像；

建模模块，用于根据所述多视角图像进行点云的重建，获得所述物体的三维模型；

图像渲染模块，用于设定虚拟场景，将所述三维模型置于所述虚拟场景中，通过图像渲染将三维模型转换为二维图像，并通过改变虚拟场景获得多种不同的二维图像；

图像合成模块，用于将多种不同的二维图像分别叠加到随机背景图的任意位置上得到合成图，并对所述合成图进行标注，获得合成样本；还用于：

对所述未裁剪蒙版进行裁剪和归一化，获得蒙版；

根据所述蒙版，得到反蒙版；

为实现上述目的，本发明还提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

为实现上述目的，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的方法的步骤。

与现有技术相比，本发明的有益效果有：

本发明提供的基于三维重建的物体空间数据增广方法通过物体的少量多视角图像重建出物体的三维模型，然后对该三维模型进行不同虚拟场景设置下的图像渲染得到三维模型不同角度、不同大小、不同光照强度下的二维图像，再将二维图像叠加到随机背景图的随机位置上生成合成图并标注，得到大规模多样化合成样本，可有效克服现有技术中难以构建出物体的CAD模型、无法得到多样性强的合成样本等缺陷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明提供的基于三维重建的物体空间数据增广方法的流程图；

图2为本发明实施例中获取的多视角图像；

图3为本发明实施例中重建获得的三维模型的上表面和底面示意图；

图4为本发明实施例中图像渲染的示意图；

图5为本发明实施例中物体图像渲染角度的随机化的示意图；

图6为本发明实施例中相机绕

轴在

平面内旋转的示意图；

图7为本发明实施例中在blender中相机渲染范围的示意图；

图8为本发明实施例中在blender中进行图像渲染的流程图；

图9为本发明实施例中获得的部分二维图像；

图10为本发明实施例中对未裁剪蒙版进行裁剪的示意图；

图11为MS-COCO公开数据集中的部分图像；

图12为本发明实施例中蒙版生成示意图；

图13为本发明实施例中背景叠加示意图；

图14为本发明实施例中合成图的标注示意图；

图15为本发明实施例中未进行平滑的二维图像的灰度图，其中，（a）为未进行平滑的二维图像的灰度图，（b）为（a）中方框部分的放大图；

图16为本发明实施例中高斯模糊效果图；

图17为本发明实施例中获得的合成图；

图18为有效性验证中待检测的目标物体；

图19为有效性验证中的部分扩展图；

图20为有效性验证中的部分测试图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出一种基于三维重建的物体空间数据增广方法，如图1所示，包括：

101：获取物体的多视角图像；

将物体固定在某一位置，从多个视角拍摄少量高质量的物体图像，该少量高质量的物体图像则为物体的多视角图像。

102：根据多视角图像进行点云的重建，获得物体的三维模型；

点云，通过测量仪器得到的产品外观表面的点数据集合。点云包括稀疏点云和稠密点云；点数量比较少，点与点的间距比较大，称为稀疏点云；点数量比较大并且比较密集，称为稠密点云。

103：设定虚拟场景，将三维模型置于虚拟场景中，通过图像渲染将三维模型转换为二维图像，并通过改变虚拟场景获得多种不同的二维图像；

虚拟场景的设置包括相机、光源和三维模型等的设置。

104：将多种不同的二维图像分别叠加到随机背景图的任意位置上得到多张合成图，并对合成图进行标注，获得合成样本；将多种不同的二维图像分别叠加到随机背景图的任意位置上得到多张合成图，包括：

对所述未裁剪蒙版进行裁剪和归一化，获得蒙版；

根据所述蒙版，得到反蒙版；

在其中一个实施例中，对于步骤101，物体的多视角图像如图2所示，包括50张多视角图像，用于后续的三维模型重建。

在下一个实施例中，对于步骤102，根据多视角图像进行点云的重建，获得物体的三维模型，包括：

201：确定多视角图像的相对位置关系，并根据多视角图像及其相对位置关系进行稀疏点云的重建；

稀疏点云的重建过程会剔除掉未成功定位的多视角图像，防止低质量的多视角图像干扰物体完整三维模型的建立。

202：根据稀疏点云，获得多视角图像拍摄的场景信息，根据稀疏点云和场景信息进行稠密点云的重建，并通过图像的空间映射得到物体的表面纹理信息；

稠密点云的数量与多视角图像的质量密切相关，当多视角图像反光严重时无法获取多视角图像的信息，反光区域的稠密点云数量会非常稀少，将会导致最终生成的三维模型有孔洞。

203：根据稠密点云建立初始网格；

204：利用表面纹理映射将表面纹理信息转变为纹理贴图，将纹理贴图对应贴在初始网格上，获得纹理化网格；

205：对纹理化网格进行前景分割，获得所述物体的三维模型。

重建出的纹理化网格中包括了多视角图像中物体所在的背景，为了得到完整的物体三维模型，还需要对纹理化网格进行前景分割，以去掉多余的背景部分。

本实施例中采用的三维重建软件为3DF Zephyr Aerial，该软件可以实现从多视角图像导入到生成三维模型的全过程，只需少量人工操作，接近全自动。3DF ZephyrAerial中每个步骤的预设方式均选择“深度”、类别均选择“近景”。用50张物体多视角图像（如图2所示）重建出的三维模型如图3所示，不难发现，重建出的三维模型底面不全，这是由于多视角图像中未包含物体底面的图像。

在另一个实施例中，对于步骤103，设定虚拟场景，将三维模型置于虚拟场景中，通过图像渲染将三维模型转换为二维图像，并通过改变虚拟场景获得多种不同的二维图像，包括：

301：设定虚拟场景，将三维模型置于虚拟场景中；

302：以三维模型为原点，建立xyz三维直角坐标系；

303：将相机置于xyz三维直角坐标系的z轴上，利用相机，通过图像渲染将三维模型转换为二维图像；

图像渲染，如图4所示，相机可视为一个小的“金字塔”，从金字塔的顶点向下端平行四边形的四个顶点做延伸线，生成的与原金字塔等比例放大的金字塔（理论上无限大）部分是可以被镜头拍到的。待渲染物体放置在放大金字塔减去小金字塔的空间之内，即图4中虚线部分。光源有太阳光、点光源、面光源、锥形光源等，虚拟场景中的光源往往无实体。

304：并通过改变虚拟场景，获得多种不同的二维图像。

通过改变虚拟场景的设置，以增强获得的二维图像的多样性。

本实施例通过改变虚拟场景的参数、物体的形态等，以增加生成的合成样本的复杂性，提高训练出的模型的稳定性。

在下一个实施例中，对于步骤304，改变虚拟场景包括改变虚拟场景的光照强度、物体尺寸和相机观察角度中的至少一种。

在某个实施例中，改变虚拟场景的光照强度，包括：

设定光照强度的强度变动范围，每次进行图像渲染时在所述强度变动范围内随机选取一个光照强度；

改变虚拟场景的物体尺寸，包括：

设定物体尺寸的尺寸变动范围，每次进行图像渲染时在所述尺寸变动范围内随机选取一个物体尺寸；

改变虚拟场景的相机观察角度，包括：

相机位置固定，物体绕

轴在

平面内旋转；

物体位置固定，利用旋转矩阵使相机绕

轴在

平面内旋转。

三维重建的输入图像（即多视角图像）为物体固定在某个位置拍摄的图像，容易出现重建出的三维模型底面不全的现象。为了使图像渲染出的图片都是三维模型完整的部分，在进行物体图像渲染角度的随机化选取时，需要保证相机的位置始终在物体底面的水平面之上。

本实施例中，物体图像渲染角度的随机化如图5所示，相机位置固定，物体放置在坐标原点

，使物体绕

轴在

平面内旋转，物体底面与

平面平行，可以得到某个固定的倾斜角度下物体360°（即物体的某条“纬线”上）的二维图像；物体位置固定，利用旋转矩阵使相机绕

轴在

平面内旋转，运动轨迹为以物体为圆心、相机顶点（即图中三角形的顶点）到物体的长度为半径的圆弧，相机顶点的

坐标不小于

，这样可以保证不会拍摄到物体底面，且相机始终以物体为拍摄的焦点，让物体处在相机正中央的位置，可以得到物体某条“经线”上半部分的二维图像。如此可以得到物体重建完整的三维模型部分各个角度的二维图像，且渲染出的图片中物体的大小不会在角度随机化过程中发生变化。

在下一个实施例中，相机绕

轴在

平面内的旋转如图6所示，（图6中大拇指指向y轴正向时，其他手指弯曲方向为正），设一点

绕

轴旋转

角得到点

。相机绕

轴旋转时，

坐标保持不变，除

轴之外，

组成的平面进行一次二维的旋转，有：

上式写成矩阵形式如下：

式中，

为旋转前的相机位置；

为旋转后的相机位置；

为旋转矩阵，

为旋转角。

在某个实施例中，对于步骤103，具体的实现过程为：

选用的图像渲染软件为blender，内置python脚本，可通过编程控制场景设置。图像渲染软也可以选用其他图像渲染软件。

（1）场景设置

相机的类型选择“透视”，即渲染出的图片与现实世界中查看事物的方式相同，遵循“近大远小”的原则；相机的焦距定为“13.2mm”，使镜头能拍到的角度较广；相机的裁剪起点为“0.1m”，结束点为“100m”。相机的裁剪起始和结束点即为限制“金字塔”无限大的因素，如图7所示，起始点为相机的最近显示距离、结束点为相机的最远显示距离，在此范围中的物体才能被渲染；相机的

坐标值设置为0，旋转角为（0,0,0）。

光源选择“太阳光”，太阳光代表从无限远处向同一方向发射的恒定强度的光，由于被认为是无限远处发出的，所以太阳光位置的变化不会改变渲染结果，但可以通过旋转来改变光的方向。太阳光的颜色设置为默认的白光，旋转角度设置为

，角直径设置为179º。

物体的三维模型导入blender后会因为坐标系的不同而十分巨大，需要进行等比例的缩放。物体的位置设置在坐标原点

。旋转角度为

欧拉的模式。

视图场景采用的是blender默认的全局坐标系，

轴永远向上。

（2）图像渲染

为了使渲染出的图片都是三维模型完整的上半部分，在blender中，首先需要将导入的三维模型通过旋转工具变为顶部朝上、底部朝下，然后通过代码控制实现只渲染三维模型的上半部分。

blender中实现相机以物体为圆心是通过“添加物体约束功能”，选择为标准跟踪约束，追踪的目标为物体的三维模型，相机指向三维模型的

轴、并与三维模型的

轴对齐，则相机能始终绕

轴旋转，

位置坐标保持0。

blender中进行图像渲染的流程图如图8所示。物体

轴的旋转角能保证物体绕

轴360°等间隔渲染，相机旋转矩阵的变换能保证得到物体某条经线上半部分的渲染图像。图中

矩阵为相机初始位置矩阵，

，其中

，

用来保证渲染出的图像无底面孔洞。

矩阵为旋转角为

时绕

轴旋转的旋转矩阵，

。

值中参数

的确立是用来保证相机的

值始终大于0，确保不会渲染重复的图像。图8中的i、j只是流程图中用于计数的，i用于确保物体旋转次数为r1，j用于确保相机旋转次数为r2，最终输出的渲染图即为二维图像。

本实施例中，

，设置输出图像的分辨率均为

，获得的部分二维图像如图9所示，为了便于观察，此图裁剪了部分背景。

在另一个实施例中，对于步骤104，将多种不同的二维图像分别叠加到随机背景图的任意位置上得到多张合成图，包括：

401：将多种不同的二维图像分别转换为灰度图，将所述灰度图二值化得到初始蒙版；

将灰度图二值化得到初始蒙版：

式中，

表示灰度图中某点的像素坐标；

表示灰度图；

表示二值化之后的图；

表示阈值；

表示最大值，意义是将灰度图中像素值大于阈值的部分置为

代表的像素值（0或255）、常为白色（255），二值化的效果为将灰色的图像变为像素“非黑即白”的图像。

402：寻找初始蒙版中的最大轮廓，用白色填充所述最大轮廓中的内容，得到未裁剪蒙版；

蒙版生成过程如图12所示，图中从左至右依次为物体的二维图像、灰度图、初始蒙版和未裁剪蒙版。

403：对未裁剪蒙版进行裁剪和归一化，获得蒙版；

裁剪如图10所示，图中黑框代表图像边界，五角星代表物体。裁剪之后分辨率变为

，

为物体真实框的宽、

为物体真实框的高，且

、

，因此裁剪是在得到物体真实框大小信息的基础之上进行的。

由于用于验证本发明数据增广方法有效性的YOLOv3算法使用

分辨率的图像作为训练的输入数据，并且对

分辨率图像的检测效果最好，因此本实施例将所有用于训练和测试的图像都归一化为

大小。

404：根据蒙版，得到反蒙版；

405：将反蒙版置于随机背景图的任意位置，将二维图像中蒙版对应的图像叠加到背景图中反蒙版对应的位置处，得到合成图。

采用MS-COCO公开数据集中的图像作为背景图，MS-COCO公开数据集（LIN T,MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context[C].European conference on computer vision, 2014: 740-755.）2017年版本的数据集，该数据集有118,287张不同大小不同场景的图像，部分图像如图11所示。在进行背景叠加之前，选用的随机背景图需要进行归一化缩放。

背景叠加如图13所示，图中从左至右依次为前景图（对二维图像进行裁剪和归一化后的图像）、蒙版、反蒙版、背景图、反蒙版盖住背景图中叠加区域和合成图。

值得注意的是，本发明并未直接在裁剪后的二维图像上生成蒙版，而是采用先生成蒙版后裁剪的“复杂”方法，是因为裁剪后的二维图像中物体边缘与图像边缘几乎重合，在生成蒙版时会出现物体边缘的白色粘连到图像边缘的情况，导致叠加后的图像出现黑色短线。

在下一个实施例中，对于步骤104，对合成图进行标注，包括：

对合成图中物体的真实框长宽进行标注以及对随叠加位置变化而变化的真实框在背景图中的定位进行标注。

本实施例中合成图的标注如图14所示。不同深度学习目标检测算法对标注信息的要求不同，例如本发明用于验证数据增广方法有效性的两种算法中，YOLOv3需要得到真实框中心坐标的位置以及真实框的长宽、而SSD则是需要知道真实框左上角和右下角的坐标。

在某个实施例中，对于步骤104，还包括对蒙版进行平滑的步骤。渲染出的图片由于分辨率和渲染工具等原因，边缘是比较模糊的；将其转换为灰度图时模糊的部分都变为了黑色，留下了锯齿边缘，如图15所示（图15中（a）为未进行平滑的二维图像的灰度图，（b）为（a）中方框部分的放大图）。对灰度图二值化处理，将不是黑色的部分全部置为白色，经处理后的蒙版也会有锯齿边缘，最后生成的合成图同样保留下了锯齿边缘。

本实施例中，为了平滑边缘，让前景图与背景图的融合更加自然，本实施例采用高斯模糊的方式，“模糊”可以理解为每一个像素都取周围像素的平均值。图像都是二维的，采用的高斯模型也是二维的，

式中，

表示高斯分布的标准差。

本实施例选用的窗口大小

为

，由下式推算出

=0.8，

值越小，分布越集中，中间部分所占比重远远高于其他部分，即高斯模板的中间元素远大于其他元素值。本实施例高斯模糊是针对蒙版进行的，对图像进行高斯模糊会损失部分纹理信息，对蒙版高斯模糊之后再二值化可以消除部分锯齿。

=0.8较小说明高斯模糊时更重视中间元素的比重，在防止蒙版变形的同时平滑边缘。

高斯模糊的效果图如图16所示，图16中(a)为高斯模糊之前的蒙版，（c）为高斯模糊再二值化之后的蒙版，而(b)为（a）和（c）中方框内的局部放大图，（d）为未经过高斯模糊的合成图，（f）为经高斯模糊后生成的合成图，（e）为（d）和（f）中方框内的局部放大图（图中方框为各图局部放大的部位，箭头所指向的为相对应的局部放大图）。(a)和(c)右上角方框对应的局部放大图对比可发现高斯模糊后蒙版的转角更流畅；由(a)和(c)右下角方框对应的局部放大图对比可发现高斯模糊后蒙版边缘锯齿平滑了许多；由(d)和(f)中方框对应的局部放大图对比可发现经高斯模糊后生成的合成图中边缘锯齿也得到了有效平滑。本实施例中最终得到的合成图如图17所示。

对本发明提供的基于三维重建的物体空间数据增广方法进行有效性验证：

本发明区别于已有数据增广方法的地方在于输入图像集较小，即用少量目标物体图像作为输入，即可得到大量多样性强的合成样本，使原始图像稀缺时训练出高精度目标检测系统成为可能。

为了验证本发明数据增广方法的有效性，搜集了四种不同的目标物体，如图18所示，从左至右分别为box（盒子）、deng（邓氏鱼）、morse（海象）、whale（鲸）。对每种目标物体，拍摄50张多视角图像。

对每种目标物体，以多视角图像作为输入，通过本发明提供的基于三维重建的物体空间数据增广方法，得到大量多样性强的合成样本。

为了测试本发明数据增广方法的效果，需要引入几个图像集及其对应的样本概念：

（1）合成图像集：即通过本发明提供的数据增广方法之后生成的合成图像集合。每类目标物体的二维图像数目为1024，每张二维图像叠加的背景图数组数目为1，共4类物体，故合成图像集共有1024*1*4=4096张图片。合成样本：指由合成图像集及其标注构成的样本。

（2）原始图像集：即用于重建物体三维模型的输入图片（多视角图像），是在同一场景下拍摄得到的。每类物体用50张图片重建模型，共200张图片。原始样本：指由原始图像集及其标注构成的样本，用于验证输入相同的情况下合成样本数据对原始样本数据的增广作用。

（3）扩展图像集：即在不同场景下拍摄的目标物体不同大小不同角度的真实图像集合。每类物体拍摄50张拓展图，共200张图片。扩展样本：指由扩展图像集及其标注构成的样本，用于验证合成样本数据对一般样本数据的增广作用。部分扩展图如图19所示。

（4）测试图像集：指在另一些不同场景下拍摄的物体不同大小不同角度的真实图像集合，用于所有训练模型的效果检测。每类物体拍摄100张测试图，共400张图片。测试样本：指由测试图像集及其标注构成的样本。部分测试图如图20所示。

在有效性验证中，进行深度学习模型训练的数据集分为七种：由合成样本构成的训练数据集、由原始样本构成的训练数据集、由合成+原始样本构成的训练数据集、由扩展样本构成的训练数据集、由合成+扩展样本构成的训练数据集、由原始+扩展样本构成的训练数据集、由合成+原始+扩展样本构成的训练数据集，简称合成训练集、原始训练集、合成+原始训练集、扩展训练集、合成+扩展训练集、原始+扩展训练集、合成+原始+扩展训练集。

深度学习模型训练参数设置：

（1）YOLOv3参数设置

YOLOv3的学习率设置为默认的0.001，输入图像分辨率为416×416；训练的batch_size为6（即同时可以训练6张图片），epoches为100，采用的预训练权重为darknet53.conv.74；测试设置的置信度阈值为0.001，IoU阈值为0.5和0.75。

（2）SSD参数设置

SSD的学习率设置为0.0001（因为训练收敛较快，学习率高会出现过拟合，导致检测不到物体），输入图像的分辨率为416×416，训练的batch_size为10，iteration约等于100/10*训练集图像数目（即迭代次数与YOLOv3几乎相同），采用的预训练权重为vgg16_reducedfc.pth；测试的置信度阈值为0.001，IoU阈值为0.5和0.75。

定量评估结果与分析：

在YOLOv3和SSD上采用的训练数据集与生成模型的检测效果如表1、2所示，AP@0.5是在IoU阈值设置为0.5时的精度均值，MAP@0.5指在IoU阈值设置为0.5时的平均精度均值，MAP@0.75指在IoU阈值设置为0.75时的平均精度均值，将表中每列最大的数值加粗。

由表1可以看出，合成样本能对原始样本和扩展样本及其组合起到有效的增强作用。由各目标物体在各训练数据集下训练出的模型的AP@0.5，不难发现，经合成样本增广之后，各训练模型的AP@0.5均有显著增长,这种增长也具体反映到了衡量模型检测效果的MAP@0.5上。经合成样本增广后，原始训练集的MAP@0.5从0.084增加到了0.546，提高了5.5倍，MAP@0.75从0.005增加到了0.224，提高了43.8倍；对扩展样本，合成样本也同样起到了有效的增广作用，扩展训练集的MAP@0.5从0.477增加到了0.884，增幅为85%，MAP@0.75从0.126增加到了0.472，提高了2.7倍；把原始样本和扩展样本作为一个训练集时，MAP@0.5为0.563，而再加上合成样本之后，MAP@0.5达到了0.858，增幅为52%，MAP@0.75从0.103增加到了0.536，提高了4.2倍。

而如此大幅度地提升模型检测效果无须手工标注，说明本发明基于三维重建的物体空间数据增广方法的优越性。纵观整张表格，各目标物体AP@0.5最高的数值、MAP@0.5最高的数值、MAP@0.75最高的数值均在有合成图像进行数据增广的训练数据集中，进一步说明本发明数据增广方法的有效性。

表2中各训练数据集的检测效果均比在YOLOv3上的检测效果要好，说明本发明的小型训练数据集更适合SSD深度学习目标检测算法；虽然训练算法不同，但合成样本对其他样本的增强作用是相同的。同样，经过合成样本增广之后，各训练模型的AP@0.5均有显著增长，原始训练集的MAP@0.5从0.208增加到了0.867，提高了3.2倍，MAP@0.75从0.061增加到了0.613，提高了9倍；扩展训练集的MAP@0.5从0.864增加到了0.990，增幅为15%，MAP@0.75从0.378增加到了0.882，提高了1.3倍；原始+扩展训练集的MAP@0.5从0.938增加到了0.989，增幅为5%，MAP@0.75从0.523增加到了0.901，增幅为72%。各目标物体AP@0.5最高的数值、MAP@0.5最高的数值、MAP@0.75最高的数值也均在有合成样本进行数据增广的训练数据集中。

表1 YOLOv3上各训练数据集检测效果

表2 SSD上各训练数据集检测效果

综上所述，经合成样本数据增广后，各模型的MAP@0.5和MAP@0.75均能得到大幅度的提升，MAP@0.5是IoU阈值设置较低时得到的平均精度均值，说明模型能检测到物体的概率提升了；MAP@0.75是IoU阈值设置较高时得到的平均精度均值，筛选掉了定位相对不精确的检测，说明模型定位的精度提升了。原始样本和合成样本获取的输入是相同的，而用合成样本增强原始数据集后，训练出的模型检测性能大大提升，说明本发明数据增广方法是有效的；对于有不同输入的扩展数据集，合成样本也能使增广之后的数据集性能更优，说明本发明数据增广方法不仅对稀缺原始样本数据集有增强效果、对一般的数据集也有较好的适用性，具有普适性和发展性，重建出物体的三维模型后，即便原始样本丢失，也可以用合成样本增强少量扩展数据集来获取高目标检测率的系统。

虽然使用的训练平台不同，但能得到相同的结论：本发明基于三维重建的物体空间数据增广方法能有效地增强数据集，不但能提升模型检测到物体的概率，而且让检测定位的准确度大幅提升，使得在仅有原始稀缺样本的条件下训练出高精度目标检测系统成为可能。

本发明还提出一种基于三维重建的物体空间数据增广系统，包括：

图像获取模块，用于获取物体的多视角图像；

对所述未裁剪蒙版进行裁剪和归一化，获得蒙版；

根据所述蒙版，得到反蒙版；

在其中一个实施例中，建模模块还包括：

确定所述多视角图像的相对位置关系，并根据多视角图像及其相对位置关系进行稀疏点云的重建；

根据所述稀疏点云，获得多视角图像拍摄的场景信息，根据所述稀疏点云和所述场景信息进行稠密点云的重建，并通过图像的空间映射得到所述物体的表面纹理信息；

根据所述稠密点云建立初始网格；

利用表面纹理映射将所述表面纹理信息转变为纹理贴图，将所述纹理贴图对应贴在所述初始网格上，获得纹理化网格；

对所述纹理化网格进行前景分割，获得所述物体的三维模型。

在下一个实施例中，图像渲染模块还包括：

设定虚拟场景，将所述三维模型置于所述虚拟场景中；

以所述三维模型为原点，建立xyz三维直角坐标系；

将相机置于所述xyz三维直角坐标系的z轴上，利用相机，通过图像渲染将所述三维模型转换为二维图像；

并通过改变虚拟场景获得多种不同的二维图像。

在另一个实施例中，对于图像渲染模块，改变虚拟场景包括改变虚拟场景的光照强度、物体尺寸和相机观察角度中的至少一种。

在下一个实施例中，图像渲染模块还包括：

改变虚拟场景的物体尺寸，包括：

改变虚拟场景的相机观察角度，包括：

相机位置固定，物体绕

轴在

平面内旋转；

物体位置固定，利用旋转矩阵使相机绕

轴在

平面内旋转。

在某个实施例中，图像渲染模块还包括：

物体位置固定，利用旋转矩阵使相机绕

轴在

平面内旋转为：

式中，

为旋转前的相机位置；

为旋转后的相机位置；

为旋转矩阵，

为旋转角。

在另一个实施例中，图像合成模块还包括：

对所述未裁剪蒙版进行裁剪和归一化，获得蒙版；

根据所述蒙版，得到反蒙版；

本发明还提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的方法的步骤。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。