CN113144615B

CN113144615B - 一种从单张设计图片建模3d场景系统

Info

Publication number: CN113144615B
Application number: CN202110564613.8A
Authority: CN
Inventors: 谭彬
Original assignee: Shanghai Suihuan Intelligent Technology Co ltd
Current assignee: Shanghai Suihuan Intelligent Technology Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2024-04-30
Anticipated expiration: 2041-05-24
Also published as: CN113144615A

Abstract

本发明涉及计算机视觉技术领域，具体地说，涉及一种从单张设计图片建模3D场景系统。其包括：渲染：在渲染引擎中，随机排布物体，得到渲染结果图和每个物体3D物体变换矩阵的数据集；提取模型：利用深度学习网络从数据集中提取预测模型；实例分割：输入单张场景设计图片，预测出实例分割的结果和每个实例的3D物体的变换矩阵；建模：将单个实例对应的物体，以变换矩阵的指导放置到场景中，完成结果建模。本发明中通过利用深度神经网络MaskR‑CNN进行实例分割，得到2D物体包围盒和包围盒区域的图像，并根据实例分割结果对应一个3D物体的2D平面映射，使单张设计图片自动化完成3D场景布置，从而可以大幅度降低场景的构建时间，加快了场景的构建速度。

Description

一种从单张设计图片建模3D场景系统

技术领域

本发明涉及计算机视觉技术领域，具体地说，涉及一种从单张设计图片建模3D场景系统。

背景技术

3D建模广泛应用于建筑、家装、虚拟城市、ARVR、3D游戏等领域。将模型置入渲染引擎中，可以离线或事实的渲染出3D效果的画面。将模型在场景中进行布置，形成整个场景素材，被称为构建场景，一般都是3D美术师使用3D建模软件来构建。场景的构建对整体的最终渲染效果有非常重要的影响。

但是，传统的场景构建方法，要打磨好一个场景，需要大量的沟通、手动调整。需要UI设计师先出单张场景设计图(2D)，然后3D美术师根据设计图做3D场景的布置。无论从出品速度还是成本层面，都是3D应用的一个重要制约因素。而且换一个应用场景，之前的物体素材虽然可以复用，但是场景仍然需要重新布置，较为浪费时间。

发明内容

本发明的目的在于提供一种从单张设计图片建模3D场景系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供一种从单张设计图片建模3D场景系统，包括以下步骤：

渲染：在渲染引擎中，随机排布物体，得到渲染结果图和每个物体3D物体变换矩阵的数据集；

提取模型：利用深度学习网络从数据集中提取预测模型；

实例分割：输入单张场景设计图片，预测出实例分割的结果和每个实例的3D物体的变换矩阵；

建模：将单个实例对应的物体，以变换矩阵的指导放置到场景中，完成结果建模。

作为本技术方案的进一步改进，所述数据集采用InGame加载素材方法，其方法步骤如下：

随机从模型库中加载模型并进行摆放；

渲染结果图；

生成合成数据集。

作为本技术方案的进一步改进，所述输入单张场景设计图片采用深度神经网络方法对图片进行实例分割，得到2D物体包围盒和包围盒区域的图像。

作为本技术方案的进一步改进，所述实例分割采用深度神经网络Mask R-CNN对图片进行实例分割，其分割步骤如下：

图像输入：输入待检测的图像；

区域建议：对第一步输入的图像进行区域框的选取；

特征提取：使用CNN网络对选取存在物体的潜在区域进行特征提取；

SVM分类：将提取出来的特征送入SVM分类器得到分类模型，且每个类别对应一个SVM分类器，每个类别的分类器判断特征的类别；

边框回归：修正区域建议得到的图像区域，且每个图像区域的类别对应一个回归模型；

使用非极大值抑制输出：当几个区域选择的是同一个区域内的物体，使用非极大值抑制LOU≥0.5获取无冗余的区域子集。

作为本技术方案的进一步改进，所述CNN网络特征提取的步骤如下：

对整张图片输进CNN，得到特征图；

找到每个候选框在特征图上的映射补丁，将此补丁作为每个候选框的卷积特征输入到SPP layer和之后的层；

通过映射补丁将特征图中的特征提取出来。

作为本技术方案的进一步改进，所述图像区域的类别和回归模型对应的公式如下：

其中，x_i为候选区域的特征值组，y_i为目标值组，T为近似度，为候选区域的特征值的平均值，/>为目标值的平均值。

作为本技术方案的进一步改进，所述3D物体的变换矩阵的步骤如下：

获取实例分割的结构，采用深度学习网络PoseNet将每个实例分割结果对应一个3D物体；

对3D物体进行旋转、位移、缩放和被遮挡后的2D平面映射；

计算出3D物体的坐标数值。

作为本技术方案的进一步改进，所述3D物体的坐标数值的变换矩阵公式为：

其中C^-1为相机的变换矩阵，U_x、U_y、U_z、V_x、V_y、V_z、N_x、N_y、N_z为UVN系统中的在U、V、N基点中的坐标，T为平移变换系数。

作为本技术方案的进一步改进，所述建模的步骤如下：

获取3D物体的坐标数值；

将单个实例对应的物体根据变换矩阵坐标数值的指导放入到场景中的位置上。

与现有技术相比，本发明的有益效果：

该从单张设计图片建模3D场景系统中，通过利用深度神经网络Mask R-CNN进行实例分割，同时得到2D物体包围盒和包围盒区域的图像，并根据实例分割结果对应一个3D物体的2D平面映射，使单张设计图片自动化完成3D场景布置，从而可以大幅度降低场景的构建时间，加快了场景的构建速度。

附图说明

图1为实施例1的整体流程框图；

图2为实施例1的整体步骤框图；

图3为实施例1的实例分割步骤框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例1

本发明提供一种从单张设计图片建模3D场景系统，请参阅图1-图3，包括以下步骤：

提取模型：利用深度学习网络从数据集中提取预测模型；

进一步的，数据集采用InGame加载素材方法，其方法步骤如下：

随机从模型库中加载模型并进行摆放；

渲染结果图；

生成合成数据集；

在数据集的构建中，使用UE4游戏引擎进行渲染。

同时，在建立数据集时，所使用的场景，并不含从自然实景2D图片预测3D要求，因此在构建数据集时，不需要收集海量的可以描述自然万物的3D素材，且输入的图片是UI设计师给出的2D平面场景设计图，此时3D物体的素材不会超过模型库中的范畴。

其中，输入单张场景设计图片采用深度神经网络方法对图片进行实例分割，得到2D物体包围盒和包围盒区域的图像。

实例分割采用深度神经网络Mask R-CNN对图片进行实例分割，其分割步骤如下：

图像输入：输入待检测的图像；

区域建议：对第一步输入的图像进行区域框的选取，常用的方法是选择性搜索边框，主要是利用图像的边缘、纹理、色彩、颜色变化等信息在图像中选取可能存在包含物体的区域；

特征提取：使用CNN网络对选取存在物体的潜在区域进行特征提取；当在区域选取中所提取出来的图像的尺寸大小不一样，但卷积后输出的特征尺度相同时，将区域建议选取的区域进行缩放处理成统一的227x227的大小，再送到CNN中特征提取；R-CNN特征提取用的网络是对ImageNet上的AlexNet的CNN模型进行pre-train得到的基本的网络模型，然后需要对网络进行fine-tune，其他的都用AlexNet的网络结构fine-tune，其中包括五层卷积和两层全连接层；

边框回归：修正区域建议得到的图像区域，且每个图像区域的类别对应一个回归模型；边框回归主要是为了精准定位，它所做的就是把旧的区域重新映射到新的区域/>中，中心位置(x,y)-宽高尺寸(w,h)；

其中，t_x、t_y、t_w、t_h分别为在直角坐标系和极坐标系下的比例关系，W_* ^Tφ₅(Pⁱ)为位置的修正数值，W_*为调整后的区域；

使用非极大值抑制输出：当几个区域选择的是同一个区域内的物体，使用非极大值抑制LOU≥0.5获取无冗余的区域子集，包括步骤如下：

所有区域分值从大到小排列；

剔除冗余，与最大分值区域LOU≥0.5的所有区域；IoU的值越接近1，说明两区域越接近重合，也就是说两候选区域预测的是同一个目标。

保留最大分值区域，剩余区域作为新的候选集。

进一步的，CNN网络特征提取的步骤如下：

对整张图片输进CNN，得到特征图；

通过映射补丁将特征图中的特征提取出来。

具体的，图像区域的类别和回归模型对应的公式如下：

其中，x_i为候选区域的特征值组，y_i为目标值组，T为近似度，为候选区域的特征值的平均值，/>为目标值的平均值。当T越靠近1，则图像区域的类别和回归模型相似度越少，对应匹配失败率越大，当T越远离1靠近0，则图像区域的类别和回归模型相似度越大，对应匹配成功率越大。

此外，3D物体的变换矩阵的步骤如下：

对3D物体进行旋转、位移、缩放和被遮挡后的2D平面映射；

计算出3D物体的坐标数值：

进一步的，计算3D物体的坐标数值的变换矩阵公式为：

具体的，建模的步骤如下：

获取3D物体的坐标数值；

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种从单张设计图片建模3D场景系统，其特征在于：包括以下步骤：

提取模型：利用深度学习网络从数据集中提取预测模型；

建模：获取3D物体的坐标数值，将单个实例对应的物体根据变换矩阵坐标数值的指导放入到场景中的位置上，完成结果建模。

2.根据权利要求1所述的从单张设计图片建模3D场景系统，其特征在于：所述数据集采用InGame加载素材方法，其方法步骤如下：

随机从模型库中加载模型并进行摆放；渲染结果图；生成合成数据集。

3.根据权利要求1所述的从单张设计图片建模3D场景系统，其特征在于：所述输入单张场景设计图片采用深度神经网络方法对图片进行实例分割，得到2D物体包围盒和包围盒区域的图像。

4.根据权利要求1所述的从单张设计图片建模3D场景系统，其特征在于：所述实例分割采用深度神经网络Mask R-CNN对图片进行实例分割，其分割步骤如下：

图像输入：输入待检测的图像；

区域建议：对第一步输入的图像进行区域框的选取；

5.根据权利要求4所述的从单张设计图片建模3D场景系统，其特征在于：所述CNN网络特征提取的步骤如下：

对整张图片输进CNN，得到特征图；

通过映射补丁将特征图中的特征提取出来。

6.根据权利要求4所述的从单张设计图片建模3D场景系统，其特征在于：所述图像区域的类别和回归模型对应的公式如下：

7.根据权利要求1所述的从单张设计图片建模3D场景系统，其特征在于：所述3D物体的变换矩阵的步骤如下：

对3D物体进行旋转、位移、缩放和被遮挡后的2D平面映射；

计算出3D物体的坐标数值。

8.根据权利要求7所述的从单张设计图片建模3D场景系统，其特征在于：所述3D物体的坐标数值的变换矩阵公式为：