CN110458957A

CN110458957A - 一种基于神经网络的图像三维模型构建方法及装置

Info

Publication number: CN110458957A
Application number: CN201910701784.3A
Authority: CN
Inventors: 陈晋音; 林安迪; 李玉玮; 郑海斌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-15
Anticipated expiration: 2039-07-31
Also published as: CN110458957B

Abstract

本发明公开了一种基于神经网络的图像三维模型构建方法，包括以下步骤：特征提取步骤：利用二维CNN提取二维图像的图像特征；拼接步骤：将原始网格模型的三维坐标与所述图像特征拼接为图结构的顶点特征向量；三维坐标重建步骤：利用GCN对所述图结构的顶点特征向量进行卷积变形，获得新顶点及对应的三维坐标；三维模型重构步骤：根据新顶点的三维坐标既获得图像三维模型。还公开了一种神经网络的图像三维模型构建装置，该图像三维模型构建方法及装置可以应用于家具图像以及室内装修图的三维重建。

Description

一种基于神经网络的图像三维模型构建方法及装置

技术领域

本发明属于3D重建领域，具体涉及一种基于神经网络的图像三维模型构建方法及装置。

背景技术

目前，市面上存在的各种3D模型大多数都为3D艺术家及3D模型行业从业人员手动创建的，这是一项时间密集，成本高昂而且毫无拓展性的工作。并且，此行业中还存在着缺少此类手动3D建模的人才的情况。因此，减少3D重建人工的投入是具有重要经济利益的。

目前，深度学习已经被广泛的应用于目标检测、图像检测、数据生成等领域。近几年来，深度学习技术也开始被应用于3D重建这一领域。卷积神经网络(CNN)是目前深度学习中较为先进的技术之一，CNN也已经被大量研究证明在处理2维图片方面时能展现强大的性能。然后当将CNN应用一些数据结构并不规律整齐，例如图结构时，并不能取得很好的结果。而在3D重建过程中，3D模型往往没有像图像一样有整齐的结构。但随着GCN图卷积神经网络的发展，为数据结构不整齐的数据提供了卷积方案。图卷积神经网络可以对数据结构为图的数据进行很好的特征提取。

现有的3D模型重建方法，基本上都采用多视角的方法或者深度相机拍摄。例如SFM算法，需要输入大量不同角度的图片，即需要获得待3D重建物体的表面完整信息，将获得的各视角的点云图数据变换到同一个坐标系下，完成多视角的数据坐标校准，才能够重建出精确度较高的3D模型坐标点，之后再配合上meshlab对模型进行表面的绘制修改等操作才可以重建出精确度高的3D模型。在日常生活中，获得某个物体的多张不同角度的图片在某些情况下很难做到，比如摄像机与物体的位置角度无法改变时，想要通过输入多张图片来获得物体精确度较高的3D模型几乎难以实现。当然，输入单张图片进行3D重建的方法已经开始发展，如3D-R2N2，pixel2Vox等，但这些深度学习算法虽然支持输入单张图片进行3D重建，但生成的3D模型为体素模型，与真实模型相差过大，基本无法投入实际应用。因此推出mesh结构的3D模型。

网格(Mesh)模型是一种发展潜力巨大的，适合编码的3D物体结构。相比于其他模型结构，诸如点云模型，体素模型，Mesh模型拥有其他模型没有的表面，以及表面光滑的特征细节，且使用mesh模型的3D模型基本上可以直接投入实际应用之中，mesh结构较其他3D模型如点云模型，体素模型等更容易修改或进一步加工，而图结构可以很好地用来表示Mesh的结构，通过基于图的卷积神经网络，就可以获得较好的结果。

发明内容

本发明的目的是提供一种基于神经网络的图像三维模型构建方法及装置，利用该图像三维模型构建方法及装置只要给出单张的RGB图片，既可以自动重建获得图像的三维模型。该图像三维模型构建方法及装置可以应用于家具图像以及室内装修图的三维重建。

本发明的技术方案为：

一种基于神经网络的图像三维模型构建方法，包括以下步骤：

特征提取步骤：利用二维CNN提取二维图像的图像特征；

拼接步骤：将原始网格模型的三维坐标与所述图像特征拼接为图结构的顶点特征向量；

三维坐标重建步骤：利用GCN对所述图结构的顶点特征向量进行卷积变形，获得新顶点及对应的三维坐标；

三维模型重构步骤：根据新顶点的三维坐标既获得图像三维模型。

该图像三维模型构建方法能够只根据二维图像就能重建获得三维模型，大大提升了构建效率。

优选地，所述二维CNN包括N个依次连接的卷积模块，每个卷积模块包含若干个依次连接的卷积层，每个卷积模块输出特定尺寸的图像特征矩阵。

在本发明中，利用不同尺寸的卷积模块提取不同深度的图像特征，该不同深度的图像特征为后续的拼接步骤提供了不同的数据源。

具体地，在对每个卷积模块输出的图像特征矩阵进行拼接前，将每个图像特征矩阵内的每个元素各自进行平方运算，得到的平方运算值赋值到原元素位置，形成尺寸为[m，m，k]的新图像特征矩阵，其中，m为新图像特征矩阵大小，k为图像特征的通道数。

由于网格模型是三维模型，顶点的坐标为三维坐标，因此，为了使得顶点的三维坐标与图像特征进行拼接，在将网格模型的三维坐标(x，y，z)与图像特征进行拼接前，先将顶点的三维坐标(x，y，z)投影成二维坐标(x，y)；

拼接步骤为：

首先，针对每个新图像特征矩阵，将尺寸为[m，m，k]的新图像特征矩阵分别与顶点的二维坐标(x，y)进行拼接，得到尺寸为[M，k]的预拼接矩阵，其中，M表示网格模型的顶点的个数，k为新图像特征矩阵中，图像特征的通道数；

然后，将网格模型的三维坐标(x，y，z)与N个预拼接矩阵通过矩阵拼接起来，形成尺寸为[M，K]的顶点特征向量，其中，K表示N新图像特征矩阵的通道数之和与顶点的坐标维度的和。

其中，将顶点的三维坐标(x，y，z)投影成二维坐标(x，y)的过程为：

首先，计算网格模型的每个顶点所占体积的高度hi和宽度wi：

hi＝L×[-y÷(-z)]+H

wi＝L×[x÷(-z)]+H

然后，根据每个顶点所占体积的高度hi和宽度wi得到每个顶点在二维平面上的二维坐标：

xi＝hi÷(224÷56)

yi＝wi÷(224÷56)

其中，224为输入图像尺寸的长和宽，56为自己设定的值，若特征矩阵需要更多的通道数则可减少此值，若特征矩阵需要更少的通道数则增加此值，i表示顶点的索引，L和H分别为初始网格模型所占空间体积的长和高；

其中，将尺寸为[m，m，k]的新图像特征矩阵分别与顶点的二维坐标(x，y)进行拼接的具体过程为：

根据顶点的二维坐标(x，y)，从尺寸为[m，m，k]的新图像特征矩阵中取出位置为(x，y)的所有通道的元素；

再分别通过reshape函数将所有通道的元素转化为特定尺寸的预拼接矩阵。

优选地，在GCN中对顶点特征向量进行卷积操作时，对输入的顶点特征向量进行至少两次卷积核不同的卷积操作，将这至少两个卷积操作结果进行融合后，对融合后结果进行连续的卷积操作，并限定最后一次卷积操作的卷积核的纵向尺寸为3。

在三维坐标重建步骤中，即在GCN中对顶点特征向量进行卷积操作时，对输入的顶点特征向量进行至少两次卷积核不同的卷积操作，将这至少两个卷积操作结果进行融合后，对融合后结果进行连续的卷积操作，并限定最后一次卷积操作的卷积核的纵向尺寸为3。

在另外一个实施方式中，所述图像三维模型构建方法还包括：

将获得的新顶点的三维坐标作为原始网格模型的三维坐标，利用拼接步骤将新顶点的三维坐标与图像特征拼接为新顶点特征向量；

对新顶点特征向量执行三维坐标重建步骤，更新新顶点及对应的三维坐标。

一次重建过程获得的三维重建结果往往不是最优的，不能满足用户的需求，因此将新顶点的三维坐标作为原始网格模型的三维坐标再进行三维模型重建，以获得更优的三维模型。

在三维模型的构建方法中，为了提升重建的效率，在对新顶点特征向量执行三维坐标重建步骤前，对特征点进行扩增。即在另外一个实施方式中，所述图像三维模型构建方法还包括：

在对新顶点特征向量执行三维坐标重建步骤前，还包括新顶点扩增步骤，具体利用池化层对输入的新顶点特征向量进行特征数量扩增，以输出增加新顶点的新顶点特征向量。

对单视角图像进行重建，可以获得质量佳的三维模型，但是有时候需要对多视角图像进行重建，以获得更优的三维模型，即在另外一个实施方式中，所述图像三维模型构建方法还包括：

当利用n张不同视角下的二维图像重构图像的三维模型时，利用上述的图像三维模型构建方法对n张不同视角下的二维图像进行三维重建，获得n个三维模型；

以n个三维模型相同的中心点为分割点，将每个三维模型分割成n个部分，每个三维模型提取一个分部保持原三维模型矩阵，剩余部分用0填充，获得新三维模型；

将n个新三维模型按照各自的权重进行融合，获得最终的三维模型。

在上述图像三维模型构建方法中，所述二维CNN和GCN均是通过训练获得的网络参数确定的模型，具体训练时，损失函数为：

保证网格模型中顶点坐标的正确性的损失lc，即计算顶点到顶点的相邻顶点集合的距离，使顶点坐标尽可能接近正确：

其中，p为预测输出的网格顶点，r为原始网格模型上的顶点；

保证网格模型表面正常的损失ln：

其中，<·，·>表示两个向量内积，k是p的相邻顶点集合N(p)中的点，及k∈N(p)，n_q是真实点云图上观察到的正常表面，q是离顶点p距离最短的顶点；

在网格模型变形过程中时相邻的顶点保持相对的位置，避免顶点在变形过程中移动的过于自由，定义顶点的拉普拉斯坐标：

拉普拉斯正则化损失l_lap：

其中，δ_p为变形前顶点的拉普拉斯坐标，δ'_p为变形后顶点的拉普拉斯坐标；

避免出现极端顶点l_loc：

则训练过程中损失函数为l_all：

l_all＝l_c+λ₁l_n+λ₂l_lap+λ₃l_loc

其中，λ₁，λ₂，λ₃分别为三个权重。

利用该损失函数，在对CNN和GCN进行训练时，能限定证学习训练的方向，保证预测输出的顶点及其三维坐标的可靠性。

一种基于神经网络的图像三维模型构建装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有训练好的二维CNN和GCN，所述计算机处理器执行所述计算机程序时实现上项所述的图像三维模型构建方法。

该图像三维模型构建装置能够只根据二维图像就能重建获得三维模型，大大提升了构建效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本实施例提供的基于神经网络的图像三维模型构建方法的流程图；

图2是本发明提供的CNN的结构示意图；

图3是针对多视角图像进行三维模型重建的流程图；

图4是利用本发明提供的基于神经网络的图像三维模型构建方法对桌子图像重建获得的三维模型效果图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了提升三维重建的效率和效果和降低三维重建的时间成本，如图1所示，如图1所示，本实施例提供了一种基于神经网络的图像三维模型构建方法，包括以下步骤：

S101，利用二维CNN提取二维图像的图像特征。

二维CNN主要用于对输入的单张RGB图像进行特征提取。二维CNN是由卷积层构成的神经网络，其结构图如图2所示，包括：原始输入的RGB图片尺寸为[224,224,3]，其中224，224表示输入图片的尺寸大小，3表示输入图片的通道数分别代表R，G，B，训练过程采用Adam自适应时刻估计下降方法训练，最小批次为1。

具体地，二维CNN包括5个依次连接的卷积模块。

第一个卷积模块包含两个卷积核尺寸为[3,3,16]的卷积层Conv，采用尺寸为[3,3,16]的卷积核，步长为1，padding方式为same的卷积层Conv对输入图像进行卷积操作，得到尺寸为[224,224,16]的图像特征；再使用尺寸为[3,3,16]的卷积核，步长为1，padding方式为same的卷积层Conv对尺寸为[224,224,16]的图像特征进行卷积操作得到尺寸为[224,224,16]的图像特征矩阵，记为x0。

第二个卷积模块包含三个卷积核尺寸为[3,3,32]的卷积层Conv，采用尺寸为[3,3,32]的卷积核，步长为2，padding方式为same的卷积层Conv对图像特征矩阵x0进行卷积操作得到尺寸为[112,112,32]的图像特征矩阵，再采用尺寸为[3,3,32]的卷积核，步长为1，padding方式为same的卷积层Conv对[112,112,32]的图像特征矩阵进行连续两次卷积操作，得到尺寸为[112,112,32]的图像特征矩阵，记为x1。

第三个卷积模块包含三个卷积核尺寸为[3,3,64]的卷积层Conv，采用尺寸为[3,3,64]的卷积核，步长为2，padding方式为same的卷积层Conv对图像特征矩阵x1进行卷积操作得到尺寸为[56,56,64]的图像特征矩阵，再采用尺寸为[3,3,64]的卷积核，步长为1，padding方式为same的卷积层Conv对[56,56,64]的图像特征矩阵进行连续两次卷积操作，得到尺寸为[56,56,64]的图像特征矩阵，记为x2。

第四个卷积模块包含三个卷积核尺寸为[3,3,128]的卷积层Conv，采用尺寸为[3,3,128]的卷积核，步长为2，padding方式为same的卷积层Conv对图像特征矩阵x2进行卷积操作得到尺寸为[28,28,128]的图像特征矩阵，再采用尺寸为[3,3,128]的卷积核，步长为1，padding方式为same的卷积层Conv对[28,28,128]的图像特征矩阵进行连续两次卷积操作，得到尺寸为[28,28,128]的图像特征矩阵，记为x3。

第五个卷积模块包含三个卷积层Conv，采用尺寸为[5,5,256]的卷积核，步长为2，padding方式为same的卷积层Conv对图像特征矩阵x3进行卷积操作得到尺寸为[14,14,256]的图像特征矩阵，再采用尺寸为[3,3,256]的卷积核，步长为1，padding方式为same的卷积层Conv对[14,14,256]的图像特征矩阵进行连续两次卷积操作，得到尺寸为[14,14,256]的图像特征矩阵，记为x4。

第六个卷积模块包含三个卷积层Conv，采用尺寸为[5,5,512]的卷积核，步长为2，padding方式为same的卷积层Conv对图像特征矩阵x4进行卷积操作得到尺寸为[7,7,512]的图像特征矩阵，再采用尺寸为[3,3,512]的卷积核，步长为1，padding方式为same的卷积层Conv对[7,7,512]的图像特征矩阵进行连续两次卷积操作，得到尺寸为[7,7,512]的图像特征矩阵，记为x5。

利用6个卷积模块提取不同深度的图像特征，该不同深度的图像特征为后续的拼接步骤提供了不同的数据源。

S102，利用第一映射层Projection_layer1将原始网格模型的三维坐标与图像特征拼接为图结构的顶点特征向量。

在对每个卷积模块输出的图像特征矩阵进行拼接前，将每个图像特征矩阵内的每个元素各自进行平方运算，得到的平方运算值赋值到原元素位置，形成尺寸为[m，m，k]的新图像特征矩阵，其中，m为新图像特征矩阵大小，k为图像特征的通道数，该6个新图像特征矩阵放入同一个列表img_feat中。

网格模型是一个三维模型，顶点的坐标为三维坐标，举例网格模型可以为椭球模型，即原始椭球为包含156个顶点，每个顶点由三维坐标(x，y，z)表示，顶点之间通过连边连接的网格模型，该网格模型的尺寸定义为[156，3]，其中，156表示有156个顶点，3表示顶点的坐标维度，即在x，y，z上的坐标；

为了使得顶点的三维坐标与图像特征进行拼接，在将椭球模型的三维坐标(x，y，z)与图像特征进行拼接前，先将顶点的三维坐标(x，y，z)投影成二维坐标(x，y)；

拼接步骤为：

首先，针对每个新图像特征矩阵，将尺寸为[m，m，k]的新图像特征矩阵分别与顶点的二维坐标x，二维坐标y进行拼接，得到尺寸为[M，k]的预拼接矩阵，其中，M表示网格模型的顶点的个数，k为新图像特征矩阵中，图像特征的通道数；

首先，计算网格模型的每个顶点所占体积的高度hi和宽度wi：

hi＝248×[-y÷(-z)]+111.5

wi＝248×[x÷(-z)]+111.5

xi＝hi÷(224÷56)

yi＝wi÷(224÷56)

其中，i表示顶点的索引，此实施例或采用的初始椭圆网格模型所占空间体积的长和高分别为248和111.5，因此采用此数据，若使用不同的初始椭圆则需要更改，但经过实验比较此大小的椭圆效果更佳。

其中，将尺寸为为[m，m，k]的新图像特征矩阵分别与顶点的二维坐标x，二维坐标y进行拼接的具体过程为：

具体地，将CNN中得到的图像特征矩阵x2，x3，x4，x5分别通过gether_nd函数分别与顶点的二维坐标(x，y)进行拼接，分别得到尺寸为[156,64]，[156,128]，[156,256]，[156,512]的预拼接矩阵out1，out2，out3，out4，再通过矩阵拼接将原始三维坐标与预拼接矩阵out1，out2，out3，out4拼接起来得到尺寸为[156,963]的顶点特征向量，这样将二维平面上的图像特征转移到三维模型上。

获得的顶点特征向量是一个图结构的矩阵，可以将该矩阵输入至GCN进行卷积操作。

S103，利用第一GCN(即GCN卷积模块1)的对顶点特征向量进行卷积变形，获得新顶点及对应的三维坐标。

在第一GCN包含多个卷积层。其输入为原始的graph结构support，graph结构由邻接矩阵的形式来表示。support1_1为尺寸为[156,156]的矩阵，代表mesh中各顶点之间的关系与权重，先通过尺寸为[156,963]的顶点特征向量与尺寸为[963,192]的weight1进行内积操作得到尺寸为[156,192]的pre_sup；再令support1与pre_sup进行内积得到尺寸为[156,192]的support1_1，类似地，将尺寸为[156,156]的support1_1进行类似的操作得到尺寸为[156,192]support1_2；在将support1_1和support1_2中各元素相加得到尺寸为[156,192]的特征向量，该特征向量再经过连续的12层结构相同的卷积层进行卷积操作，连续的12层卷积层中，第1,3,5,7,9,11层的输出都与前二层的输出进行相加求平均得出新的输出作为此层的输出，1～11层的卷积层中，weights尺寸为[192,192]，最后卷积层的weights尺寸为[192,3]，经过最后一层卷积操作，得到尺寸为[156,3]的输出，该输出即为新网格模型的156个顶点的三维坐标。

S104，利用第二映射层Projection_layer2将新顶点的三维坐标与图像特征拼接为新顶点特征向量。

将[156,3]尺寸的输出与上二层的输出尺寸为[156,192]的特征面通过concat函数在1维度上面进行连接得到尺寸为[156,195]的特征面。

将获得的尺寸为[156,195]的特征面作为原始网格模型的三维坐标，利用拼接步骤将新顶点的三维坐标与图像特征拼接为新顶点特征向量；

即将尺寸为[156,195]的特征面与尺寸为[156,64]，[156,128]，[156,256]，[156,512]的预拼接矩阵out1，out2，out3，out4拼接起来得到尺寸为[156,1155]的新顶点特征向量。

S105，利用第一池化层(即池化模块1)对输入的新顶点特征向量进行特征数量扩增，以输出增加新顶点的新顶点特征向量。

具体地，输入为上一层的尺寸为[156,1155]的新顶点特征向量，通过gather函数增加至尺寸为[618,1155]的新顶点特征向量。

S106，利用第二GCN(即GCN卷积模块2)的对增加新顶点的新顶点特征向量进行卷积变形，更新新顶点及对应的三维坐标。

其输入为上层增加顶点之后的尺寸为[618,1155]的新顶点特征向量，该尺寸为[618,1155]的新顶点特征向量与尺寸为[1155,192]的weights1进行内积后，得到[618,192]的pre_sup1，尺寸为[618,618]的矩阵support2_1与pre_sup1进行内积得到尺寸为[618,192]的特征面A；类似的，尺寸为[618,1155]的新顶点特征向量与尺寸为[1155,192]的weights2进行内积得到pre_sup2,之后，尺寸为[618,618]的矩阵support2_2与pre_sup2进行内积，得到尺寸为[618,192]的特征面B，该特征面A与特征面B中元素相加后得到尺寸为[618,192]的特征向量，该特征向量再经过连续的12层结构相同的卷积层进行卷积操作，连续的12层卷积层中，第1,3,5,7,9,11层的输出都与前二层的输出进行相加求平均得出新的输出作为此层的输出，1～11层的卷积层中，weights尺寸为[192,192]，最后卷积层的weights尺寸为[192,3]，经过最后一层卷积操作，得到尺寸为[618,3]的输出，该输出即为新网格模型的618个顶点的三维坐标。

S107，利用第三映射层Projection_layer3将S106获得的新顶点的三维坐标与图像特征拼接为新顶点特征向量。

将尺寸为[618,3]的输出与前二层输出尺寸为[618,192]的特征面通过concat函数在1维度上面进行连接得到尺寸为[618,195]的特征面。

将获得的尺寸为[618,195]的特征面作为原始网格模型的三维坐标，利用拼接步骤将新顶点的三维坐标与图像特征拼接为新顶点特征向量；

即将尺寸为[618,195]的特征面与尺寸为[618,64]，[618,128]，[618,256]，[618,512]的预拼接矩阵out1，out2，out3，out4在矩阵列维度上拼接起来得到尺寸为[618,1155]的新顶点特征向量。

尺寸为[618,64]，[618,128]，[618,256]，[618,512]的预拼接矩阵out1，out2，out3，out4得到的方法和之前描述的方法一致。同样，先将三维坐标(x,y,z)转化为二维坐标(x,y)得到顶点坐标(x，y)后，根据给出的x和y从尺寸为[m,m,k]的新图像特征矩阵中取出位置为x，y的所有通道的元素。再分别通过reshape函数将其转化成[618,64],[618,128],[618,256],[618,512]的预拼接矩阵。

S108，利用第二池化层(即池化模块2)对S107获得的新顶点特征向量进行特征数量扩增，以输出增加新顶点的新顶点特征向量。

具体地，输入为上一层的尺寸为[618,1155]的新顶点特征向量，通过gather函数增加至尺寸为[2466,1155]的新顶点特征向量。

S109，利用第三GCN(即GCN卷积模块3)的对S108获得的增加新顶点的新顶点特征向量进行卷积变形，更新新顶点及对应的三维坐标。

与之GCN类似，但矩阵support3_1的尺寸为[2466,2466]先经过一层weights尺寸为[1155,192]的卷积层得到[2466,192]的特征面输出,再经过12层连续的卷积,得到尺寸为[2466,192]的输出,最后经过一个weights尺寸为[192,3]的卷积层,最后得到尺寸为[2566,3]的输出，该输出即为最终结构，即有2466个顶点的网格模型。

上述图像三维模型构建方法中，所述二维CNN和GCN均是通过训练获得的网络参数确定的模型，在模型训练体系中，2维CNN的网络结构与数据集的复杂程度有关；GCN模型的网络结构也与数据集的复杂程度有关。为了能够实现更好的加密效果，并且防止在训练过程中发生模型崩溃，并且能更好地实现3D重建，本发明使用了级联的卷积模型。

上述模型训练体系具体过程为：

采用原始的RGB图像和对应的3D真实模型进行训练。训练时，设置训练的epochs＝N，即训练集被使用N次。2D CNN的输入为单张RGB图像，输出为从图像中提取到的图像特征，GCN的输入为用图结构表示的3Dmesh模型的顶点特征，输出为预测的mesh模型的各个顶点的3维坐标。

具体地，输入原始的数据集x，通过2D CNN模型生成对应的图像特征，再通过投影将其与mesh的顶点坐标拼接在一起得到顶点特征向量V，将V输入到GCN模型中，训练50个epochs。

具体训练时，损失函数为：

保证网格模型表面正常的损失ln：

其中，k是p的相邻顶点集合N(p)中的点，及k∈N(p)，n_q是真实点云图上观察到的正常表面，q是离顶点p距离最短的顶点；

拉普拉斯正则化损失l_lap：

避免出现极端顶点l_loc：

则训练过程中损失函数为l_all：

l_all＝l_c+λ₁l_n+λ₂l_lap+λ₃l_loc

其中，λ₁，λ₂，λ₃分别为三个权重，权重分配情况：λ₁＝1.6e-4,λ₂＝0.3,λ₃＝0.1。

在另外一个实施方式中，要对多视角图像进行重建，以获得更优的三维模型，具体地，当利用n张不同视角下的二维图像重构图像的三维模型时，利用上述的图像三维模型构建方法对n张不同视角下的二维图像进行三维重建，获得n个三维模型；

举例说明，如图3所示，不过同时输入某一物体8个不同视角的RGB图片，与单视角相同，分别对8张RGB进行上述S101进行2D卷积提取图像特征，再通过GCN对初始椭球模型进行变形生成相对应图片的网格模型各个顶点坐标。得到8个不同视角的网格模型后，因为8个模型是基于不同视角输入并重建的，所以其分别对应的模型在输入图片这一角度上的重建效果较其他角度会更好。因此将8个模型进行整合为1个模型，分别取8个模型最优的部分进行整合。

具体步骤如下：取8个模型相同的中心点(x，y，z)，将模型分割成8个部分分别为p1，p2，p3，p4，p5，p6，p7，p8。

分隔出的部分依旧保留原模型矩阵的尺寸大小，除了取出的部分外，其他全取为0。分别为8个模型各自的p1，p2，p3，p4，p5，p6，p7，p8设置可学习的权重l1，l2，l3，l4，l5，l6，l7，l8得到如下公式：

m＝p1×l1+p2×l2+p3×l3+p4×l4+p5×l5+p6×l6+p7×l7+p8×l8

其中，l1，l2，l3，l4，l5，l6，l7，l8都处于0-1之间，且l1+l2+l3+l4+l5+l6+l7+l8＝1。

最后，将8个模型分别得到的m相加顶点矩阵中各元素相加得到fm，fm即为最终得到的mesh模型的顶点坐标。通过计算最终模型的4种loss值去训练实施例所定义的可学习的权重。

本实施例还提供了一种图像三维模型构建装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有训练好的二维CNN和GCN，所述计算机处理器执行所述计算机程序时实现上项所述的图像三维模型构建方法。

实验例

数据集基本情况包括13种不同的现实物体真实3D模型共50000个模型；每个模型都有多个视角的RGB图片，尺寸为[224,224,3]。

将上述训练集对上述构建的模型训练体系进行训练，获得训练好的CNN和GCN模型。并将测试集中的样本输入到模型中，输出为如图4所示的3D模型，因为输入的批次(batch)是1，每份只有1张图，这些图人工很难进行单张图片的3D重建，说明该方法达到了预期目标。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的图像三维模型构建方法，包括以下步骤：

特征提取步骤：利用二维CNN提取二维图像的图像特征；

2.如权利要求1所述的基于神经网络的图像三维模型构建方法，其特征在于，所述二维CNN包括N个依次连接的卷积模块，每个卷积模块包含若干个依次连接的卷积层，每个卷积模块输出特定尺寸的图像特征矩阵。

3.如权利要求2所述的基于神经网络的图像三维模型构建方法，其特征在于，在对每个卷积模块输出的图像特征矩阵进行拼接前，将每个图像特征矩阵内的每个元素各自进行平方运算，得到的平方运算值赋值到原元素位置，形成尺寸为[m，m，k]的新图像特征矩阵，其中，m为新图像特征矩阵大小，k为图像特征的通道数；

在将网格模型的三维坐标(x，y，z)与图像特征进行拼接前，先将顶点的三维坐标(x，y，z)投影成二维坐标(x，y)；

拼接步骤为：

然后，将网格模型的三维坐标(x，y，z)与N个预拼接矩阵在矩阵列的维度上进行拼接，形成尺寸为[M，K]的顶点特征向量，其中，K表示N个新图像特征矩阵的通道数之和与顶点的坐标维度的和。

4.如权利要求3所述的基于神经网络的图像三维模型构建方法，其特征在于，将顶点的三维坐标(x，y，z)投影成二维坐标(x，y)的过程为：

首先，计算网格模型的每个顶点所占体积的高度hi和宽度wi：

hi＝L×[-y÷(-z)]+H

wi＝L×[x÷(-z)]+H

xi＝hi÷(224÷56)

yi＝wi÷(224÷56)

其中，224为输入图像尺寸的长和宽，56为自己设定的值，若特征矩阵需要更多的通道数则减少此值，若特征矩阵需要更少的通道数则增加此值，i表示顶点的索引，L和H分别为初始网格模型所占空间体积的长和高；

将尺寸为[m，m，k]的新图像特征矩阵分别与顶点的二维坐标(x，y)进行拼接的具体过程为：

5.如权利要求1所述的基于神经网络的图像三维模型构建方法，其特征在于，在GCN中对顶点特征向量进行卷积操作时，对输入的顶点特征向量进行至少两次卷积核不同的卷积操作，将这至少两个卷积操作结果进行融合后，对融合后结果进行连续的卷积操作，并限定最后一次卷积操作的卷积核的纵向尺寸为3。

6.如权利要求1所述的基于神经网络的图像三维模型构建方法，其特征在于，所述图像三维模型构建方法还包括：

7.如权利要求1所述的基于神经网络的图像三维模型构建方法，其特征在于，所述图像三维模型构建方法还包括：

8.如权利要求1～7任一项所述的基于神经网络的图像三维模型构建方法，其特征在于，所述图像三维模型构建方法还包括：

当利用n张不同视角下的二维图像重构图像的三维模型时，利用权利要求1～7任一项所述的图像三维模型构建方法对n张不同视角下的二维图像进行三维重建，获得n个三维模型；

9.如权利要求1～7任一项所述的基于神经网络的图像三维模型构建方法，其特征在于，所述二维CNN和GCN均是通过训练获得的网络参数确定的模型，具体训练时，损失函数为：

保证网格模型表面正常的损失ln：

拉普拉斯正则化损失l_lap：

避免出现极端顶点l_loc：

则训练过程中损失函数为l_all：

l_all＝l_c+λ₁l_n+λ₂l_lap+λ₃l_loc

其中，λ₁，λ₂，λ₃分别为三个权重。

10.一种基于神经网络的图像三维模型构建装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中存有训练好的二维CNN和GCN，所述计算机处理器执行所述计算机程序时实现权利要求1～8任一项所述的图像三维模型构建方法。