CN110473284B

CN110473284B - 一种基于深度学习的运动物体三维模型重建方法

Info

Publication number: CN110473284B
Application number: CN201910687112.1A
Authority: CN
Inventors: 杨路; 杨经纶; 李佑华
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-02-12
Anticipated expiration: 2039-07-29
Also published as: CN110473284A

Abstract

本发明公开了一种基于深度学习的运动物体三维模型重建方法，包括以下步骤：生成训练数据；提取通用特征；增强空间特征；融合特征信息；分析时间上下文；重建运动物体三维形状；估计运动姿态；生成运动物体三维模型以及训练神经网络。本发明通过卷积神经网络进行特征提取与特征增强，同时利用双向门控循环神经网络进行时间上下文分析，简单和高效地完成了运动物体三维模型重建任务。

Description

一种基于深度学习的运动物体三维模型重建方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于深度学习的运动物体三维模型重建方法。

背景技术

运动物体的三维模型重建是指将真实运动场景中的三维物体在计算机中建立三维模型，是计算机视觉领域的一个热门研究方向。相比于静态场景，运动物体的三维模型能够同时提供物体形状与运动姿态信息，更加全面的展示物体特性，因而在计算机动画、人机交互、现代医学等多个领域都有着广泛的应用。

三维模型重建主要的任务是生成特定表达形式的三维模型，还原物体本身形状信息；运动物体的三维重建要求完成形状重建的同时，能够预测物体运动姿态。传统运动物体重建经典算法SFM(structure from motion)使用一系列包含视觉运动信息的多幅二维图像序列中估计三维形状，计算量较大，过程复杂，包括以下步骤：获取图像、摄相机标定、特征点提取、特征点匹配、获取物体的深度图、恢复物体的三维信息等流程。但由于物体形状及运动信息的复杂性，目前的许多方法都存在精确度差、鲁棒性低和算法复杂度高的问题，严重制约了运动物体三维重建技术的发展与应用。

随着深度学习的快速发展，运动物体三维模型重建领域取得了新的突破。研究者利用深度学习技术，可以轻松将运动视频中的物体与背景分离，然后利用卷积神经网络对分割后的物体部分进行特征提取，经过一定的特征映射方法，重建三维模型并完成姿态估计。深度学习技术突破了以往SFM方法需要人工标记特征并进行特征点匹配的限制，且无需计算图片的深度图，可直接从图片中得到三维模型，大大提高了重建的速度。但是深度学习方法也面临着一些问题，如卷积神经网络对与运动物体的信息提取是不定向的，可能会造成物体姿态的空间信息与运动轨迹时间信息缺失，这降低了算法的可解释性与实用性。因此，对于运动物体三维重建而言，设计富有针对性的高效的深度学习卷积神经网络，是当前研究者面临的主要问题。

发明内容

本发明所要解决的技术问题是提供一种基于深度学习的运动物体三维模型重建方法，通过卷积神经进行特征提取与特征增强，同时利用双向门控循环神经网络进行时间上下文分析，简单和高效地完成了运动物体三维模型重建任务。

为解决上述技术问题，本发明采用的技术方案是：

一种基于深度学习的运动物体三维模型重建方法，包括以下步骤：

步骤一：生成训练数据

将CAD模型按照一定轨迹运动，模仿背景分割处理后的真实物体运动场景；记录运动场景图片以及对应运动物体姿态，组成一个运动视频；对CAD模型进行点云采样，得到物体真实形状信息；

步骤二：提取通用特征

输入运动视频，通过卷积神经网络的加深，获取运动场景图片的高层语义特征图；

步骤三：增强空间特征

通过反卷积神经网络和条形卷积对高层语义特征图进行运动姿态空间信息增强，输出增强后的空间特征向量；

步骤四：融合特征信息

将提取到的高层语义特征图经过全局平均池化(Global Average Pooling,GAP)得到通用特征向量，将通用特征向量与空间特征向量进行融合并输出；

步骤五：分析时间上下文

将图片序列融合后的特征向量独立输入对应的时间上下文分析模块；首先利用全连接神经网络调整特征向量维度；接着使用双向门控循环神经网络(Bilinear GatedRecurrent Neural Network,B-GRNN)对图片序列之间进行时间上下文语义分析，独立输出分析后的特征向量；再次利用全连接神经网络调整特征向量维度，输出运动物体形状点云与姿态估计参数；

步骤六：重建运动物体三维形状

将输出的运动物体形状点云以三角片拟合进行三维形状重建，得到标准的静止物体三维模型，同时对点云生成最小包围框，用来展示运动姿态；

步骤七：估计运动姿态

对输出的姿态估计参数经过齐次变换得到物体的运动姿态，包括物体空间位置与物体自身朝向；

步骤八：生成运动物体三维模型

将静止物体三维模型与运动姿态相乘，得到运动物体三维模型；

步骤九：训练神经网络

将训练样本输入神经网络，设置损失函数自动训练，逐步更新网络参数，优化网络模型，得到最优结果。

进一步的，在步骤二中，所述卷积神经网络包含5个卷积模块，每个卷积模块的层数相同，卷积模块采用组合批归一化(Batch Normalization,BN)，Relu激活函数。

进一步的，在步骤三中，所述反卷积神经网络由5个反卷积层组成，在增强空间特征的过程中，将步骤二得到的高层语义特征图输入第一反卷积层，各反卷积层与步骤二的卷积神经网络中各卷积模块对应，通过反卷积层的加深，增大输出特征图的尺寸；最后一个反卷积的输出特征图维度为1，大小与初始输入图片相同，经过横向条形卷积与纵向条形卷积输出空间特征向量，其维度分别为初始图片宽与高。

进一步的，在步骤四中，将提取到的高层语义特征图经过全局平均池化过程里，每一通道的特征图输出一个特征元素，一共得到与输出通道数量相等的通用特征向量，与空间特征向量串联融合后形成特征向量并输出。

进一步的，在步骤六中，通过下式生成点云的最小包围框：

(x_min,y_min,z_min)＝min(P(x,y,z))

(x_max,y_max,z_max)＝max(P(x,y,z))

其中，(x₀,y₀,z₀)代表点云的中心点，x_max,y_max,z_max代表点云x,y,z轴上的最大值，x_min,y_min,z_min代表点云x,y,z轴上的最小值，组合得八个顶点构成点云最小包围框。

进一步的，在步骤七中，姿态估计参数包括物体姿态平移与旋转参数，分别组成平移矩阵与旋转矩阵，通过齐次变换得到运动物体的运动姿态，如下式：

t＝(t_x,t_y,t_z)^T

其中，x,y,z代表运动模型的静止坐标；x',y',z'代表运动坐标；R是旋转矩阵，表示物体自身朝向；t_x,t_y,t_z代表物体空间位置；T是姿态变换矩阵，表示从静止到运动的空间转换。

进一步的，所述步骤九具体为：

对整个深度学习模型进行训练时，在前向传播过程中，提取通用特征的神经网络中卷积核与特征图进行点积计算，逐步得到高层语义；增强空间特征的神经网络中反卷积层与条形卷积对运动物体的空间姿态信息进行增强；时间上下文分析模块中的双向门控循环神经网络与全连接神经网络对特征参数进行时间上下文语义分析和维度调整，回归得到运动物体三维重建所需参数，包括形状点云与姿态估计参数；在反向传播过程中，模型的所有卷积核参数，全连接层的连接权重以及双向门控循环神经网络的门控参数逐步更新。

进一步的，在步骤九中，设定损失函数对神经网络进行训练，损失函数为一定权值的生成的与真实的运动物体三维模型的倒角距离，以及生成的与真实的运动姿态的均方误差；通过下式对神经网络进行训练：

Loss＝λ₁loss_CD+λ₂Loss_T

其中，loss_CD与loss_T分别代表生成的与真实运动物体三维模型的倒角距离损失与姿态估计误差损失；λ₁，λ₂代表损失函数权值；P代表生成的的运动物体三维模型；Q代表真实运动物体三维模型；T代表生成的的运动物体姿态，T_gt代表物体真实运动姿态；||·||₂表示二范数。

与现有技术相比，本发明的有益效果是：

1)时空网络结合增强效果

本发明利用空间增强网络，提升了深度学习方法在运动物体三维模型重建中的姿态估计能力；同时利用时间上下文分析模块，将不同时刻的运动场景信息综合起来，进一步提升了重建效果。

2)静态形状模型与姿态估计分离

传统的方法中总是将物体形状恢复与姿态估计混合在一起，这样可能导致两部分都无法达到最好的学习效果；本发明方法将两部分的学习分开，通过不同的参数进行指导，经过乘法单元恢复运动物体模型，提升了算法的可解释性，便于优化与应用。

3)方法拓展

本方法简单、高效且快速地完成了运动物体三维重建任务，能实时、精确地计算运动物体形状与姿态，用于跟踪检测与自动驾驶等更多领域。

附图说明

图1为本发明的流程示意图；

图2为生成训练数据的示意图；

图3为特征提取网络、空间增强网络与特征信息融合的示意图；

图4为时间上下文分析模块学习过程的示意图；

图5为运动物体重建模型过程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明可以在Windows和Linux平台上实现；编程语言也是可以选择的，本方法采用Python实现。

如图1所示，一种基于深度学习的运动物体三维模型重建方法，包括以下步骤：

步骤一：生成训练数据

如图2所示，利用OpenGL工具对运动物体CAD模型进行渲染与采样。固定虚拟相机视点，给定成像平面，使CAD模型按照一定运动轨迹的进入相机视野，该轨迹可任意设定；对于CAD模型在相机视野中的一次运动过程，采集12帧图片，构成一个运动视频，图片大小为640*320，同时记录下物体运动姿态；同时对CAD模型进行点云采样，获取物体模型形状信息，每个模型采样2048个点。

步骤二：提取通用特征

如图3所示，输入运动视频即图片序列，通过卷积神经网络的加深，逐渐获取运动场景图片的高层语义特征图；

通用特征提取网络包含5个卷积模块，每个卷积模块的层数相同；卷积模块采用组合批归一化(Batch Normalization,BP)，Relu激活函数，3×3的卷积的结构；在该卷积神经网络中，所有的3×3卷积均采用步长为2的方式；每经过一个卷积模块，特征图尺寸缩小2倍，最后输出20*10的高层语义特征图。卷积层之间或卷积层与输入层之间关系如下式：

式中，Conv(i,j)表示第k卷积层中i行j列的数据，W_k-1,k(m,n)表示第k-1卷积层到第k卷积层的卷积核中第m行n列的数据，b_k-1,k表示第k-1个隐含层向第k个隐含层的线性单元的链接偏置；I表示输入层的输入图片，W_i,k(m,n)表示输入层向第k个隐含层的线性单元的链接权重，b_i,k表示输入层向第k个隐含层的线性单元的链接偏置。

步骤三：增强空间特征

如图3所示，通过反卷积神经网络和条形卷积对高层语义特征图进行运动姿态空间信息增强，输出增强后的空间特征向量；

空间特征增强网络以反卷积模块和条形卷积层组成。反卷积模块由5个部分组成；在空间特征增强过程中，将通用特征提取网络得到的高层语义输入第一反卷积层，各反卷积层与通用特征提取网络的各卷积模块对应，都为固定的2倍放大；通过反卷积层的加深，逐渐增大输出特征图的尺寸，最后一个反卷积的输出特征图维度为1，大小与初始输入图片相同为640*320；经过横向条形卷积与纵向条形卷积分别输出640与320元素，共同组成空间增强特征向量。

步骤四：特征信息融合

如图3所示，将提取到的高层语义特征图经过全局平均池化(Global AveragePooling，GAP)得到通用特征向量，与空间特征向量融合后输出；将提取到的高层语义特征图经过GAP，每一通道的特征图输出一个特征元素，一共得到与输出通道数量相等的通用特征向量，与空间特征向量串联融合后形成1*(N+640+320)向量后输出，其中N为高层语义特征图的通道数，即通用特征向量维度。

步骤五：分析时间上下文

如图4所示，将图片序列融合后的特征向量独立输入对应的时间上下文分析模块，时间上下文分析模块由双向门控循环神经网络(Bilinear Gated Recurrent NeuralNetwork,B-GRNN)与全连接神经网络连接而成。将一个视频即12张图片序列的融合后的特征参数并联独立输入，首先经过全连接神经网络，对特征参数进行维度变换；接着将特征参数输入门控循环单元(Gate Recurrent Unit，GRU)进行图片序列之间的时间上下文语义分析，独立输出分析后的特征向量；后接全连接神经网络，调整特征向量维度，输出运动物体形状点云与姿态估计参数，该参数包括物体姿态平移与旋转参数。

双向门控循环神经网络由门控循环单元组成，其引入了重置门(Reset gate)和更新门(Update gate)的概念，通过可以学习的门来控制信息的流动,更好地捕捉时间序列中时间步距离较大的依赖关系。

门控循环单元中的重置门和更新门的输入均为当前时间步输入X_t与上一时间步隐藏状态h_t-1，输出由激活函数为sigmoid函数的全连接层计算得到。具体来说，假设隐藏单元个数为h，给定时间步t的小批量输入X_t∈R_n×d(样本数为n，输入个数为d)，上一时间步隐藏状态h_t-1∈R_n×h，重置门r_t∈R_n×h更新门z_t∈R_n×h，通过下式搭建门控循环单元：

r_t＝δ(W_xhh_t-1+W_rxx_t+b_r)

z_t＝δ(W_zhh_t-1+W_zxx_t+b_z)

y_t＝δ(W₀*h_t)

其中W_rx,W_zx∈R_d×h和W_xh,W_zh∈R_h×h，W₀∈R_1×h是权重参数，b_r,b_z,b_h∈R_1×h是偏差参数；符号δ代表sigmoid函数可以将元素的值变换到[0,1]；

代表时间步t的候选隐藏状态；符号⊙代表元素乘法；y_t代表门控循环单元经过激活函数后的输出。

在门控循环单元中，如果重置门中权重参数接近0，那么意味着重置对应隐藏状态元素为0，即丢弃上一时间步的隐藏状态；如果接近1，那么表示保留上一时间步的隐藏状态。重置门控制了上一时间步的隐藏状态如何流入当前时间步的候选隐藏状态，而上一时间步的隐藏状态可能包含了时间序列截至上一时间步的全部历史信息。因此，重置门可以用来丢弃与预测无关的历史信息。

同时，更新门可以控制隐藏状态应该如何被包含当前时间步信息的候选隐藏状态所更新。假设更新门在时间步t′到t(t′<t)之间一直近似1。那么，在时间步t′到t之间的输入信息几乎没有流入时间步t的隐藏状态h_t。实际上，这可以看作是较早时刻的隐藏状态h_t-1一直通过时间保存并传递至当前时间步t。更新门用以解决双向门控循环神经网络中的梯度衰减问题，并更好地捕捉时间序列中时间步距离较大的依赖关系。

在本发明中，特征参数经过全连接神经网络层先流入正向门控循环神经网络，此时对图片序列进行顺序时间语义分析，输出正向特征向量于隐藏状态向量；之后将隐藏状态向量输入反向门控循环神经网络，此时对图片序列进行逆序时间语义分析，输出反向特征向量；最后将正、反向特征向量相加融合，输入全连接神经网络，输出运动物体形状点云与姿态估计参数，该参数包括物体姿态平移与旋转参数。

步骤六：重建运动物体三维形状

如图5所示，将输出的运动物体形状点云以三角片拟合进行三维形状重建，得到标准的静止物体三维模型，同时对点云生成最小包围框，用来展示运动姿态。通过下式生成点云的最小包围框：

(x_min,y_min,z_min)＝min(P(x,y,z))

(x_max,y_max,z_max)＝max(P(x,y,z))

其中，(x₀,y₀,z₀)代表点云的中心点，x_max,y_max,z_max代表点云x,y,z轴上的最大值，x_min,y_min,z_min代表点云x,y,z轴上的最小值，组合可得八个顶点。

步骤七：估计运动姿态

如图5所示，对输出的姿态估计参数经过齐次变换得到物体的运动姿态，包括物体空间位置与物体自身朝向；姿态估计参数包括物体姿态平移与旋转参数，分别组成平移矩阵与旋转矩阵，通过齐次变换得到运动物体的运动姿态，如下式：

t＝(t_x,t_y,t_z)^T

步骤八：生成运动物体三维模型

如图5所示，将静止物体三维模型与运动姿态相乘，得到运动物体三维模型，如下式：

其中，Object_m表示运动物体，Object_s表示静止物体。

步骤九：训练神经网络

在前向传播过程中，通用特征提取网络卷积核与特征图进行点积计算，逐步得到高层语义；空间特征增强网络中反卷积层与条形卷积对运动物体的空间姿态信息进行增强；时间上下文模块中的GRU与全连接神经网络对特征参数进行时间上下文语义分析和维度调整，回归得到运动物体三维重建所需参数，包括形状点云与姿态估计参数；在反向传播过程中，模型的所有卷积核参数，全连接层的连接权重以及GRU的门控参数逐步更新。

设定损失函数对神经网络进行训练，损失函数为一定权值的生成的与真实的运动物体三维模型的倒角距离，以及生成的与真实的运动姿态的均方误差。对于每个点，倒角距离算法在另一个集合中找到最近的邻点，并将距离的平方求和。该算法作为集合中点位置的函数，是连续的、分段光滑的，对每个点的范围搜索是独立的，因此可以很容易地并行化。通过下式对神经网络进行训练：

Loss＝λ₁loss_CD+λ₂Loss_T

其中，loss_CD与loss_T分别代表网络预测的运动物体三维模型与真实运动物体三维模型的倒角距离损失与姿态估计误差损失；λ₁，λ₂代表损失权值；P代表网络预测的运动物体三维模型；Q代表真实运动物体三维模型；T代表物体网络预测的运动物体姿态，T_gt代表物体真实运动姿态；||·||₂表示二范数。

由于基于深度学习的运动物体三维重建方法是一种基于数据驱动的机器学习方法，其需要大量的训练样本，即标定了CAD模型的形状信息的点云数据与不同运动姿态的运动场景图片，而现存的数据集无现成的包含上述信息的数据集。出于这种考虑，本发明利用OpenGL采样与渲染工具，模拟运动物体的真实运动，灵活的进行数据生成，增加了训练样本数量，进而提高深度神经网络模型的重建能力。需要指出的是，模拟的运动场景图片是纯色的，即对应前背景分割后的真实运动场景，其原因在于目前的基于深度学习的图像分割工作已经十分完善，如MaskRCNN方法等，因此本发明主要着重解决运动物体的重建工作。

Claims

1.一种基于深度学习的运动物体三维模型重建方法，其特征在于，包括以下步骤：

步骤一：生成训练数据

步骤二：提取通用特征

步骤三：增强空间特征

步骤四：融合特征信息

将提取到的高层语义特征图经过全局平均池化得到通用特征向量，将通用特征向量与空间特征向量进行融合并输出；

步骤五：分析时间上下文

将图片序列融合后的特征向量独立输入对应的时间上下文分析模块，首先利用全连接神经网络调整特征向量维度；接着使用双向门控循环神经网络对图片序列之间进行时间上下文语义分析，独立输出分析后的特征向量；再次利用全连接神经网络调整特征向量维度，输出运动物体形状点云与姿态估计参数；

步骤六：重建运动物体三维形状

步骤七：估计运动姿态

步骤八：生成运动物体三维模型

步骤九：训练神经网络

2.如权利要求1所述的一种基于深度学习的运动物体三维模型重建方法，其特征在于，在步骤二中，所述卷积神经网络包含5个卷积模块，每个卷积模块的层数相同，卷积模块采用组合批归一化，Relu激活函数。

3.如权利要求1所述的一种基于深度学习的运动物体三维模型重建方法，其特征在于，在步骤三中，所述反卷积神经网络由5个反卷积层组成，在增强空间特征的过程中，将步骤二得到的高层语义特征图输入第一反卷积层，各反卷积层与步骤二的卷积神经网络中各卷积模块对应，通过反卷积层的加深，增大输出特征图的尺寸；最后一个反卷积的输出特征图维度为1，大小与初始输入图片相同，经过横向条形卷积与纵向条形卷积输出空间特征向量，其维度分别为初始图片宽与高。

4.如权利要求1所述的一种基于深度学习的运动物体三维模型重建方法，其特征在于，在步骤四中，将提取到的高层语义特征图经过全局平均池化过程里，每一通道的特征图输出一个特征元素，一共得到与输出通道数量相等的通用特征向量，与空间特征向量串联融合后形成特征向量并输出。

5.如权利要求1所述的一种基于深度学习的运动物体三维模型重建方法，其特征在于，在步骤六中，通过下式生成点云的最小包围框：

(x_min,y_min,z_min)＝min(P(x,y,z))

(x_max,y_max,z_max)＝max(P(x,y,z))

6.如权利要求1所述的一种基于深度学习的运动物体三维模型重建方法，其特征在于，在步骤七中，姿态估计参数包括物体姿态平移与旋转参数，分别组成平移矩阵与旋转矩阵，通过齐次变换得到运动物体的运动姿态，如下式：

t＝(t_x,t_y,t_z)^T

7.如权利要求1所述的一种基于深度学习的运动物体三维模型重建方法，其特征在于，所述步骤九具体为：

对整个深度学习模型进行训练时，在前向传播过程中，提取通用特征的神经网络中卷积核与特征图进行点积计算，逐步得到高层语义；增强空间特征的神经网络中反卷积层与条形卷积对运动物体的空间姿态信息进行增强；时间上下文分析模块中的GRU与全连接神经网络对特征参数进行时间上下文语义分析和维度调整，回归得到运动物体三维重建所需参数，包括形状点云与姿态估计参数；在反向传播过程中，模型的所有卷积核参数，全连接层的连接权重以及GRU的门控参数逐步更新。

8.如权利要求7所述的一种基于深度学习的运动物体三维模型重建方法，其特征在于，在步骤九中，设定损失函数对神经网络进行训练，损失函数为一定权值的生成的与真实的运动物体三维模型的倒角距离，以及生成的与真实的运动姿态的均方误差；通过下式对神经网络进行训练：

Loss＝λ₁loss_CD+λ₂Loss_T