CN109191369A

CN109191369A - 2d图片集转3d模型的方法、存储介质和装置

Info

Publication number: CN109191369A
Application number: CN201810884174.7A
Authority: CN
Inventors: 王磊
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2018-08-06
Filing date: 2018-08-06
Publication date: 2019-01-11
Anticipated expiration: 2038-08-06
Also published as: CN109191369B; US20210279971A1; WO2020032354A1; US11755956B2

Abstract

本发明提供一种2D图片集转3D模型的方法、存储介质和装置，该方法包括：步骤11：通过深度学习算法识别2D图片集中每张图片所包含的每个对象的类别以及每个对象的轮廓信息；步骤12：通过计算机视觉算法提取每张图片中每个对象的细节特性信息，细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息；步骤13：基于每个对象的类别、形状特征信息、轮廓信息匹配3D模型，匹配成功的3D模型为每个对象的3D模型；步骤14：将每个对象的纹理信息和颜色特征信息映射到每个对象的3D模型上。基于本发明的方法，通过构建逼真的3D模型，以克服基于视差生成3D模型和3D视频的缺点，提高3D视频或3D模型的用户体验，增强娱乐性和趣味性。

Description

2D图片集转3D模型的方法、存储介质和装置

技术领域

本发明涉及计算机领域，特别涉及一种2D图片集转3D模型的方法、存储介质和装置。

背景技术

目前，可以基于视差原理将2D图片或视频转成3D模型或3D视频，但其本质是生成两幅针对左右眼不同的2D图片，并未生成实质的3D模型。由于视差都是错觉，使得用户在观看基于视差生成的3D模型或3D视频时会感到不适、失真、并容易疲劳，用户使用体验较差，影响娱乐性和趣味性。

发明内容

有鉴于此，本发明提供一种2D图片集转3D模型的方法、存储介质和装置，以解决如何基于2D图片集构建3D模型的问题。

本发明提供一种2D图片集转3D模型的方法，2D图片集至少包括一张图片，该方法包括：

步骤11：通过深度学习算法识别2D图片集中每张图片所包含每个对象的类别以及每个对象的轮廓信息；

步骤12：通过计算机视觉算法提取2D图片集中每张图片中每个对象的细节特性信息，细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息；

步骤13：基于对象的类别、形状特征信息、轮廓信息匹配3D模型，匹配成功的3D模型为该对象的3D模型；

步骤14：将每个匹配成功的对象的纹理信息和颜色特征信息映射到该对象的3D模型上。

本发明还提供一种非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质存储指令，其指令在由处理器执行时使得处理器执行上述本发明2D图片集转3D模型的方法中的步骤。

发明还提供一种2D图片集转3D模型装置，包括处理器和上述的非瞬时计算机可读存储介质。

本发明提出了一种2D图片集转3D模型的方法，通过提取2D图片中的对象的图像信息，匹配的3D模型，匹配成功后，再将从2D图片中提取的对象的纹理信息和颜色特征信息映射到3D模型上，从而构建逼真的3D模型，逼真3D模型不存在基于视差生成3D模型和3D视频的缺点，可以提高3D视频或3D模型的用户体验，增强娱乐性和趣味性。

附图说明

图1为本发明2D图片集转3D模型的方法的流程图；

图2为图1中步骤11的一个实施例；

图3为图1中步骤12的一个实施例；

图4为本发明步骤131的一个实施例；

图5为本发明步骤16的一个实施例；

图6为本发明实施例一中视频解码示意图；

图7为本发明实施例一中小孩提取示意图；

图8为本发明实施例一中小孩姿态同步的示意图；

图9为本发明实施例一中AR场景实现的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，本发明提供一种2D图片集转3D模型的方法，该2D图片集至少包括一张图片，该方法包括：

步骤11(S11)：通过深度学习算法识别2D图片集中每张图片所包含的每个对象的类别以及每个对象的轮廓信息。

轮廓信息不仅包括每个对象的外周，也包括外周的位置信息、外周的中心点坐标，外周的宽和高等。

深度学习算法包括无监督预训练网络、卷积神经网络、循环神经网络、递归神经网络等，能从2D图片中识别出对象的类别以及对象轮廓信息的任一网络或多个网络的组合都适用本发明。

例如，图2为步骤11的一种实现方式，每张图片执行完图2的方法后均可以获得该图片中每个对象类别信息和每个对象的轮廓信息，该方法包括：

步骤111：将2D图片集中的任一图片输入卷积神经网络，卷积神经网络输出该任一图片的n级特征图P1…Pn，n≥2。

卷积神经网络CNN(Convolutional Neural Network)模型，通常被用来做特征提取工作。CNN的主干网络包括残差网络ResNeXt-101和特征金字塔网络FPN。

残差网络ResNeXt-101是一个用于图像分类的简单、高度模块化的网络结构，用以作为CNN的特征提取。本发明还改进了ResNeXt-101的网络结构，采用了加速策略，把ResNeXt-101中3X 3的卷积用深度可分离卷积替代，实现模型小型化，输出n级特征C0…Cn-1。

特征金字塔网络FPN，作为ResNeXt-101的扩展使得整个CNN网络可以在多个尺度上更好的表征目标，通过添加第二个金字塔提升了标准特征提取金字塔的性能，其中Pn-1是Cn-1经过1X1的卷积得到，Pn-2是Cn-2经过1X1的卷积+Pn-1上采样得到。Pn-3是Cn-3经过1X1的卷积+Pn-2上采样得到；Pn-4是Cn-4经过1X1的卷积+Pn-3上采样得到。Pn是Pn-1经过1x1最大池化得到。

第一金字塔从底层至顶层的输出依次输入第二金字塔的顶层至底层，例如第二个金字塔可以从第一个金字塔选择高级特征并传递到底层上。基于这个过程，使得每一级的特征都可以和高级、低级特征互相结合。

ResNeXt101+FPN作为主干网络，用以提取特征，最后输出特征图为P1…Pn，在FPN中第二个金字塔拥有一个包含每一级特征的特征图，而不是标准主干中的单个主干特征图(即第一个金字塔中的最高层Cn-1)，特征选取策略为：选用哪一级的特征是由目标的尺寸动态地确定。

步骤112：通过区域建议网络定位P1…Pn中的目标候选区域，每个候选区域至少包含一个候选框。

区域建议网络(RPN)将任一卷积特征图作为输入，输出该卷积特征图的候选区域，每个候选区域包含多个候选框，类似于目标检测中的Selective Search一步。

RPN用滑动窗口来扫描特征图，并寻找存在的目标区域，扫描的区域称为anchor(也称为候选框)，anchor的规格定义了(32,64,128,256,512)五种，每个规格有3个比率(1:1,1:2,2:1)。

RPN为每个区域产生2个输出：anchor的类别cls(有目标或无目标)和边框精度reg(x、y、宽、高的变化百分数)。滑窗采用两个分支的特殊的全连接层用于输出anchor类别和精度。

具体实现如下：产生512维的fc特征，则用Num_out＝512,kernel_size＝3×3,stride＝1，padding为same的卷积层Conv2D实现特征图到第一个全连接特征的映射。然后，再用两个Num_out分别为2×15(15是anchor的类别5×3)＝30和4×15＝75，kernel_size＝1×1，stride＝1，padding为valid的卷积层Conv2D实现上一层特征到两个分支cls和reg的特征映射。

使用RPN的预测，可以定位包含目标的anchor，并对其位置和尺寸进行精调。

步骤113：当任一候选区域包括至少两个候选框时，采用非极大值抑制算法筛选每个候选区域的候选框，保留其中前景分数最高的候选框，并舍弃其他候选框。

如果上述PRN选出的多个anchor互相重叠，可采用非极大值抑制，将保留拥有最高前景分数的anchor，并舍弃余下的。

步骤114：对于P1…Pn中的每个候选框，将其分割为第一预设尺寸的池化单元，通过最大池化提取每个子单元的特征值后输出池化后的P1…Pn；

步骤115：将池化后的P1…Pn映射为全连接特征，在全连接特征上识别每个候选框的对象类别，并缩小候选框尺寸；

在步骤115中，基于对象的候选框识别对象的类别需要全连接层，而全连接只能处理固定的输入尺寸，但是，步骤113得到的候选框的具有不同的尺寸。需要步骤114将步骤113确认的候选框归一为第一预设尺寸，其具体实现包括：

a.遍历每一个候选框，保持浮点数边界不做量化。

b.将候选区域分割成mxm个单元，每个单元的边界也不做量化。

c.在每个单元中计算固定4个坐标位置，用双线性内插的方法计算出这4个位置的值，然后进行最大池化操作。固定位置是指在每一个矩形单元中按照固定规则确定的位置。比如，采样点数是4，那么就是把这个单元平均分割成四个小方块以后，确定它们分别的中心点。显然这些采样点的坐标通常是浮点数，所以需要使用插值的方法得到它的像素值。

步骤115主要涉及分类分析算法和回归分析算法，以获得候选框的分类，和候选框边界框的回归。与RPN一样，分类分析算法和回归分析算法为每个候选框生成了两个输出：类别(具体为物体的类别)和边框精调(进一步精调候选框边框的位置和尺寸)。

分类分析算法和回归分析算法具体实现如下：

a.产生1024维的fc特征，用Num_out＝1024,kernel_size＝3×3,stride＝1，padding为valid的卷积层实现P1…Pn到第一个全连接特征的映射。

b.第一个全连接特征后面接一个BatchNormal，然后激活relu，然后dropout，drop率选择0.5。

c.然后，再接一个输出1024维的fc特征，Num_out＝1024,kernel_size＝1×1,stride＝1，padding为valid的卷积层Conv2D实现第2个全连接特征的映射，后面接一个BatchNormal，激活relu。

d.最后，用两个Num_out分别为80(识别的物体的类别种类)和4×80＝320(位置信息乘以类别种类)的全连接层实现上一层特征到两个分支softmax分类(将区域分类为具体的类别人、车、椅子等)和linear回归(进一步精调边框的位置和尺寸)的特征映射。

步骤116：通过全卷积网络识别缩小候选框区域内的对象的轮廓信息。

全卷积网络FCN可以实现像素级别的分类(即end to end，pixel-wise)。全卷积网络FCN，取候选框分类选择的正区域为输入，并生成它们的掩码，基于掩码分割不同对象的像素，确定对象的轮廓信息。

例如，FCN可采用用4层相同的num_out＝256,kernel_size＝3×3,stride＝1，padding为valid的卷积层Conv2D，和一层反卷积层(num_out＝256,kernel_size＝2×2,stride＝2)，然后映射到掩码二值化层sigmoid，输出维度是80，Conv2D(80,(1,1),strides＝1,activation＝"sigmoid")组成。

其生成的掩码是低分辨率的：14x14像素，将预测的掩码放大为候选框边框的尺寸以给出最终的掩码结果，每个对象有一个掩码。

步骤12：通过计算机视觉算法提取2D图片集中每张图片中每个对象的细节特性信息；细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息。

本发明的细节特征信息除对象的纹理信息、颜色特征信息和形状特征信息之外；还可以包括：2D图片是否为对象的单独目标帧。

具体地，步骤12通过步骤121和步骤122实现，如图3所示。

步骤121：通过超像素和/或阈值分割方法定位2D图片集中任一图片中的对象；如果该任一图片只包含一个对象，则该图片为对象的单独目标帧；

步骤122：基于每个对象在该任一图片中的定位信息，利用Tamura纹理特征算法和小波变换提取每个对象的纹理，利用颜色直方图匹配提取每个对象的颜色特征信息，利用几何参数法提取每个对象的形状特征信息。

例如采用有关形状定量测度(如长，宽，矩、面积、周长等)的形状参数法(shapefactor)计算对象的形状特征，如果包含多个对象，则还计算各对象之间的形状比例。

步骤13：基于每个对象的类别、形状特征信息、轮廓信息匹配3D模型，匹配成功的3D模型为该对象的3D模型。

根据识别获取的每个对象的类别，形状特征信息(例如，长、宽、高)，轮廓信息，在3D模型库(3Dmax)中匹配现有模型，匹配规则可以，先匹配类别，在同一类别中匹配形状特征信息，形状特征信息匹配完，再匹配轮廓，依次递进匹配模型。

本发明提出了一种2D图片集转3D模型的方法，通过提取2D图片中的对象的图像信息，匹配现有的3D模型，匹配成功后，再将从2D图片中提取的对象的纹理信息和颜色特征信息映射到3D模型上，从而构建逼真的3D模型，逼真3D模型不存在基于视差生成3D模型和3D视频的缺点，可以提高3D视频或3D模型的用户体验，增强娱乐性和趣味性。

此外步骤13还包括：如果匹配失败，则执行步骤131；

步骤131：基于匹配失败的对象的单独目标帧，构建该对象的3D模型。

具体地，如图4所示，步骤131包括：

步骤131-1：提取单独目标帧中对象的特征点；

步骤131-2：匹配单独目标帧中对象的特征点，得到特征点的配准点；

单独目标帧中只包含一个对象的信息，其中步骤131和步骤132可以通过SIFT(Scale Invariant Feature Transform)算法实现，SIFT是一个很好的图像匹配算法，对旋转、尺度、透视都有较好的鲁棒性。或者可以考虑其他特征提取算法，比如SURF、ORB等。

特征点的配准点还需要进行筛选，例如可以使用Ratio Test方法，使用KNN算法寻找与该特征点最匹配的2个配准点，若第一配准点的匹配距离与第二个配准点的匹配距离之比小于某一阈值，就接受该匹配，否则视为误匹配。

可选地，也可以使用Cross Test(交叉验证)方法来筛选特征点的配准点。

步骤131-3：基于特征点和配准点，提取单独目标帧的本征矩阵；

步骤131-4：基于本征矩阵求解相机的内外参数；

步骤131-5：基于相机的内外参数，将特征点和配准点的二维坐标转换为三维坐标；

步骤131-6：判断是否还存在其他该对象的单独目标帧未分析，如果是，返回步骤131-1，否则，执行步骤131-7；

步骤131-7：基于特征点和配准点的三维坐标生成3维点云，基于3维点云使用泊松曲面重构方法完成该对象的3D模型的几何建模；

得到配准点后，就可以使用OpenCV3.0中新加入的函数findEssentialMat()来求取本征矩阵了。得到本征矩阵后，再使用另一个函数recoverPose对本征矩阵进行分解，并返回两相机之间的相对变换R和T，即相机的内外参数，完成相机的标定。

求解出摄像机的内外参数后，将特征点和配准点的二维坐标转换为三维坐标，并生成稀疏3维点云，然后使用PMVS2来得到稠密点云，点云处理的方法有很多，PMVS2只是其中的一种方法。

再基于3维点云，利用泊松曲面重构方法完成对象的3D模型的几何建模；

步骤131-8：基于单独目标帧，细化该对象的纹理信息、颜色特征信息、形状特征信息，并将细化后的信息映射至对象的3D模型。

最后，把对象相关特征信息进行特征参数细化，比如人物目标中的身体比例，头部特征，眼睛，口，鼻，眉毛，面部轮廓等，获取这些参数，并将这些参数同步映射到3D模型中，重建真实目标模型。

本发明图1的方法，除了用于2D图片外，还可以应用于2D视频，应用于2D视频时，在步骤11之前还包括：

步骤10：提取2D视频中的关键帧作为2D图片集中的图片。

具体包括：

步骤101：解码2D视频，获取2D视频的所有静态帧；

步骤102：聚类分析所有静态帧，提取每个聚类中熵最大的静态帧为该聚类的关键帧。

例如，一个1分钟的视频(1800帧数据)经过上述步骤101和步骤102，可以获得30帧的关键帧。

详细流程如下：

a.打开视频文件，把数据从硬盘读入buffer，获取视频文件信息，将buffer中的视频文件发送给解码器用于解码；

b.解码2D视频，获得2D视频的所有的静态帧；

解码器，包括FFMPEG、Android平台的MediaCodec、IOS平台的AVFoundation等，均可解码2D视频获取该2D视频的序列静态帧。

c.把静态帧通过聚类分析聚集成n个类，在每个类中的静态帧均是相似的，而不同类之间的静态帧是不相似的。

如果一个类的帧数太少，直接将其与相邻帧合并。对于每个类，维护一个质心，对于每一帧，计算它聚类质心的相似度。如果相似度小于某一阈值，那么把它归到一个新建的类中，否则加入之前的类中。

d.从每个类内提取一个代表作为关键帧，例如可以计算每个聚类中熵最大的图像，并将其作为关键帧。

可选地，步骤14或步骤131之后还包括：

步骤15：识别2D图片集中任一图片中任一对象的姿态，调整该对象的3D模型的姿态与识别的对象的姿态一致；

步骤16：将3D模型渲染到AR场景中。

假设2D图片集中包含多个图片，则可按图片的时间信息(例如生成时间)逐一执行步骤15和步骤16，如此可形成动态的AR内容。

进一步地，如图5所示，步骤16包括：

步骤161：获取真实场景信息；

步骤162：对真实场景信息和相机位置信息进行分析，得到3D模型在相机视平面投影的仿射变换矩阵；

步骤163：基于仿射变换矩阵导入对象的3D模型，通过与真实场景的视频进行合并后，一起显示在AR呈现设备或其他设备上。

合并视频或直接显示，即图形系统首先根据相机的位置信息和真实场景中的定位标记来计算虚拟物体(对象的3D模型)坐标到相机视平面的仿射变换矩阵，然后按照仿射变换矩阵在视平面上绘制虚拟物体，最后直接通过与真实场景的视频合并后，一起显示在AR呈现设备或者其它显示器上。

当2D视频中的关键帧依序逐一生成相应的3D模型，并逐一投放到VR环境中，就生成了基于2D视频相应的AR内容。

以上是对本发明2D图片转3D模型的方法的说明，下面给出本发明方法应用的实施例。

实施例一

用户用手机拍摄一段小孩玩耍的2D视频，基于上述本发明方法可以把这个视频转成一段AR内容，并直接观看该AR内容，体会到“身临其境”的感觉。具体操作实施如下：

步骤201：解析2D视频；打开视频，获取视频的静态帧，对静态帧进行分析，找出关键帧，保存，如图6所示。

步骤202：通过深度学习算法和计算机视算法，识别并提取关键帧中的小孩以及相关特征信息，如图7所示。

提取时，可以选择不用设定目标物体，采用默认目标，默认目标为：人，汽车，椅子，杯子，鸟，牛，猫，狗，羊等。也可以选择设定特定的提取目标，比如只提取人的目标物体以及相关特征。或者也可以提取手动框选的目标物体以及相关特征。

步骤203：根据步骤202识别目标类别和特征信息，在3D模型库中检索匹配对应的模型类别，比如本实例中提取目标为小孩(人物类)，首先在3D模型库中检索匹配小孩的3D模型。

然后根据提取的小孩细节特征如眼睛，口，鼻，眉毛，面部轮廓，纹理等等，将这些参数同步到对应的模型上，让3D模型更形象更逼真，建立与关键帧信息一致的小孩的3D模型。

步骤204：根据步骤201获取的关键帧和步骤203生成的3D模型，进行模型的姿态调整，将3D模型的姿态调整为关键帧中的姿态，把视频中的小孩动作同步到模型中，如图8所示。

步骤205：将小孩模型和模型对应的动作行为，渲染到AR的场景中，显示在AR呈现设备或者其它显示器上，如图9所示。

步骤206：小孩玩耍的AR内容创建完成。

实施例二

有时候由于一些原因用户无法到现场观看车展，只能观看朋友拍摄车展上车的普通视频。基于本发明方法可以把这个视频转成一段AR的内容，让用户可以像现场的体验一样，观看汽车。

步骤301：解析2D视频；打开视频，获取视频的静态帧，对静态帧进行分析，找出关键帧，保存。

步骤302：通过深度学习算法和计算机视算法，识别并提取关键帧中的汽车以及相关特征信息。

提取时，可以选择不用设定目标物体，采用默认目标，默认目标为：人，汽车，椅子，杯子，鸟，牛，猫，狗，羊等。也可以选择设定特定的提取目标为车，只提取车的目标物体以及相关特征。或者也可以提取手动框选的目标物体以及相关特征。

步骤303：根据步骤202识别目标类别和特征信息，在3D模型库中检索匹配对应的模型类别，比如本实例中提取目标为车，首先在3D模型库中检索匹配车的3D模型。

然后根据提取的车细节特征如形状，颜色，纹理等，将这些参数同步到对应的模型上，让3D模型更形象更逼真。

步骤304：根据步骤301获取的关键帧和步骤303生成的3D模型，进行模型的姿态调整，将3D模型的姿态调整为关键帧中的姿态，把视频中的观察车的各种角度同步到模型中。

步骤305：将车模型和模型对应的方向，渲染到AR的场景中，显示在AR呈现设备或者其它显示器上。

步骤306：车展的AR内容创建完成。

实施例三

用户经常会看一些2D的演出视频。通过本发明的方法可以把这个视频转成一段AR的内容，让用户或者其他可以体会现场观看的感觉，体会“身临其境”的感觉。

步骤401：解析2D视频；打开视频，获取视频的静态帧，对静态帧进行分析，找出关键帧，保存。

步骤402：通过深度学习算法和计算机视算法，识别并提取关键帧中的舞台以及相关特征信息。

提取时，可以选择不用设定目标物体，采用默认目标，默认目标为：人，汽车，椅子，杯子，鸟，牛，猫，狗，羊等。也可以选择设定特定的提取目标为舞台，只提取舞台的目标物体以及相关特征。或者也可以提取手动框选的目标物体以及相关特征。

步骤403：根据步骤202识别目标类别和特征信息，在3D模型库中检索匹配对应的模型类别，比如本实例中提取目标为舞台，首先在3D模型库中检索匹配舞台的3D模型。

然后根据提取的舞台细节特征如人物，座椅以及演出的一些道具等，将这些参数同步到对应的模型上，让3D模型更形象更逼真。

步骤404：根据步骤401获取的关键帧和步骤403生成的3D模型，进行模型的姿态调整，将3D模型的姿态调整为关键帧中的姿态，把视频中的动作同步到模型中。

步骤405：将舞台模型和舞台对应的方向，渲染到AR的场景中，显示在AR呈现设备或者其它显示器上。

步骤406：演出的AR内容创建完成。

本发明还提供一种非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质存储指令，其特征在于，指令在由处理器执行时使得处理器执行上述任一本发明的2D图片集转成3D模型的方法中的步骤。

本发明还提供一种2D图片集转3D模型装置，包括处理器和如上述的非瞬时计算机可读存储介质。

具体地，一种2D图片集转3D模型的装置，2D图片集至少包括一张图片，该装置包括：

对象类别和轮廓识别模块：通过深度学习算法识别2D图片集中每张图片所包含的每个对象的类别以及每个对象的轮廓信息；

对象细节特征提取模块：通过计算机视觉算法提取2D图片集中每张图片中每个对象的细节特性信息，细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息；

模型匹配模块：基于每个对象的类别、形状特征信息、轮廓信息匹配3D模型，匹配成功的3D模型为该对象的3D模型；

3D对象细化模块：将每个匹配成功的对象的纹理信息和颜色特征信息映射到该对象的3D模型上。

可选地，在对象类别和轮廓识别模块之前还包括：

关键帧提取模块：提取2D视频中的关键帧作为2D图片集中的图片。

可选地，关键帧提取模块包括：

视频解码模块：解码2D视频，获取2D视频的所有静态帧；

聚类分析模块：聚类分析所有静态帧，提取每个聚类中熵最大的静态帧为该聚类的关键帧。

可选地，对象类别和轮廓识别模块包括：

卷积神经网络：将2D图片集中的任一图片输入卷积神经网络，卷积神经网络输出该任一图片的n级特征图P1…Pn，n≥2；

区域建设网络：通过区域建议网络定位P1…Pn中的目标候选区域，每个候选区域至少包含一个候选框；

候选框筛选模块：当任一候选区域包括至少两个候选框时，采用非极大值抑制算法筛选每个候选区域的候选框，保留其中前景分数最高的候选框，并舍弃其他候选框；

池化模块：对于P1…Pn中的每个候选框，将其分割为第一预设尺寸的池化单元，通过最大池化提取每个子单元的特征值后输出池化后的P1…Pn；

分类和回归模块：将池化后的P1…Pn映射为全连接特征，在全连接特征上识别每个候选框的对象类别，并缩小候选框尺寸；

全卷积网络：通过全卷积网络识别每个缩小候选框区域内的对象的轮廓信息。

可选地，卷积神经网络包括残差网络和特征金字塔网络，残差网络的3X 3的卷积采用深度可分离卷积替代。

可选地，特征金字塔网络包含第一金字塔和第二金字塔，第一金字塔从底层至顶层的输出依次输入第二金字塔的顶层至底层。

可选地，在对象细节特征提取模块中，细节特征信息还包括：2D图片是否为对象的单独目标帧。

进一步地，对象细节特征提取模块包括：

对象定位模块：通过超像素和/或阈值分割方法定位2D图片集中任一图片中的对象；如果该任一图片只包含一个对象，则该任一图片为对象的单独目标帧；

细节特征解析模块：基于每个对象在任一图片中的定位信息，利用Tamura纹理特征算法和小波变换提取每个对象的纹理，利用颜色直方图匹配提取每个对象的颜色特征信息，利用几何参数法提取每个对象的形状特征信息。

可选地，模型匹配模块还包括：如果匹配失败，则执行模型构建模块；

模型构建模块：基于匹配失败的对象的单独目标帧，构建对象的3D模型。

进一步地，模型构建模块包括：

特征点模块：提取单独目标帧中对象的特征点；

配准点模块：匹配单独目标帧中对象的特征点，得到特征点的配准点；

本征矩阵生成模块：基于特征点和配准点，提取单独目标帧的本征矩阵；

相机参数解析模块：基于本征矩阵求解相机的内外参数；

坐标转换模块：基于相机的内外参数，将特征点和配准点的二维坐标转换为三维坐标；

单独目标帧剩余判断模块：判断是否还存在其他该对象的单独目标帧未分析，如果是，返回特征点模块，否则，执行3D模型初建模块；

3D模型初建模块：基于特征点和配准点的三维坐标生成3维点云，基于3维点云使用泊松曲面重构方法完成该对象的3D模型的几何建模；

3D模型细化模块：基于单独目标帧，细化该对象的纹理信息、颜色特征信息、形状特征信息，并将细化后的信息映射至该对象的3D模型。

可选地，3D对象细化模块或模型构建模块之后还包括：

姿态同步模块：识别2D图片集中任一图片中任一对象的姿态，调整该对象的3D模型的姿态与对象的姿态一致；

AR投影模块：将调整后的3D模型渲染到AR场景中。

进一步地，AR投影模块包括：

信息获取模块：获取真实场景信息；

仿射变换矩阵解算模块：对真实场景信息和相机位置信息进行分析，得到对象的3D模型在相机视平面投影的仿射变换矩阵；

投影模块：基于仿射变换矩阵导入对象的3D模型，通过与真实场景的视频进行合并后，一起显示在AR呈现设备或其他设备上。

需要说明的是，本发明2D图片集转3D模型的装置的实施例，与2D图片集转3D模型的方法的实施例原理相同，相关之处可以互相参照。

以上所述仅为本发明的较佳实施例而已，并不用以限定本发明的包含范围，凡在本发明技术方案的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种2D图片集转3D模型的方法，其特征在于，所述2D图片集至少包括一张图片，所述方法包括：

步骤11：通过深度学习算法识别所述2D图片集中每张图片所包含每个对象的类别以及每个对象的轮廓信息；

步骤12：通过计算机视觉算法提取所述2D图片集中每张图片中每个对象的细节特性信息，所述细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息；

步骤13：基于每个对象的类别、形状特征信息、轮廓信息匹配3D模型，匹配成功的3D模型为该对象的3D模型；

2.根据权利要求1所述的方法，其特征在于，所述步骤11之前还包括：

步骤10：提取2D视频中的关键帧作为所述2D图片集中的图片。

3.根据权利要求2所述的方法，其特征在于，所述步骤10包括：

步骤101：解码2D视频，获取所述2D视频的所有静态帧；

步骤102：聚类分析所述所有静态帧，提取每个聚类中熵最大的静态帧为该聚类的关键帧。

4.根据权利要求1所述的方法，其特征在于，所述步骤11包括：

步骤111：将所述2D图片集中的任一图片输入卷积神经网络，所述卷积神经网络输出所述任一图片的n级特征图P1…Pn，n≥2；

步骤112：通过区域建议网络定位所述P1…Pn中的目标候选区域，所述每个候选区域至少包含一个候选框；

步骤113：当任一所述候选区域包括至少两个候选框时，采用非极大值抑制算法筛选每个候选区域的候选框，保留其中前景分数最高的候选框，并舍弃其他候选框；

步骤114：对于所述P1…Pn中的每个候选框，将其分割为第一预设尺寸的池化单元，通过最大池化提取每个子单元的特征值后输出池化后的P1…Pn；

步骤115：将所述池化后的P1…Pn映射为全连接特征，在所述全连接特征上识别每个候选框的对象类别，并缩小候选框尺寸；

步骤116：通过全卷积网络识别每个所述缩小候选框区域内的对象的轮廓信息。

5.根据权利要求4所述的方法，其特征在于，所述卷积神经网络包括残差网络和特征金字塔网络，所述残差网络的3X 3的卷积采用深度可分离卷积替代。

6.根据权利要求5所述的方法，其特征在于，所述特征金字塔网络包含第一金字塔和第二金字塔，所述第一金字塔从底层至顶层的输出依次输入所述第二金字塔的顶层至底层。

7.根据权利要求1所述的方法，其特征在于，其特征在于，所述细节特征信息还包括：所述2D图片是否为对象的单独目标帧。

8.根据权利要求1所述的方法，其特征在于，其特征在于，所述步骤12包括：

步骤121：通过超像素和/或阈值分割方法定位所述2D图片集中任一图片中的对象；如果所述任一图片只包含一个对象，则所述任一图片为所述对象的单独目标帧；

步骤122：基于每个对象在所述任一图片中的定位信息，利用Tamura纹理特征算法和小波变换提取每个对象的纹理，利用颜色直方图匹配提取每个对象的颜色特征信息，利用几何参数法提取每个对象的形状特征信息。

9.根据权利要求7所述的方法，其特征在于，其特征在于，所述步骤13还包括：如果匹配失败，则执行步骤131；

10.根据权利要求9所述的方法，其特征在于，所述步骤131包括：

步骤131-1：提取所述单独目标帧中对象的特征点；

步骤131-2：匹配所述单独目标帧中所述对象的特征点，得到所述特征点的配准点；

步骤131-3：基于所述特征点和配准点，提取所述单独目标帧的本征矩阵；

步骤131-4：基于所述本征矩阵求解相机的内外参数；

步骤131-5：基于所述相机的内外参数，将所述特征点和配准点的二维坐标转换为三维坐标；

步骤131-6：判断是否还存在其他所述对象的单独目标帧未分析，如果是，返回步骤131-1，否则，执行步骤131-7；

步骤131-7：基于所述特征点和配准点的三维坐标生成3维点云，基于所述3维点云使用泊松曲面重构方法完成所述对象的3D模型的几何建模；

步骤131-8：基于所述单独目标帧，细化所述对象的纹理信息、颜色特征信息、形状特征信息，并将细化后的信息映射至所述对象的3D模型。

11.根据权利要求9所述的方法，其特征在于，所述步骤14或步骤131之后还包括：

步骤15：识别所述2D图片集中任一图片中任一对象的姿态，调整该对象的3D模型的姿态与所述对象的姿态一致；

步骤16：将调整后的所述3D模型渲染到AR场景中。

12.根据权利要求11所述的方法，其特征在于，所述步骤16包括：

步骤161：获取真实场景信息；

步骤162：对所述真实场景信息和相机位置信息进行分析，得到所述对象的3D模型在相机视平面投影的仿射变换矩阵；

步骤163：基于所述仿射变换矩阵导入所述对象的3D模型，通过与真实场景的视频进行合并后，一起显示在AR呈现设备或其他设备上。

13.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至12中任一所述的2D图片集转3D模型的方法中的步骤。

14.一种2D图片集转3D模型的装置，其特征在于，包括处理器和如权利要求13所述的非瞬时计算机可读存储介质。