CN109191369A - 2d图片集转3d模型的方法、存储介质和装置 - Google Patents

2d图片集转3d模型的方法、存储介质和装置 Download PDF

Info

Publication number
CN109191369A
CN109191369A CN201810884174.7A CN201810884174A CN109191369A CN 109191369 A CN109191369 A CN 109191369A CN 201810884174 A CN201810884174 A CN 201810884174A CN 109191369 A CN109191369 A CN 109191369A
Authority
CN
China
Prior art keywords
model
information
picture
pictures
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810884174.7A
Other languages
English (en)
Other versions
CN109191369B (zh
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN201810884174.7A priority Critical patent/CN109191369B/zh
Publication of CN109191369A publication Critical patent/CN109191369A/zh
Priority to US17/257,665 priority patent/US11755956B2/en
Priority to PCT/KR2019/006025 priority patent/WO2020032354A1/en
Application granted granted Critical
Publication of CN109191369B publication Critical patent/CN109191369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/08Projecting images onto non-planar surfaces, e.g. geodetic screens
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2012Colour editing, changing, or manipulating; Use of colour codes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种2D图片集转3D模型的方法、存储介质和装置,该方法包括:步骤11:通过深度学习算法识别2D图片集中每张图片所包含的每个对象的类别以及每个对象的轮廓信息;步骤12:通过计算机视觉算法提取每张图片中每个对象的细节特性信息,细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息;步骤13:基于每个对象的类别、形状特征信息、轮廓信息匹配3D模型,匹配成功的3D模型为每个对象的3D模型;步骤14:将每个对象的纹理信息和颜色特征信息映射到每个对象的3D模型上。基于本发明的方法,通过构建逼真的3D模型,以克服基于视差生成3D模型和3D视频的缺点,提高3D视频或3D模型的用户体验,增强娱乐性和趣味性。

Description

2D图片集转3D模型的方法、存储介质和装置
技术领域
本发明涉及计算机领域,特别涉及一种2D图片集转3D模型的方法、存储介质和装置。
背景技术
目前,可以基于视差原理将2D图片或视频转成3D模型或3D视频,但其本质是生成两幅针对左右眼不同的2D图片,并未生成实质的3D模型。由于视差都是错觉,使得用户在观看基于视差生成的3D模型或3D视频时会感到不适、失真、并容易疲劳,用户使用体验较差,影响娱乐性和趣味性。
发明内容
有鉴于此,本发明提供一种2D图片集转3D模型的方法、存储介质和装置,以解决如何基于2D图片集构建3D模型的问题。
本发明提供一种2D图片集转3D模型的方法,2D图片集至少包括一张图片,该方法包括:
步骤11:通过深度学习算法识别2D图片集中每张图片所包含每个对象的类别以及每个对象的轮廓信息;
步骤12:通过计算机视觉算法提取2D图片集中每张图片中每个对象的细节特性信息,细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息;
步骤13:基于对象的类别、形状特征信息、轮廓信息匹配3D模型,匹配成功的3D模型为该对象的3D模型;
步骤14:将每个匹配成功的对象的纹理信息和颜色特征信息映射到该对象的3D模型上。
本发明还提供一种非瞬时计算机可读存储介质,该非瞬时计算机可读存储介质存储指令,其指令在由处理器执行时使得处理器执行上述本发明2D图片集转3D模型的方法中的步骤。
发明还提供一种2D图片集转3D模型装置,包括处理器和上述的非瞬时计算机可读存储介质。
本发明提出了一种2D图片集转3D模型的方法,通过提取2D图片中的对象的图像信息,匹配的3D模型,匹配成功后,再将从2D图片中提取的对象的纹理信息和颜色特征信息映射到3D模型上,从而构建逼真的3D模型,逼真3D模型不存在基于视差生成3D模型和3D视频的缺点,可以提高3D视频或3D模型的用户体验,增强娱乐性和趣味性。
附图说明
图1为本发明2D图片集转3D模型的方法的流程图;
图2为图1中步骤11的一个实施例;
图3为图1中步骤12的一个实施例;
图4为本发明步骤131的一个实施例;
图5为本发明步骤16的一个实施例;
图6为本发明实施例一中视频解码示意图;
图7为本发明实施例一中小孩提取示意图;
图8为本发明实施例一中小孩姿态同步的示意图;
图9为本发明实施例一中AR场景实现的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,本发明提供一种2D图片集转3D模型的方法,该2D图片集 至少包括一张图片,该方法包括:
步骤11(S11):通过深度学习算法识别2D图片集中每张图片所包含的每个对象的类别以及每个对象的轮廓信息。
轮廓信息不仅包括每个对象的外周,也包括外周的位置信息、外周的中心点坐标,外周的宽和高等。
深度学习算法包括无监督预训练网络、卷积神经网络、循环神经网络、递归神经网络等,能从2D图片中识别出对象的类别以及对象轮廓信息的任一网络或多个网络的组合都适用本发明。
例如,图2为步骤11的一种实现方式,每张图片执行完图2的方法后均可以获得该图片中每个对象类别信息和每个对象的轮廓信息,该方法包括:
步骤111:将2D图片集中的任一图片输入卷积神经网络,卷积神经网络输出该任一图片的n级特征图P1…Pn,n≥2。
卷积神经网络CNN(Convolutional Neural Network)模型,通常被用来做特征提取工作。CNN的主干网络包括残差网络ResNeXt-101和特征金字塔网络FPN。
残差网络ResNeXt-101是一个用于图像分类的简单、高度模块化的网络结构,用以作为CNN的特征提取。本发明还改进了ResNeXt-101的网络结构,采用了加速策略,把ResNeXt-101中3X 3的卷积用深度可分离卷积替代,实现模型小型化,输出n级特征C0…Cn-1。
特征金字塔网络FPN,作为ResNeXt-101的扩展使得整个CNN网络可以在多个尺度上更好的表征目标,通过添加第二个金字塔提升了标准特征提取金字塔的性能,其中Pn-1是Cn-1经过1X1的卷积得到,Pn-2是Cn-2经过1X1的卷积+Pn-1上采样得到。Pn-3是Cn-3经过1X1的卷积+Pn-2上采样得到;Pn-4是Cn-4经过1X1的卷积+Pn-3上采样得到。Pn是Pn-1经过1x1最大池化得到。
第一金字塔从底层至顶层的输出依次输入第二金字塔的顶层至底层,例如 第二个金字塔可以从第一个金字塔选择高级特征并传递到底层上。基于这个过程,使得每一级的特征都可以和高级、低级特征互相结合。
ResNeXt101+FPN作为主干网络,用以提取特征,最后输出特征图为P1…Pn,在FPN中第二个金字塔拥有一个包含每一级特征的特征图,而不是标准主干中的单个主干特征图(即第一个金字塔中的最高层Cn-1),特征选取策略为:选用哪一级的特征是由目标的尺寸动态地确定。
步骤112:通过区域建议网络定位P1…Pn中的目标候选区域,每个候选区域至少包含一个候选框。
区域建议网络(RPN)将任一卷积特征图作为输入,输出该卷积特征图的候选区域,每个候选区域包含多个候选框,类似于目标检测中的Selective Search一步。
RPN用滑动窗口来扫描特征图,并寻找存在的目标区域,扫描的区域称为anchor(也称为候选框),anchor的规格定义了(32,64,128,256,512)五种,每个规格有3个比率(1:1,1:2,2:1)。
RPN为每个区域产生2个输出:anchor的类别cls(有目标或无目标)和边框精度reg(x、y、宽、高的变化百分数)。滑窗采用两个分支的特殊的全连接层用于输出anchor类别和精度。
具体实现如下:产生512维的fc特征,则用Num_out=512,kernel_size=3×3,stride=1,padding为same的卷积层Conv2D实现特征图到第一个全连接特征的映射。然后,再用两个Num_out分别为2×15(15是anchor的类别5×3)=30和4×15=75,kernel_size=1×1,stride=1,padding为valid的卷积层Conv2D实现上一层特征到两个分支cls和reg的特征映射。
使用RPN的预测,可以定位包含目标的anchor,并对其位置和尺寸进行精调。
步骤113:当任一候选区域包括至少两个候选框时,采用非极大值抑制算法筛选每个候选区域的候选框,保留其中前景分数最高的候选框,并舍弃其他候选框。
如果上述PRN选出的多个anchor互相重叠,可采用非极大值抑制,将保留拥有最高前景分数的anchor,并舍弃余下的。
步骤114:对于P1…Pn中的每个候选框,将其分割为第一预设尺寸的池化单元,通过最大池化提取每个子单元的特征值后输出池化后的P1…Pn;
步骤115:将池化后的P1…Pn映射为全连接特征,在全连接特征上识别每个候选框的对象类别,并缩小候选框尺寸;
在步骤115中,基于对象的候选框识别对象的类别需要全连接层,而全连接只能处理固定的输入尺寸,但是,步骤113得到的候选框的具有不同的尺寸。需要步骤114将步骤113确认的候选框归一为第一预设尺寸,其具体实现包括:
a.遍历每一个候选框,保持浮点数边界不做量化。
b.将候选区域分割成mxm个单元,每个单元的边界也不做量化。
c.在每个单元中计算固定4个坐标位置,用双线性内插的方法计算出这4个位置的值,然后进行最大池化操作。固定位置是指在每一个矩形单元中按照固定规则确定的位置。比如,采样点数是4,那么就是把这个单元平均分割成四个小方块以后,确定它们分别的中心点。显然这些采样点的坐标通常是浮点数,所以需要使用插值的方法得到它的像素值。
步骤115主要涉及分类分析算法和回归分析算法,以获得候选框的分类,和候选框边界框的回归。与RPN一样,分类分析算法和回归分析算法为每个候选框生成了两个输出:类别(具体为物体的类别)和边框精调(进一步精调候选框边框的位置和尺寸)。
分类分析算法和回归分析算法具体实现如下:
a.产生1024维的fc特征,用Num_out=1024,kernel_size=3×3,stride=1,padding为valid的卷积层实现P1…Pn到第一个全连接特征的映射。
b.第一个全连接特征后面接一个BatchNormal,然后激活relu,然后dropout,drop率选择0.5。
c.然后,再接一个输出1024维的fc特征,Num_out=1024,kernel_size=1×1,stride=1,padding为valid的卷积层Conv2D实现第2个全连接特征的映射,后面接一个BatchNormal,激活relu。
d.最后,用两个Num_out分别为80(识别的物体的类别种类)和4×80=320(位置信息乘以类别种类)的全连接层实现上一层特征到两个分支softmax分类(将区域分类为具体的类别人、车、椅子等)和linear回归(进一步精调边框的位置和尺寸)的特征映射。
步骤116:通过全卷积网络识别缩小候选框区域内的对象的轮廓信息。
全卷积网络FCN可以实现像素级别的分类(即end to end,pixel-wise)。全卷积网络FCN,取候选框分类选择的正区域为输入,并生成它们的掩码,基于掩码分割不同对象的像素,确定对象的轮廓信息。
例如,FCN可采用用4层相同的num_out=256,kernel_size=3×3,stride=1,padding为valid的卷积层Conv2D,和一层反卷积层(num_out=256,kernel_size=2×2,stride=2),然后映射到掩码二值化层sigmoid,输出维度是80,Conv2D(80,(1,1),strides=1,activation="sigmoid")组成。
其生成的掩码是低分辨率的:14x14像素,将预测的掩码放大为候选框边框的尺寸以给出最终的掩码结果,每个对象有一个掩码。
步骤12:通过计算机视觉算法提取2D图片集中每张图片中每个对象的细节特性信息;细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息。
本发明的细节特征信息除对象的纹理信息、颜色特征信息和形状特征信息之外;还可以包括:2D图片是否为对象的单独目标帧。
具体地,步骤12通过步骤121和步骤122实现,如图3所示。
步骤121:通过超像素和/或阈值分割方法定位2D图片集中任一图片中的对象;如果该任一图片只包含一个对象,则该图片为对象的单独目标帧;
步骤122:基于每个对象在该任一图片中的定位信息,利用Tamura纹理特征算法和小波变换提取每个对象的纹理,利用颜色直方图匹配提取每个对象的颜色特征信息,利用几何参数法提取每个对象的形状特征信息。
例如采用有关形状定量测度(如长,宽,矩、面积、周长等)的形状参数法(shapefactor)计算对象的形状特征,如果包含多个对象,则还计算各对象之间的形状比例。
步骤13:基于每个对象的类别、形状特征信息、轮廓信息匹配3D模型,匹配成功的3D模型为该对象的3D模型。
根据识别获取的每个对象的类别,形状特征信息(例如,长、宽、高),轮廓信息,在3D模型库(3Dmax)中匹配现有模型,匹配规则可以,先匹配类别,在同一类别中匹配形状特征信息,形状特征信息匹配完,再匹配轮廓,依次递进匹配模型。
步骤14:将每个匹配成功的对象的纹理信息和颜色特征信息映射到该对象的3D模型上。
本发明提出了一种2D图片集转3D模型的方法,通过提取2D图片中的对象的图像信息,匹配现有的3D模型,匹配成功后,再将从2D图片中提取的对象的纹理信息和颜色特征信息映射到3D模型上,从而构建逼真的3D模型,逼真3D模型不存在基于视差生成3D模型和3D视频的缺点,可以提高3D视频或3D模型的用户体验,增强娱乐性和趣味性。
此外步骤13还包括:如果匹配失败,则执行步骤131;
步骤131:基于匹配失败的对象的单独目标帧,构建该对象的3D模型。
具体地,如图4所示,步骤131包括:
步骤131-1:提取单独目标帧中对象的特征点;
步骤131-2:匹配单独目标帧中对象的特征点,得到特征点的配准点;
单独目标帧中只包含一个对象的信息,其中步骤131和步骤132可以通过SIFT(Scale Invariant Feature Transform)算法实现,SIFT是一个很好的图像匹 配算法,对旋转、尺度、透视都有较好的鲁棒性。或者可以考虑其他特征提取算法,比如SURF、ORB等。
特征点的配准点还需要进行筛选,例如可以使用Ratio Test方法,使用KNN算法寻找与该特征点最匹配的2个配准点,若第一配准点的匹配距离与第二个配准点的匹配距离之比小于某一阈值,就接受该匹配,否则视为误匹配。
可选地,也可以使用Cross Test(交叉验证)方法来筛选特征点的配准点。
步骤131-3:基于特征点和配准点,提取单独目标帧的本征矩阵;
步骤131-4:基于本征矩阵求解相机的内外参数;
步骤131-5:基于相机的内外参数,将特征点和配准点的二维坐标转换为三维坐标;
步骤131-6:判断是否还存在其他该对象的单独目标帧未分析,如果是,返回步骤131-1,否则,执行步骤131-7;
步骤131-7:基于特征点和配准点的三维坐标生成3维点云,基于3维点云使用泊松曲面重构方法完成该对象的3D模型的几何建模;
得到配准点后,就可以使用OpenCV3.0中新加入的函数findEssentialMat()来求取本征矩阵了。得到本征矩阵后,再使用另一个函数recoverPose对本征矩阵进行分解,并返回两相机之间的相对变换R和T,即相机的内外参数,完成相机的标定。
求解出摄像机的内外参数后,将特征点和配准点的二维坐标转换为三维坐标,并生成稀疏3维点云,然后使用PMVS2来得到稠密点云,点云处理的方法有很多,PMVS2只是其中的一种方法。
再基于3维点云,利用泊松曲面重构方法完成对象的3D模型的几何建模;
步骤131-8:基于单独目标帧,细化该对象的纹理信息、颜色特征信息、形状特征信息,并将细化后的信息映射至对象的3D模型。
最后,把对象相关特征信息进行特征参数细化,比如人物目标中的身体比例,头部特征,眼睛,口,鼻,眉毛,面部轮廓等,获取这些参数,并将这些参数同步映射到3D模型中,重建真实目标模型。
本发明图1的方法,除了用于2D图片外,还可以应用于2D视频,应用于2D视频时,在步骤11之前还包括:
步骤10:提取2D视频中的关键帧作为2D图片集中的图片。
具体包括:
步骤101:解码2D视频,获取2D视频的所有静态帧;
步骤102:聚类分析所有静态帧,提取每个聚类中熵最大的静态帧为该聚类的关键帧。
例如,一个1分钟的视频(1800帧数据)经过上述步骤101和步骤102,可以获得30帧的关键帧。
详细流程如下:
a.打开视频文件,把数据从硬盘读入buffer,获取视频文件信息,将buffer中的视频文件发送给解码器用于解码;
b.解码2D视频,获得2D视频的所有的静态帧;
解码器,包括FFMPEG、Android平台的MediaCodec、IOS平台的AVFoundation等,均可解码2D视频获取该2D视频的序列静态帧。
c.把静态帧通过聚类分析聚集成n个类,在每个类中的静态帧均是相似的,而不同类之间的静态帧是不相似的。
如果一个类的帧数太少,直接将其与相邻帧合并。对于每个类,维护一个质心,对于每一帧,计算它聚类质心的相似度。如果相似度小于某一阈值,那么把它归到一个新建的类中,否则加入之前的类中。
d.从每个类内提取一个代表作为关键帧,例如可以计算每个聚类中熵最大的图像,并将其作为关键帧。
可选地,步骤14或步骤131之后还包括:
步骤15:识别2D图片集中任一图片中任一对象的姿态,调整该对象的3D模型的姿态与识别的对象的姿态一致;
步骤16:将3D模型渲染到AR场景中。
假设2D图片集中包含多个图片,则可按图片的时间信息(例如生成时间)逐一执行步骤15和步骤16,如此可形成动态的AR内容。
进一步地,如图5所示,步骤16包括:
步骤161:获取真实场景信息;
步骤162:对真实场景信息和相机位置信息进行分析,得到3D模型在相机视平面投影的仿射变换矩阵;
步骤163:基于仿射变换矩阵导入对象的3D模型,通过与真实场景的视频进行合并后,一起显示在AR呈现设备或其他设备上。
合并视频或直接显示,即图形系统首先根据相机的位置信息和真实场景中的定位标记来计算虚拟物体(对象的3D模型)坐标到相机视平面的仿射变换矩阵,然后按照仿射变换矩阵在视平面上绘制虚拟物体,最后直接通过与真实场景的视频合并后,一起显示在AR呈现设备或者其它显示器上。
当2D视频中的关键帧依序逐一生成相应的3D模型,并逐一投放到VR环境中,就生成了基于2D视频相应的AR内容。
以上是对本发明2D图片转3D模型的方法的说明,下面给出本发明方法应用的实施例。
实施例一
用户用手机拍摄一段小孩玩耍的2D视频,基于上述本发明方法可以把这个视频转成一段AR内容,并直接观看该AR内容,体会到“身临其境”的感觉。具体操作实施如下:
步骤201:解析2D视频;打开视频,获取视频的静态帧,对静态帧进行分析,找出关键帧,保存,如图6所示。
步骤202:通过深度学习算法和计算机视算法,识别并提取关键帧中的小孩以及相关特征信息,如图7所示。
提取时,可以选择不用设定目标物体,采用默认目标,默认目标为:人,汽车,椅子,杯子,鸟,牛,猫,狗,羊等。也可以选择设定特定的提取目标, 比如只提取人的目标物体以及相关特征。或者也可以提取手动框选的目标物体以及相关特征。
步骤203:根据步骤202识别目标类别和特征信息,在3D模型库中检索匹配对应的模型类别,比如本实例中提取目标为小孩(人物类),首先在3D模型库中检索匹配小孩的3D模型。
然后根据提取的小孩细节特征如眼睛,口,鼻,眉毛,面部轮廓,纹理等等,将这些参数同步到对应的模型上,让3D模型更形象更逼真,建立与关键帧信息一致的小孩的3D模型。
步骤204:根据步骤201获取的关键帧和步骤203生成的3D模型,进行模型的姿态调整,将3D模型的姿态调整为关键帧中的姿态,把视频中的小孩动作同步到模型中,如图8所示。
步骤205:将小孩模型和模型对应的动作行为,渲染到AR的场景中,显示在AR呈现设备或者其它显示器上,如图9所示。
步骤206:小孩玩耍的AR内容创建完成。
实施例二
有时候由于一些原因用户无法到现场观看车展,只能观看朋友拍摄车展上车的普通视频。基于本发明方法可以把这个视频转成一段AR的内容,让用户可以像现场的体验一样,观看汽车。
步骤301:解析2D视频;打开视频,获取视频的静态帧,对静态帧进行分析,找出关键帧,保存。
步骤302:通过深度学习算法和计算机视算法,识别并提取关键帧中的汽车以及相关特征信息。
提取时,可以选择不用设定目标物体,采用默认目标,默认目标为:人,汽车,椅子,杯子,鸟,牛,猫,狗,羊等。也可以选择设定特定的提取目标为车,只提取车的目标物体以及相关特征。或者也可以提取手动框选的目标物体以及相关特征。
步骤303:根据步骤202识别目标类别和特征信息,在3D模型库中检索匹配对应的模型类别,比如本实例中提取目标为车,首先在3D模型库中检索匹配车的3D模型。
然后根据提取的车细节特征如形状,颜色,纹理等,将这些参数同步到对应的模型上,让3D模型更形象更逼真。
步骤304:根据步骤301获取的关键帧和步骤303生成的3D模型,进行模型的姿态调整,将3D模型的姿态调整为关键帧中的姿态,把视频中的观察车的各种角度同步到模型中。
步骤305:将车模型和模型对应的方向,渲染到AR的场景中,显示在AR呈现设备或者其它显示器上。
步骤306:车展的AR内容创建完成。
实施例三
用户经常会看一些2D的演出视频。通过本发明的方法可以把这个视频转成一段AR的内容,让用户或者其他可以体会现场观看的感觉,体会“身临其境”的感觉。
步骤401:解析2D视频;打开视频,获取视频的静态帧,对静态帧进行分析,找出关键帧,保存。
步骤402:通过深度学习算法和计算机视算法,识别并提取关键帧中的舞台以及相关特征信息。
提取时,可以选择不用设定目标物体,采用默认目标,默认目标为:人,汽车,椅子,杯子,鸟,牛,猫,狗,羊等。也可以选择设定特定的提取目标为舞台,只提取舞台的目标物体以及相关特征。或者也可以提取手动框选的目标物体以及相关特征。
步骤403:根据步骤202识别目标类别和特征信息,在3D模型库中检索匹配对应的模型类别,比如本实例中提取目标为舞台,首先在3D模型库中检索匹配舞台的3D模型。
然后根据提取的舞台细节特征如人物,座椅以及演出的一些道具等,将这些参数同步到对应的模型上,让3D模型更形象更逼真。
步骤404:根据步骤401获取的关键帧和步骤403生成的3D模型,进行模型的姿态调整,将3D模型的姿态调整为关键帧中的姿态,把视频中的动作同步到模型中。
步骤405:将舞台模型和舞台对应的方向,渲染到AR的场景中,显示在AR呈现设备或者其它显示器上。
步骤406:演出的AR内容创建完成。
本发明还提供一种非瞬时计算机可读存储介质,该非瞬时计算机可读存储介质存储指令,其特征在于,指令在由处理器执行时使得处理器执行上述任一本发明的2D图片集转成3D模型的方法中的步骤。
本发明还提供一种2D图片集转3D模型装置,包括处理器和如上述的非瞬时计算机可读存储介质。
具体地,一种2D图片集转3D模型的装置,2D图片集至少包括一张图片,该装置包括:
对象类别和轮廓识别模块:通过深度学习算法识别2D图片集中每张图片所包含的每个对象的类别以及每个对象的轮廓信息;
对象细节特征提取模块:通过计算机视觉算法提取2D图片集中每张图片中每个对象的细节特性信息,细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息;
模型匹配模块:基于每个对象的类别、形状特征信息、轮廓信息匹配3D模型,匹配成功的3D模型为该对象的3D模型;
3D对象细化模块:将每个匹配成功的对象的纹理信息和颜色特征信息映射到该对象的3D模型上。
可选地,在对象类别和轮廓识别模块之前还包括:
关键帧提取模块:提取2D视频中的关键帧作为2D图片集中的图片。
可选地,关键帧提取模块包括:
视频解码模块:解码2D视频,获取2D视频的所有静态帧;
聚类分析模块:聚类分析所有静态帧,提取每个聚类中熵最大的静态帧为该聚类的关键帧。
可选地,对象类别和轮廓识别模块包括:
卷积神经网络:将2D图片集中的任一图片输入卷积神经网络,卷积神经网络输出该任一图片的n级特征图P1…Pn,n≥2;
区域建设网络:通过区域建议网络定位P1…Pn中的目标候选区域,每个候选区域至少包含一个候选框;
候选框筛选模块:当任一候选区域包括至少两个候选框时,采用非极大值抑制算法筛选每个候选区域的候选框,保留其中前景分数最高的候选框,并舍弃其他候选框;
池化模块:对于P1…Pn中的每个候选框,将其分割为第一预设尺寸的池化单元,通过最大池化提取每个子单元的特征值后输出池化后的P1…Pn;
分类和回归模块:将池化后的P1…Pn映射为全连接特征,在全连接特征上识别每个候选框的对象类别,并缩小候选框尺寸;
全卷积网络:通过全卷积网络识别每个缩小候选框区域内的对象的轮廓信息。
可选地,卷积神经网络包括残差网络和特征金字塔网络,残差网络的3X 3的卷积采用深度可分离卷积替代。
可选地,特征金字塔网络包含第一金字塔和第二金字塔,第一金字塔从底层至顶层的输出依次输入第二金字塔的顶层至底层。
可选地,在对象细节特征提取模块中,细节特征信息还包括:2D图片是否为对象的单独目标帧。
进一步地,对象细节特征提取模块包括:
对象定位模块:通过超像素和/或阈值分割方法定位2D图片集中任一图片中的对象;如果该任一图片只包含一个对象,则该任一图片为对象的单独目标帧;
细节特征解析模块:基于每个对象在任一图片中的定位信息,利用Tamura纹理特征算法和小波变换提取每个对象的纹理,利用颜色直方图匹配提取每个对象的颜色特征信息,利用几何参数法提取每个对象的形状特征信息。
可选地,模型匹配模块还包括:如果匹配失败,则执行模型构建模块;
模型构建模块:基于匹配失败的对象的单独目标帧,构建对象的3D模型。
进一步地,模型构建模块包括:
特征点模块:提取单独目标帧中对象的特征点;
配准点模块:匹配单独目标帧中对象的特征点,得到特征点的配准点;
本征矩阵生成模块:基于特征点和配准点,提取单独目标帧的本征矩阵;
相机参数解析模块:基于本征矩阵求解相机的内外参数;
坐标转换模块:基于相机的内外参数,将特征点和配准点的二维坐标转换为三维坐标;
单独目标帧剩余判断模块:判断是否还存在其他该对象的单独目标帧未分析,如果是,返回特征点模块,否则,执行3D模型初建模块;
3D模型初建模块:基于特征点和配准点的三维坐标生成3维点云,基于3维点云使用泊松曲面重构方法完成该对象的3D模型的几何建模;
3D模型细化模块:基于单独目标帧,细化该对象的纹理信息、颜色特征信息、形状特征信息,并将细化后的信息映射至该对象的3D模型。
可选地,3D对象细化模块或模型构建模块之后还包括:
姿态同步模块:识别2D图片集中任一图片中任一对象的姿态,调整该对象的3D模型的姿态与对象的姿态一致;
AR投影模块:将调整后的3D模型渲染到AR场景中。
进一步地,AR投影模块包括:
信息获取模块:获取真实场景信息;
仿射变换矩阵解算模块:对真实场景信息和相机位置信息进行分析,得到对象的3D模型在相机视平面投影的仿射变换矩阵;
投影模块:基于仿射变换矩阵导入对象的3D模型,通过与真实场景的视频进行合并后,一起显示在AR呈现设备或其他设备上。
需要说明的是,本发明2D图片集转3D模型的装置的实施例,与2D图片集转3D模型的方法的实施例原理相同,相关之处可以互相参照。
以上所述仅为本发明的较佳实施例而已,并不用以限定本发明的包含范围,凡在本发明技术方案的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种2D图片集转3D模型的方法,其特征在于,所述2D图片集至少包括一张图片,所述方法包括:
步骤11:通过深度学习算法识别所述2D图片集中每张图片所包含每个对象的类别以及每个对象的轮廓信息;
步骤12:通过计算机视觉算法提取所述2D图片集中每张图片中每个对象的细节特性信息,所述细节特征信息至少包括每个对象的纹理信息、颜色特征信息和形状特征信息;
步骤13:基于每个对象的类别、形状特征信息、轮廓信息匹配3D模型,匹配成功的3D模型为该对象的3D模型;
步骤14:将每个匹配成功的对象的纹理信息和颜色特征信息映射到该对象的3D模型上。
2.根据权利要求1所述的方法,其特征在于,所述步骤11之前还包括:
步骤10:提取2D视频中的关键帧作为所述2D图片集中的图片。
3.根据权利要求2所述的方法,其特征在于,所述步骤10包括:
步骤101:解码2D视频,获取所述2D视频的所有静态帧;
步骤102:聚类分析所述所有静态帧,提取每个聚类中熵最大的静态帧为该聚类的关键帧。
4.根据权利要求1所述的方法,其特征在于,所述步骤11包括:
步骤111:将所述2D图片集中的任一图片输入卷积神经网络,所述卷积神经网络输出所述任一图片的n级特征图P1…Pn,n≥2;
步骤112:通过区域建议网络定位所述P1…Pn中的目标候选区域,所述每个候选区域至少包含一个候选框;
步骤113:当任一所述候选区域包括至少两个候选框时,采用非极大值抑制算法筛选每个候选区域的候选框,保留其中前景分数最高的候选框,并舍弃其他候选框;
步骤114:对于所述P1…Pn中的每个候选框,将其分割为第一预设尺寸的池化单元,通过最大池化提取每个子单元的特征值后输出池化后的P1…Pn;
步骤115:将所述池化后的P1…Pn映射为全连接特征,在所述全连接特征上识别每个候选框的对象类别,并缩小候选框尺寸;
步骤116:通过全卷积网络识别每个所述缩小候选框区域内的对象的轮廓信息。
5.根据权利要求4所述的方法,其特征在于,所述卷积神经网络包括残差网络和特征金字塔网络,所述残差网络的3X 3的卷积采用深度可分离卷积替代。
6.根据权利要求5所述的方法,其特征在于,所述特征金字塔网络包含第一金字塔和第二金字塔,所述第一金字塔从底层至顶层的输出依次输入所述第二金字塔的顶层至底层。
7.根据权利要求1所述的方法,其特征在于,其特征在于,所述细节特征信息还包括:所述2D图片是否为对象的单独目标帧。
8.根据权利要求1所述的方法,其特征在于,其特征在于,所述步骤12包括:
步骤121:通过超像素和/或阈值分割方法定位所述2D图片集中任一图片中的对象;如果所述任一图片只包含一个对象,则所述任一图片为所述对象的单独目标帧;
步骤122:基于每个对象在所述任一图片中的定位信息,利用Tamura纹理特征算法和小波变换提取每个对象的纹理,利用颜色直方图匹配提取每个对象的颜色特征信息,利用几何参数法提取每个对象的形状特征信息。
9.根据权利要求7所述的方法,其特征在于,其特征在于,所述步骤13还包括:如果匹配失败,则执行步骤131;
步骤131:基于匹配失败的对象的单独目标帧,构建该对象的3D模型。
10.根据权利要求9所述的方法,其特征在于,所述步骤131包括:
步骤131-1:提取所述单独目标帧中对象的特征点;
步骤131-2:匹配所述单独目标帧中所述对象的特征点,得到所述特征点的配准点;
步骤131-3:基于所述特征点和配准点,提取所述单独目标帧的本征矩阵;
步骤131-4:基于所述本征矩阵求解相机的内外参数;
步骤131-5:基于所述相机的内外参数,将所述特征点和配准点的二维坐标转换为三维坐标;
步骤131-6:判断是否还存在其他所述对象的单独目标帧未分析,如果是,返回步骤131-1,否则,执行步骤131-7;
步骤131-7:基于所述特征点和配准点的三维坐标生成3维点云,基于所述3维点云使用泊松曲面重构方法完成所述对象的3D模型的几何建模;
步骤131-8:基于所述单独目标帧,细化所述对象的纹理信息、颜色特征信息、形状特征信息,并将细化后的信息映射至所述对象的3D模型。
11.根据权利要求9所述的方法,其特征在于,所述步骤14或步骤131之后还包括:
步骤15:识别所述2D图片集中任一图片中任一对象的姿态,调整该对象的3D模型的姿态与所述对象的姿态一致;
步骤16:将调整后的所述3D模型渲染到AR场景中。
12.根据权利要求11所述的方法,其特征在于,所述步骤16包括:
步骤161:获取真实场景信息;
步骤162:对所述真实场景信息和相机位置信息进行分析,得到所述对象的3D模型在相机视平面投影的仿射变换矩阵;
步骤163:基于所述仿射变换矩阵导入所述对象的3D模型,通过与真实场景的视频进行合并后,一起显示在AR呈现设备或其他设备上。
13.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至12中任一所述的2D图片集转3D模型的方法中的步骤。
14.一种2D图片集转3D模型的装置,其特征在于,包括处理器和如权利要求13所述的非瞬时计算机可读存储介质。
CN201810884174.7A 2018-08-06 2018-08-06 2d图片集转3d模型的方法、存储介质和装置 Active CN109191369B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810884174.7A CN109191369B (zh) 2018-08-06 2018-08-06 2d图片集转3d模型的方法、存储介质和装置
US17/257,665 US11755956B2 (en) 2018-08-06 2019-05-20 Method, storage medium and apparatus for converting 2D picture set to 3D model
PCT/KR2019/006025 WO2020032354A1 (en) 2018-08-06 2019-05-20 Method, storage medium and apparatus for converting 2d picture set to 3d model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810884174.7A CN109191369B (zh) 2018-08-06 2018-08-06 2d图片集转3d模型的方法、存储介质和装置

Publications (2)

Publication Number Publication Date
CN109191369A true CN109191369A (zh) 2019-01-11
CN109191369B CN109191369B (zh) 2023-05-05

Family

ID=64920193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810884174.7A Active CN109191369B (zh) 2018-08-06 2018-08-06 2d图片集转3d模型的方法、存储介质和装置

Country Status (3)

Country Link
US (1) US11755956B2 (zh)
CN (1) CN109191369B (zh)
WO (1) WO2020032354A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671317A (zh) * 2019-01-30 2019-04-23 重庆康普达科技有限公司 基于ar的脸谱互动教学方法
CN109996056A (zh) * 2019-05-08 2019-07-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110113595A (zh) * 2019-05-08 2019-08-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110222626A (zh) * 2019-06-03 2019-09-10 宁波智能装备研究院有限公司 一种基于深度学习算法的无人驾驶场景点云目标标注方法
CN110443172A (zh) * 2019-07-25 2019-11-12 北京科技大学 一种基于超分辨率和模型压缩的目标检测方法及系统
CN110516535A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于深度学习的老鼠活跃度检测方法和系统、及卫生评估方法
CN110996087A (zh) * 2019-12-10 2020-04-10 腾讯科技(深圳)有限公司 视频显示方法、装置
CN111028331A (zh) * 2019-11-20 2020-04-17 天津市测绘院 一种高性能的车辆动态三维建模与轨迹实时渲染方法及装置
CN111724216A (zh) * 2019-03-18 2020-09-29 天津五八到家科技有限公司 车辆选择方法、终端设备及存储介质
CN111832492A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 静态交通异常的判别方法、装置、计算机设备及存储介质
CN111935528A (zh) * 2020-06-22 2020-11-13 北京百度网讯科技有限公司 视频生成方法和装置
WO2020233269A1 (zh) * 2019-05-21 2020-11-26 智慧芽信息科技(苏州)有限公司 由2d图像重建3d模型的方法、装置、设备及存储介质
CN112801044A (zh) * 2021-03-11 2021-05-14 重庆紫光华山智安科技有限公司 视频图像处理方法、装置、视频客户端及解析平台
CN113838210A (zh) * 2021-09-10 2021-12-24 西北工业大学 一种将超声图像转换为3d模型的方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220224872A1 (en) * 2019-05-29 2022-07-14 Nippon Telegraph And Telephone Corporation Video generation apparatus, method and program
US11854248B2 (en) * 2020-03-19 2023-12-26 Boe Technology Group Co., Ltd. Image classification method, apparatus and training method, apparatus thereof, device and medium
CN111523403B (zh) * 2020-04-03 2023-10-20 咪咕文化科技有限公司 图片中目标区域的获取方法及装置、计算机可读存储介质
TWI748426B (zh) * 2020-04-27 2021-12-01 國立成功大學 單視角影像深度圖序列生成方法、系統與電腦程式產品
WO2022172053A1 (en) * 2021-02-10 2022-08-18 Chain Technology Development Co., Ltd. Automatic low level-of-detail (lod) model generation based on geoinformation
US11829450B2 (en) * 2021-03-26 2023-11-28 Siemens Healthineers International Ag Dual domain tracking of target structures
CN114633850B (zh) * 2022-03-10 2023-03-24 上海交通大学 一种船舶结构有限元模型虚拟可视化重构方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106652025A (zh) * 2016-12-20 2017-05-10 五邑大学 一种基于视频流与人脸多属性匹配的三维人脸建模方法和打印装置
CN107484428A (zh) * 2015-03-25 2017-12-15 “实验室24”股份有限公司 用于显示对象的方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6466205B2 (en) * 1998-11-19 2002-10-15 Push Entertainment, Inc. System and method for creating 3D models from 2D sequential image data
EP2560107A4 (en) 2011-05-11 2013-05-29 Huawei Device Co Ltd METHOD AND SYSTEM FOR APPLYING AMPLIFIED REALITY
US9171384B2 (en) 2011-11-08 2015-10-27 Qualcomm Incorporated Hands-free augmented reality for wireless communication devices
CN103197980B (zh) 2012-01-10 2016-03-30 华为终端有限公司 一种呈现增强现实技术内容的方法、装置及系统
KR101984915B1 (ko) 2012-12-03 2019-09-03 삼성전자주식회사 증강 현실 컨텐츠 운용 방법 및 이를 지원하는 단말기와 시스템
US9424598B1 (en) * 2013-12-02 2016-08-23 A9.Com, Inc. Visual search in a controlled shopping environment
CN105893377A (zh) 2014-11-30 2016-08-24 黄石木信息科技有限公司 一种增强现实系统及其方法
US20160379410A1 (en) 2015-06-25 2016-12-29 Stmicroelectronics International N.V. Enhanced augmented reality multimedia system
US9609307B1 (en) * 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
CN105338117B (zh) 2015-11-27 2018-05-29 亮风台(上海)信息科技有限公司 用于生成ar应用和呈现ar实例的方法、设备与系统
CN105608745B (zh) 2015-12-21 2019-01-29 大连新锐天地文化科技有限公司 应用于图像或视频的ar显示系统
CN106227481A (zh) 2016-07-22 2016-12-14 北京奇虎科技有限公司 阅读文章时显示ar影像的方法和终端
CN106445154A (zh) 2016-09-29 2017-02-22 宇龙计算机通信科技(深圳)有限公司 一种提供ar内容的方法、装置、ar设备及服务器
GB201617507D0 (en) * 2016-10-14 2016-11-30 Axial3D Limited Axial3D UK
CN106851421A (zh) 2016-12-15 2017-06-13 天津知音网络科技有限公司 一种应用于视频ar的显示系统
CN106792160A (zh) 2016-12-23 2017-05-31 深圳Tcl数字技术有限公司 视频播放数据调整方法和系统
US11210854B2 (en) 2016-12-30 2021-12-28 Facebook, Inc. Systems and methods for providing augmented reality personalized content
WO2018126270A1 (en) 2017-01-02 2018-07-05 Novumind, Inc. Unsupervised learning of object recognition methods and systems
EP3566193A4 (en) * 2017-01-04 2020-08-26 Aquifi, Inc. SYSTEMS AND METHODS FOR SHAPE-BASED OBJECT RECOVERY
CN107221346B (zh) 2017-05-25 2019-09-03 亮风台(上海)信息科技有限公司 一种用于确定ar视频的识别图片的方法与设备
CN107481284A (zh) * 2017-08-25 2017-12-15 京东方科技集团股份有限公司 目标物跟踪轨迹精度测量的方法、装置、终端及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484428A (zh) * 2015-03-25 2017-12-15 “实验室24”股份有限公司 用于显示对象的方法
CN106652025A (zh) * 2016-12-20 2017-05-10 五邑大学 一种基于视频流与人脸多属性匹配的三维人脸建模方法和打印装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671317A (zh) * 2019-01-30 2019-04-23 重庆康普达科技有限公司 基于ar的脸谱互动教学方法
CN111724216A (zh) * 2019-03-18 2020-09-29 天津五八到家科技有限公司 车辆选择方法、终端设备及存储介质
CN111724216B (zh) * 2019-03-18 2023-09-08 天津五八到家科技有限公司 车辆选择方法、终端设备及存储介质
CN109996056B (zh) * 2019-05-08 2021-03-26 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110113595A (zh) * 2019-05-08 2019-08-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN109996056A (zh) * 2019-05-08 2019-07-09 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
CN110113595B (zh) * 2019-05-08 2021-04-30 北京奇艺世纪科技有限公司 一种2d视频转3d视频的方法、装置及电子设备
WO2020233269A1 (zh) * 2019-05-21 2020-11-26 智慧芽信息科技(苏州)有限公司 由2d图像重建3d模型的方法、装置、设备及存储介质
CN110222626A (zh) * 2019-06-03 2019-09-10 宁波智能装备研究院有限公司 一种基于深度学习算法的无人驾驶场景点云目标标注方法
CN110222626B (zh) * 2019-06-03 2021-05-28 宁波智能装备研究院有限公司 一种基于深度学习算法的无人驾驶场景点云目标标注方法
CN110516535A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于深度学习的老鼠活跃度检测方法和系统、及卫生评估方法
CN110443172A (zh) * 2019-07-25 2019-11-12 北京科技大学 一种基于超分辨率和模型压缩的目标检测方法及系统
CN111028331A (zh) * 2019-11-20 2020-04-17 天津市测绘院 一种高性能的车辆动态三维建模与轨迹实时渲染方法及装置
CN111028331B (zh) * 2019-11-20 2023-08-25 天津市测绘院有限公司 一种高性能的车辆动态三维建模与轨迹实时渲染方法及装置
CN110996087A (zh) * 2019-12-10 2020-04-10 腾讯科技(深圳)有限公司 视频显示方法、装置
CN110996087B (zh) * 2019-12-10 2021-04-02 腾讯科技(深圳)有限公司 视频显示方法、装置
CN111935528A (zh) * 2020-06-22 2020-11-13 北京百度网讯科技有限公司 视频生成方法和装置
CN111832492A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 静态交通异常的判别方法、装置、计算机设备及存储介质
CN112801044A (zh) * 2021-03-11 2021-05-14 重庆紫光华山智安科技有限公司 视频图像处理方法、装置、视频客户端及解析平台
CN113838210A (zh) * 2021-09-10 2021-12-24 西北工业大学 一种将超声图像转换为3d模型的方法及装置

Also Published As

Publication number Publication date
CN109191369B (zh) 2023-05-05
US20210279971A1 (en) 2021-09-09
WO2020032354A1 (en) 2020-02-13
US11755956B2 (en) 2023-09-12

Similar Documents

Publication Publication Date Title
CN109191369A (zh) 2d图片集转3d模型的方法、存储介质和装置
CN110515452B (zh) 图像处理方法、装置、存储介质和计算机设备
CN107945282B (zh) 基于对抗网络的快速多视角三维合成和展示方法及装置
CN110458939B (zh) 基于视角生成的室内场景建模方法
Varol et al. Learning from synthetic humans
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN107204010B (zh) 一种单目图像深度估计方法与系统
CN111243093B (zh) 三维人脸网格的生成方法、装置、设备及存储介质
Salas-Moreno et al. Slam++: Simultaneous localisation and mapping at the level of objects
CN111696028A (zh) 真实场景图像卡通化的处理方法、装置、计算机设备和存储介质
CN110544301A (zh) 一种三维人体动作重建系统、方法和动作训练系统
WO2019157344A1 (en) Real-time gesture recognition method and apparatus
CN116664782B (zh) 一种基于融合体素的神经辐射场三维重建方法
CN115131849A (zh) 图像生成方法以及相关设备
Esfahani et al. Image generation with gans-based techniques: A survey
Li et al. Complete video-level representations for action recognition
Khan et al. A review of benchmark datasets and training loss functions in neural depth estimation
US20210065430A1 (en) 3d representation reconstruction from images using volumic probability data
CN115151944A (zh) 从单目相机的全骨骼3d姿态恢复
Tran et al. Significant trajectories and locality constrained linear coding for hand gesture representation
CN116958451B (zh) 模型处理、图像生成方法、装置、计算机设备和存储介质
CN116704097B (zh) 基于人体姿态一致性和纹理映射的数字化人形象设计方法
Kviatkovsky et al. From real to synthetic and back: Synthesizing training data for multi-person scene understanding
Munir et al. 3D Single Image Face Reconstruction Approaches With Deep Neural Networks
Zhuravlev Study of a Method for Effective Noise Suppression in Passive Personnel Screening Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant