CN110335344A - 基于2d-3d注意机制神经网络模型的三维重建方法 - Google Patents
基于2d-3d注意机制神经网络模型的三维重建方法 Download PDFInfo
- Publication number
- CN110335344A CN110335344A CN201910534985.9A CN201910534985A CN110335344A CN 110335344 A CN110335344 A CN 110335344A CN 201910534985 A CN201910534985 A CN 201910534985A CN 110335344 A CN110335344 A CN 110335344A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- attention mechanism
- dimensional
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000007246 mechanism Effects 0.000 title claims abstract description 43
- 238000003062 neural network model Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 62
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 10
- 230000007787 long-term memory Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 239000007787 solid Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉及三维重建技术领域,具体涉及了一种基于2D‑3D注意机制神经网络模型的三维重建方法,旨在解决现有技术无法兼顾三维重建精度及模型泛化能力的问题。本发明方法包括:基于自编码器2D‑3D注意机制神经网络构建三维重建模型并初始化;采用训练数据集训练并获取三维重建模型的训练损失值;采用误差反向传播的方法更新模型参数;重复进行损失计算以及模型参数更新直至训练损失值低于设定阈值或达到设定训练次数;采用训练好的三维重建模型基于输入数据进行三维重建。本发明将注意力机制引入自编码网络中,实现了对目标物体高质量的三维重建,并采用不在训练集中的数据进行测试,模型有更强的泛化能力。
Description
技术领域
本发明属于计算机视觉及三维重建技术领域,具体涉及了一种基于2D-3D注意机制神经网络模型的三维重建方法。
背景技术
近年来机器人领域飞速发展,在机器人计算机视觉领域中物体的三维重建一直是最基本的问题,得到了广泛的关注。在机器人抓取、机器人导航、增强现实、机器人语义理解等场景中二维图像已经不能满足足够的要求,人们越来越希望从三维角度解决问题,因此物体的三维重建承担着重要的任务,解决该问题成为计算机视觉领域的重中之重。随着人工智能深度学习的迅速发展和广泛传播,多种计算机视觉问题得到了极大的改善,基于深度学习的三维重建问题也成为了研究者们关注的焦点,如何用深度学习准确的将物体的形状,外貌完整的呈现出来成为当前三维重建技术的重要研究方向。
三维重建主要研究任务在于获取图像的形状和外貌,目前可以分为以下两类。一是基于SFM的方法,也就是从运动恢复结构,这种方式首先对图像进行特征点检测与匹配,接下来根据特征点来构造外极几何图,接下来进行摄像机位姿和场景结构设计,可以使用增量式、全局式、混合式三种方法。为了消除重建误差,在初始结果的基础上捆绑调整,进一步优化摄像机位姿和场景,最后对重建的点云进行处理。这种方法对图像有很高的要求,比如需要图像有足够的纹理,亮度,图像之间基线足够的小,否则会导致特征点匹配失败。除此之外,此方法需要图像个数在几十甚至更多。在重建过程中还存在退化和不鲁棒的情况,需要其他方法进行弥补。二是深度学习方法,目前,深度学习的三维重建方法主要分为两类:一类采用生成式对抗网络(GAN),另一类采用自编码器网络。生成式对抗网络完成的三维重建一般由生成器将提取的低维度特征映射成物体的三维模型,判别器网络一般与生成器网络对称,用来区分预测的三维模型是真的还是假的,通过不断训练,得到高质量的三维模型。自编码器网络中,编码器主要完成提取图像的低维度特征,解码器将低维度特征映射成物体的三维形状。其中,基于生成式对抗网络的方法速度较快,计算复杂度较小,并且解码器的作用可以看成整个网络是无监督学习。但是也存在训练过程中达到稳定较难、三维重建精度较低的缺点。基于自编码器网络的方法相比于生成对抗方法,其获得的三维模型精度较高,但往往计算复杂度较大,泛化能力弱。
总的来说,现有的方法无法兼顾三维重建精度及泛化能力,重建的三维模型精度达不到预期,网络的泛化能力也无法达到应用的需求。
发明内容
为了解决现有技术中的上述问题,即现有技术无法兼顾三维重建精度及模型泛化能力的问题,本发明提供了一种基于2D-3D注意机制神经网络模型的三维重建方法,该三维重建方法包括:
步骤S10,获取物体不同视角的二维图像集作为输入图像集;
步骤S20,基于所述输入图像集,通过训练好的三维重建模型,获取物体三维模型;
其中,所述三维重建模型基于自编码器2D-3D注意机制神经网络构建,其训练方法为:
步骤B10,初始化所述三维重建模型的参数;
步骤B20,将输入的训练图像在初始化后的三维重建模型中进行前馈传导并计算输入的训练图像投影的训练损失值;
步骤B30,采用误差反向传播的方法,获取所述三维重建模型中各层参数的变化值并进行相应层的参数更新;
步骤B40,重复执行步骤B20、步骤B30直至所述训练损失值低于预设阈值或训练次数达到预设值,获得训练好的三维重建模型。
在一些优选的实施例中,所述三维重建模型包括:特征提取网络、三维模型生成解码网络、注意机制网络。
在一些优选的实施例中,所述特征提取网络为残差网络。
在一些优选的实施例中,所述三维模型生成解码网络为卷积循环神经网络。
在一些优选的实施例中,所述注意机制网络为长短期记忆网络。
在一些优选的实施例中,步骤B20中“计算输入的训练图像投影的训练损失值”,其方法为:
步骤B21,将输入的训练图像在初始化后的三维重建模型中进行前馈传导,并利用max函数求出三维模型投影,将投影与输入的训练图像真实值比较,获得训练误差;
步骤B22,基于所述训练误差、当前三维重建模型的参数值以及所述输入的训练图像,获取输入训练图像投影的训练损失值。
在一些优选的实施例中,所述三维重建模型训练完成后还设置有模型测试评估的步骤,其方法为:
步骤C10,基于输入的测试图像,采用训练好的三维重建模型获取三维重建立体测试模型;
步骤C20,将所述三维重建立体测试模型与测试图像的真实值对比计算IoU评估值,并获取同一种类的物体的loss值、IoU值的平均值与方差;
步骤C30,判断所述IoU评估值、同一种类的物体的loss值、IoU值的平均值与方差是否符合设定条件,如果是则模型训练达到要求。
本发明的另一方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于2D-3D注意机制神经网络模型的三维重建方法。
本发明的第三方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于2D-3D注意机制神经网络模型的三维重建方法。
本发明的有益效果:
本发明基于2D-3D注意机制神经网络模型的三维重建方法,针对三维重建精度较低,泛化能力较弱等问题,将注意力机制引入自编码器网络中,实现了对目标物体高质量的三维重建。相比于生成对抗式网络等方法,本发明提出的方法在三维重建问题上精度更高,并采用不在训练集中的数据进行测试,模型有更强的泛化能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于2D-3D注意机制神经网络模型的三维重建方法的流程示意图;
图2是本发明基于2D-3D注意机制神经网络模型的三维重建方法一种实施例的网络模型loss值与IoU值折线趋势图;
图3是本发明基于2D-3D注意机制神经网络模型的三维重建方法一种实施例的本发明方法与3DR2N2模型、PTN模型重建结果对比图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种基于2D-3D注意机制神经网络模型的三维重建方法,该三维重建方法包括:
步骤S10,获取物体不同视角的二维图像集作为输入图像集;
步骤S20,基于所述输入图像集,通过训练好的三维重建模型,获取物体三维模型;
其中,所述三维重建模型基于自编码器2D-3D注意机制神经网络构建,其训练方法为:
步骤B10,初始化所述三维重建模型的参数;
步骤B20,将输入的训练图像在初始化后的三维重建模型中进行前馈传导并计算输入的训练图像投影的训练损失值;
步骤B30,采用误差反向传播的方法,获取所述三维重建模型中各层参数的变化值并进行相应层的参数更新;
步骤B40,重复执行步骤B20、步骤B30直至所述训练损失值低于预设阈值或训练次数达到预设值,获得训练好的三维重建模型。
为了更清晰地对本发明基于2D-3D注意机制神经网络模型的三维重建方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于2D-3D注意机制神经网络模型的三维重建方法,包括步骤S10-步骤S20,各步骤详细描述如下:
步骤S10,获取物体不同视角的二维图像集作为输入图像集。
物体不同视角的二维图像为不同拍摄视点下获得的物体二维图像,包含了物体各个角度的特征。
步骤S20,基于所述输入图像集,通过训练好的三维重建模型,获取物体三维模型。
三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理、操作和分析其性质的基础,也是在计算机中建立表达客观世界的虚拟现实的关键技术。
在计算机视觉中,三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视频的信息不完全,因此三维重建需要利用经验知识,而多视图的三维重建(类似人的双目定位)相对比较容易,其方法是先对摄像机进行标定,即计算出摄像机的图像坐标系与世界坐标系的关系,然后利用多个二维图像中的信息重建出三维信息。
其中,所述三维重建模型基于自编码器2D-3D注意机制神经网络构建,其训练方法为:
三维重建模型包括:特征提取网络、三维模型生成解码网络、注意机制网络。
特征提取网络主要负责对原始数据进行特征提取,输入图像分辨率为64×64,本发明实施例中采用残差网络得到低维度的丰富特征,接下来使用卷积长短期记忆网络可以使特征同时具备空间上与时间上的联系,使用5×5的卷积核得到32×32×64的特征图,最后采用多层卷积控制隐式向量的维度,分别使用3×3,4×4,5×5卷积核,最终得到一串1×1×512的隐式向量。该隐式向量将作为解码部分以及长短期记忆网络的输入。
三维模型生成解码网络为了得到三维模型,全部采用三维卷积核,采取与图像编码部分对称的形式,首先采用卷积长短期记忆网络得到3×3×3,512个通道的特征图,接下来同样采取三层卷积,卷积核大小分别为4×4×4,5×5×5,6×6×6,最终得到32×32×32,1通道的三维模型。卷积与卷积长短期记忆网络有效的结合,可以使得三维模型的精度得到保证。
注意机制网络部分旨在输入原始数据与编码部分得到的隐式向量,使得长短期记忆网络不断更新,最后可以输出图像的角度。将该角度对应的图像再次输入到网络中,促进三维重建更快的完成,最终使用尽可能少的图像达到高精度的三维重建结果。在该网络中,输入图像与隐式向量合并输入到长短期记忆网络中,长短期记忆网络不断的更新隐藏层,再经过全链接层得到下一帧需要输入的图像,并再次输入到图像编码网络中实现循环。
步骤B10,初始化所述三维重建模型的参数。
本发明一个实施例中,将一次性送入模型的训练数据批量设为16,初始学习率设为0.0001,优化器参数为β1=0.9,β2=0.99,权重衰减正则项设为0.0005,最大训练步数设为60000步。
步骤B20,将输入的训练图像在初始化后的三维重建模型中进行前馈传导并计算输入的训练图像投影的训练损失值。
本发明一个实施例中,使用shapeNet数据集,该数据集包含55种物体,每种物体从24个方位角进行拍摄得到RGB图像,共有51300个3D模型,模型大小为32×32×32。在本发明实施例中,将图像大小裁剪成64×64×3。
“计算输入的训练图像投影的训练损失值”,其方法为:
步骤B21,将输入的训练图像在初始化后的三维重建模型中进行前馈传导,并利用max函数求出三维模型投影,将投影与输入的训练图像真实值比较,获得训练误差;
步骤B22,基于所述训练误差、当前三维重建模型的参数值以及所述输入的训练图像,获取输入训练图像投影的训练损失值。
步骤B30,采用误差反向传播的方法,获取所述三维重建模型中各层参数的变化值并进行相应层的参数更新。
步骤B40,重复执行步骤B20、步骤B30直至所述训练损失值低于预设阈值或训练次数达到预设值,获得训练好的三维重建模型。
三维重建模型训练完成后还设置有模型测试评估的步骤,其方法为:
步骤C10,基于输入的测试图像,采用训练好的三维重建模型获取三维重建立体测试模型;
步骤C20,将所述三维重建立体测试模型与测试图像的真实值对比计算IoU评估值,并获取同一种类的物体的loss值、IoU值的平均值与方差;
步骤C30,判断所述IoU评估值、同一种类的物体的loss值、IoU值的平均值与方差是否符合设定条件,如果是则模型训练达到要求。
设定判断条件为:IoU值及其平均值、方差大于预设阈值,同时loss值及其平均值、方差小于设定阈值。
本发明一个实施例中,对三维重建模型进行测试评估,选取13种物体的312张64×64×3的图像作为测试数据,评估加入注意力辅助部分与仅有自编码器网络部分的重建效果,结果如表1所示:
表1
其中,views行代表输入图像数量,2D-3D代表仅有图像编码、解码,未加入注意机制的三维重建结果,2D-3D-Attention代表加入注意机制(即长短期记忆网络)的三维重建结果,loss代表获取的损失值,IoU代表获取的IoU值。如图2所示,为本发明基于2D-3D注意机制神经网络模型的三维重建方法一种实施例的网络模型loss值与IoU值折线趋势图,横坐标为输入的图像数量,纵坐标分别代表loss值、IoU值,方点折线代表仅有图像编码、解码,未加入注意机制的2D-3D三维重建loss值、IoU值走向趋势,圆点折线代表加入注意机制的2D-3D-Attention三维重建loss值、IoU值走向趋势。从表1和图2均可以看出本发明2D-3D-Attention模型优于普通2D-3D模型,在输入相同图像个数情况下,2D-3D-Attention模型的损失值要远小于2D-3D模型,得到的三维重建模型的IoU值明显提高。另外不论是2D-3D-Attention模型还是2D-3D模型,随着输入图像个数的增多,性能都逐渐增强。
对于13个物体种类的测试数据集,采用3D-R2N2方法、PTN、本发明方法,获得的三维重建IoU结果如表2所示:
表2
3D-R2N2(IoU) | PTN(IoU) | Ours(IoU) | |
Plane | 0.513 | 0.533 | 0.602 |
Bench | 0.412 | 0.482 | 0.508 |
Cabinet | 0.716 | 0.711 | 0.757 |
Car | 0.798 | 0.712 | 0.788 |
Chair | 0.466 | 0.458 | 0.468 |
Monitor | 0.468 | 0.535 | 0.566 |
Lamp | 0.381 | 0.354 | 0.398 |
Speaker | 0.662 | 0.586 | 0.700 |
Firearm | 0.544 | 0.582 | 0.598 |
Couch | 0.628 | 0.643 | 0.698 |
Table | 0.513 | 0.471 | 0.624 |
Cellphone | 0.661 | 0.728 | 0.758 |
Watercraft | 0.513 | 0.536 | 0.532 |
其中,第一列分别代表13个物体类别的测试数据集,第二列分别为采用3D-R2N2方法进行三维重建的IoU值,第三列为采用PTN方法进行三维重建的IoU值,第四列为采用本发明方法进行三维重建的IoU值。从表中数据可以看出,本发明方法在大多数种类下得到的IOU值都为最高,在汽车(Car)与船(Watercraft)这两个种类中,实验结果与其他模型相当。如图3所示,为本发明基于2D-3D注意机制神经网络模型的三维重建方法一种实施例的本发明方法与3DR2N2模型、PTN模型重建结果对比图,综合以上结果来看,本发明方法整体性能与3D-R2N2方法、PTN方法相比具有较高的优越性,可以看出本发明使用的注意力机制有助于实现物体的三维重建。
本发明第二实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于2D-3D注意机制神经网络模型的三维重建方法。
本发明第三实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于2D-3D注意机制神经网络模型的三维重建方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种基于2D-3D注意机制神经网络模型的三维重建方法,其特征在于,该三维重建方法包括:
步骤S10,获取物体不同视角的二维图像集作为输入图像集;
步骤S20,基于所述输入图像集,通过训练好的三维重建模型,获取物体三维模型;
其中,所述三维重建模型基于自编码器2D-3D注意机制神经网络构建,其训练方法为:
步骤B10,初始化所述三维重建模型的参数;
步骤B20,将输入的训练图像在初始化后的三维重建模型中进行前馈传导并计算输入的训练图像投影的训练损失值;
步骤B30,采用误差反向传播的方法,获取所述三维重建模型中各层参数的变化值并进行相应层的参数更新;
步骤B40,重复执行步骤B20、步骤B30直至所述训练损失值低于预设阈值或训练次数达到预设值,获得训练好的三维重建模型。
2.根据权利要求1所述的基于2D-3D注意机制神经网络模型的三维重建方法,其特征在于,所述三维重建模型包括:特征提取网络、三维模型生成解码网络、注意机制网络。
3.根据权利要求2所述的基于2D-3D注意机制神经网络模型的三维重建方法,其特征在于,所述特征提取网络为残差网络。
4.根据权利要求2所述的基于2D-3D注意机制神经网络模型的三维重建方法,其特征在于,所述三维模型生成解码网络为卷积循环神经网络。
5.根据权利要求2所述的基于2D-3D注意机制神经网络模型的三维重建方法,其特征在于,所述注意机制网络为长短期记忆网络。
6.根据权利要求1所述的基于2D-3D注意机制神经网络模型的三维重建方法,其特征在于,步骤B20中“计算输入的训练图像投影的训练损失值”,其方法为:
步骤B21,将输入的训练图像在初始化后的三维重建模型中进行前馈传导,并利用max函数求出三维模型投影,将投影与输入的训练图像真实值比较,获得训练误差;
步骤B22,基于所述训练误差、当前三维重建模型的参数值以及所述输入的训练图像,获取输入训练图像投影的训练损失值。
7.根据权利要求1-6任一项所述的基于2D-3D注意机制神经网络模型的三维重建方法,其特征在于,所述三维重建模型训练完成后还设置有模型测试评估的步骤,其方法为:
步骤C10,基于输入的测试图像,采用训练好的三维重建模型获取三维重建立体测试模型;
步骤C20,将所述三维重建立体测试模型与测试图像的真实值对比计算IoU评估值,并获取同一种类的物体的loss值、IoU值的平均值与方差;
步骤C30,判断所述IoU评估值、同一种类的物体的loss值、IoU值的平均值与方差是否符合设定条件,如果是则模型训练达到要求。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于2D-3D注意机制神经网络模型的三维重建方法。
9.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-7任一项所述的基于2D-3D注意机制神经网络模型的三维重建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534985.9A CN110335344A (zh) | 2019-06-20 | 2019-06-20 | 基于2d-3d注意机制神经网络模型的三维重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910534985.9A CN110335344A (zh) | 2019-06-20 | 2019-06-20 | 基于2d-3d注意机制神经网络模型的三维重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110335344A true CN110335344A (zh) | 2019-10-15 |
Family
ID=68142257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910534985.9A Pending CN110335344A (zh) | 2019-06-20 | 2019-06-20 | 基于2d-3d注意机制神经网络模型的三维重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335344A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258625A (zh) * | 2020-09-18 | 2021-01-22 | 山东师范大学 | 基于注意力机制的单幅图像到三维点云模型重建方法及系统 |
CN112489197A (zh) * | 2020-11-30 | 2021-03-12 | 江苏科技大学 | 一种基于对抗训练先验学习的单视图三维重建系统及其方法 |
CN113156957A (zh) * | 2021-04-27 | 2021-07-23 | 东莞理工学院 | 基于对抗生成网络的自主移动机器人自监督学习及导航方法 |
CN114519781A (zh) * | 2020-11-18 | 2022-05-20 | 四川大学 | 一种基于循环神经网络的岩心图像三维重建方法 |
CN114663410A (zh) * | 2022-03-31 | 2022-06-24 | 清华大学 | 一种心脏三维模型生成方法、装置、设备及存储介质 |
TWI779696B (zh) * | 2020-10-14 | 2022-10-01 | 台達電子工業股份有限公司 | 視角影像的生成系統與生成方法 |
CN116030200A (zh) * | 2023-03-27 | 2023-04-28 | 武汉零点视觉数字科技有限公司 | 一种基于视觉融合的场景重构方法与装置 |
CN117132638A (zh) * | 2023-08-24 | 2023-11-28 | 北京海韵晨耕文化传播有限公司 | 一种基于图像扫描的容积数据采集方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
US20170319123A1 (en) * | 2016-05-06 | 2017-11-09 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Using Mobile and Wearable Video Capture and Feedback Plat-Forms for Therapy of Mental Disorders |
CN109086869A (zh) * | 2018-07-16 | 2018-12-25 | 北京理工大学 | 一种基于注意力机制的人体动作预测方法 |
CN109191564A (zh) * | 2018-07-27 | 2019-01-11 | 中国科学院自动化研究所 | 基于深度学习的激发荧光断层成像三维重建方法 |
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
US10204299B2 (en) * | 2015-11-04 | 2019-02-12 | Nec Corporation | Unsupervised matching in fine-grained datasets for single-view object reconstruction |
CN109389671A (zh) * | 2018-09-25 | 2019-02-26 | 南京大学 | 一种基于多阶段神经网络的单图像三维重建方法 |
CN109712228A (zh) * | 2018-11-19 | 2019-05-03 | 中国科学院深圳先进技术研究院 | 建立三维重建模型的方法、装置、电子设备及存储介质 |
CN109902601A (zh) * | 2019-02-14 | 2019-06-18 | 武汉大学 | 一种结合卷积网络和递归网络的视频目标检测方法 |
-
2019
- 2019-06-20 CN CN201910534985.9A patent/CN110335344A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10204299B2 (en) * | 2015-11-04 | 2019-02-12 | Nec Corporation | Unsupervised matching in fine-grained datasets for single-view object reconstruction |
US20170319123A1 (en) * | 2016-05-06 | 2017-11-09 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Using Mobile and Wearable Video Capture and Feedback Plat-Forms for Therapy of Mental Disorders |
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN109086869A (zh) * | 2018-07-16 | 2018-12-25 | 北京理工大学 | 一种基于注意力机制的人体动作预测方法 |
CN109191564A (zh) * | 2018-07-27 | 2019-01-11 | 中国科学院自动化研究所 | 基于深度学习的激发荧光断层成像三维重建方法 |
CN109299733A (zh) * | 2018-09-12 | 2019-02-01 | 江南大学 | 利用紧凑型深度卷积神经网络进行图像识别的方法 |
CN109389671A (zh) * | 2018-09-25 | 2019-02-26 | 南京大学 | 一种基于多阶段神经网络的单图像三维重建方法 |
CN109712228A (zh) * | 2018-11-19 | 2019-05-03 | 中国科学院深圳先进技术研究院 | 建立三维重建模型的方法、装置、电子设备及存储介质 |
CN109902601A (zh) * | 2019-02-14 | 2019-06-18 | 武汉大学 | 一种结合卷积网络和递归网络的视频目标检测方法 |
Non-Patent Citations (4)
Title |
---|
CHRISTOPHER B. CHOY ET AL.: "3D-R2N2: A Uni ed Approach for Single and Multi-view 3D Object Reconstruction", 《ARXIV》 * |
XIN YANG ET AL.: "Active Object Reconstruction Using a Guided View Planner", 《ARXIV》 * |
XINCHEN YAN ET AL.: "Perspective transformer nets: learning single-view 3D object reconstruction without 3D supervision", 《NIPS"16: PROCEEDINGS OF THE 30TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 * |
高奔: "基于时间门控循环网络的用户行为序列建模", 《万方数据库》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258625A (zh) * | 2020-09-18 | 2021-01-22 | 山东师范大学 | 基于注意力机制的单幅图像到三维点云模型重建方法及系统 |
CN112258625B (zh) * | 2020-09-18 | 2023-05-05 | 山东师范大学 | 基于注意力机制的单幅图像到三维点云模型重建方法及系统 |
TWI779696B (zh) * | 2020-10-14 | 2022-10-01 | 台達電子工業股份有限公司 | 視角影像的生成系統與生成方法 |
CN114519781A (zh) * | 2020-11-18 | 2022-05-20 | 四川大学 | 一种基于循环神经网络的岩心图像三维重建方法 |
CN114519781B (zh) * | 2020-11-18 | 2023-05-02 | 四川大学 | 一种基于循环神经网络的岩心图像三维重建方法 |
CN112489197A (zh) * | 2020-11-30 | 2021-03-12 | 江苏科技大学 | 一种基于对抗训练先验学习的单视图三维重建系统及其方法 |
CN112489197B (zh) * | 2020-11-30 | 2024-06-21 | 江苏科技大学 | 一种基于对抗训练先验学习的单视图三维重建系统及其方法 |
CN113156957A (zh) * | 2021-04-27 | 2021-07-23 | 东莞理工学院 | 基于对抗生成网络的自主移动机器人自监督学习及导航方法 |
CN113156957B (zh) * | 2021-04-27 | 2024-06-04 | 东莞理工学院 | 自主移动机器人自监督学习及导航方法 |
CN114663410A (zh) * | 2022-03-31 | 2022-06-24 | 清华大学 | 一种心脏三维模型生成方法、装置、设备及存储介质 |
CN116030200A (zh) * | 2023-03-27 | 2023-04-28 | 武汉零点视觉数字科技有限公司 | 一种基于视觉融合的场景重构方法与装置 |
CN117132638A (zh) * | 2023-08-24 | 2023-11-28 | 北京海韵晨耕文化传播有限公司 | 一种基于图像扫描的容积数据采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335344A (zh) | 基于2d-3d注意机制神经网络模型的三维重建方法 | |
Gadelha et al. | 3d shape induction from 2d views of multiple objects | |
CN104867135B (zh) | 一种基于指导图像引导的高精度立体匹配方法 | |
CN104732587B (zh) | 一种基于深度传感器的室内3d语义地图构建方法 | |
US9443345B2 (en) | Method and apparatus for rendering three-dimensional (3D) object | |
CN104361624B (zh) | 一种计算机三维模型中全局光照的渲染方法 | |
CN110390638A (zh) | 一种高分辨率三维体素模型重建方法 | |
CN110633628B (zh) | 基于人工神经网络的rgb图像场景三维模型重建方法 | |
CN110490917A (zh) | 三维重建方法及装置 | |
US20110249865A1 (en) | Apparatus, method and computer-readable medium providing marker-less motion capture of human | |
CN110349247A (zh) | 一种基于语义理解的室内场景cad三维重建方法 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN114067041B (zh) | 三维模型的材质生成方法、装置、计算机设备和存储介质 | |
CN111738265A (zh) | Rgb-d图像的语义分割方法、系统、介质及电子设备 | |
CN107203988A (zh) | 一种由二维x光图像重建三维体图像的方法及其应用 | |
CN108846348A (zh) | 一种基于三维骨骼特征的人体行为识别方法 | |
CN111145338A (zh) | 一种基于单视角rgb图像的椅子模型重建方法及系统 | |
CN113705796A (zh) | 基于epi特征强化的光场深度获取卷积神经网络 | |
JP2023536074A (ja) | 単眼カメラからのフル骨格3d姿勢復元 | |
CN110415322A (zh) | 虚拟对象模型的动作指令的生成方法和装置 | |
CN101996415A (zh) | 眼球的三维建模方法 | |
CN108986210A (zh) | 三维场景重建的方法和设备 | |
CN116228986A (zh) | 一种基于局部到全局补全策略的室内场景光照估计方法 | |
CN106408654A (zh) | 一种三维地图的创建方法及系统 | |
KR101482419B1 (ko) | 모션 데이터 생성 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |
|
RJ01 | Rejection of invention patent application after publication |