CN111310670B - 一种基于预定义和随机视点的多视图三维形状识别方法 - Google Patents
一种基于预定义和随机视点的多视图三维形状识别方法 Download PDFInfo
- Publication number
- CN111310670B CN111310670B CN202010101436.5A CN202010101436A CN111310670B CN 111310670 B CN111310670 B CN 111310670B CN 202010101436 A CN202010101436 A CN 202010101436A CN 111310670 B CN111310670 B CN 111310670B
- Authority
- CN
- China
- Prior art keywords
- view
- cnn
- predefined
- likelihood
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 57
- 230000007704 transition Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000009877 rendering Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000002860 competitive effect Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 229930182628 Forbeside Natural products 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于预定义和随机视点的多视图三维形状识别方法,开发了一种新颖的多视图卷积神经网络Latent‑MVCNN(LMVCNN),使用来自预定义或随机视点的多个视图图像识别3D形状。LMVCNN由三种类型的子卷积神经网络组成。对于每个视图图像,第一CNN输出多个类别似然性,第二CNN输出潜在矢量以帮助第一CNN选择正确的类别似然性。第三CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率,这进一步帮助LMVCNN为每对视图图像找到正确的类别可能性。三个CNN相互协作以获得令人满意的分类分数。我们的实验结果表明,对于预定义和随机视点,LMVCNN在ModelNet10和ModelNet40上的3D形状识别方面均具有竞争优势,并且当视图图像的数量很少时,其表现出令人鼓舞的性能。
Description
技术领域
本发明涉及计算机视觉领域,具体是一种基于预定义和随机视点的多视图三维形状识别方法。
背景技术
由于深度学习在许多计算机视觉任务中的出色表现,因此深度神经网络已应用于3D形状分析。现已经提出了用于3D形状识别的各种深度网络,其基于3D形状的不同格式,例如视图,体素,网格和点云。但是,在这些方法中,只有基于视图的方法才具有出色的性能。Su等人首先提出了用于识别3D形状的多视图卷积神经网络MVCNN,并开发了视图合并层以将来自所有视图的信息合成为单个紧凑的3D形状描述符。视图池层将max操作应用于所有视图的卷积特征,并丢弃较小的特征值。尽管此视图池层提供了一种方便的聚合视图的方法,但它显然限制了MVCNN的性能改进,因为它没有充分利用所有视图信息。
Kanezaki等人提出的RotationNet扩展。RotationNet的最后一层为每个视图图像输出许多类别似然,并且每个类别似然由softmax层实现。RotationNet使用潜在变量作为3D对象姿态估计。但是,潜变量只有一个维度,其范围很小。在RotationNet中,可以将潜在变量分配给从1到视图数的整数之一。此外,RotationNet对预定义视图假设非常敏感。通常,这些方法尚未应用于随机视点的3D形状识别。此外,当观看图像的数量很少时,3D形状识别将面临巨大挑战。
基于体素的方法通常将3D形状转换为包含许多体素的体积。因此,可以将CNN扩展为3D架构以轻松处理体素化形状。但是,当3D体积形状的分辨率提高时,体素的总数将极大地增加,从而无法处理体积形状。由于基于体素的方法的局限性,它们的性能通常不如基于视图的方法。
Qi等人设计了一种新型的神经网络PointNet,它可以直接处理点云,并尊重输入点的排列不变性。该神经网络为3D对象识别提供了有效的方法。接下来,Qi等人开发了另一个层次神经网络PointNet++,该网络递归地在输入点的嵌套子集上使用PointNet。最近,Su等人提出了一个直接处理点云的处理点云的网络,它被表示为高维格子中的稀疏样本集。点云处理一直是自动驾驶中的重要模块。但是,点云格式易受噪声干扰,并且缺乏描述局部细节的能力。
与上述其他方法相比,基于视图的3D形状表示方法具有更好的适应性,并且可以更轻松地获取2D视图图像。
发明内容
为了增强CNN的3D形状识别功能,可用于预定义和随机视点,并处理少量可用视图图像的情况,开发了一种新颖的多视图卷积神经网络“Latent-MVCNN”(LMVCNN),它可以识别3D形状,并由三种类型的子CNN组成。第一个CNN为每个视图图像输出多个类别似然,第二个CNN输出一个隐变量以帮助第一个CNN选择正确的类别似然。潜在向量的作用类似于GVCNN中的视图分组模块,但此处用于选择正确的类别可能性。第三CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率,这进一步帮助LMVCNN为每对视图图像找到正确的类别可能性。
为实现上述目的,本发明的技术方案是:一种基于预定义和随机视点的多视图三维形状识别方法,按以下步骤实现:
一种基于预定义和随机视点的多视图三维形状识别方法,所述方法中设计一种多视图卷积神经网络Latent-MVCNN,即LMVCNN,由三种类型的子CNN组成;第一种类型的子CNN为每个视图图像输出多个类别似然,第二种类型的子CNN输出一个隐变量以帮助第一种类型的子CNN选择正确的类别似然,第三种类型的子CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率;
所述方法包括如下分步骤:
步骤1,设M为预定义或随机视点的数量,N为目标对象类别的数量,通过在这些M个视点下渲染一个3D对象,得到M个视图图像{xi|1≤i≤M},用表示;
步骤2,如果已被确定,则计算M个视图图像的整个类别可能性;
步骤3,若确定未被确定,则使用第二种类型的子CNN,选择合适的类别似然,输出一个隐变量Vi,其最后一层的激活函数设置为S型,由于未提供Vi的监督信号,因此Vi是隐变量,向输出隐变量引入了具有相同维数的K个分类索引中心/>它们分别对应于类别似然,如果输出隐变量Vi最接近分类索引中心cm,则意味着/>更有可能被分配给第m类可能性的索引;
步骤4,引入了第三种类型的子CNN以使用一对视图图像来预测索引变量,该子CNN是一个Siamese network,该网络利用一对视图图像来输出从一个视图的类别可能性到另一视图的类别可能性的转变概率,即将从的候选值到/>候选值的转变概率的发展表示为P(xi,xj,/>);第三种类型的子CNN的输入是一对视图图像,输出是最终卷积层特征的减法,维数为K2的softmax作为最后一层连接到第三种类型的子CNN;
步骤5,对于离散的参数根据算法确定/>然后使用反向传播算法通过固定来更新三种类型的子CNN和分类索引中心的参数;
步骤6,当类别似然数K和输入视点图像M的数量变大时,通过步骤5中的算法快速计算的值,定义一个矩阵/>表示当/>时/>的最佳分配概率;
步骤7,使用另一个矩阵来记住步骤6中当/> 时,对/>的最佳分配H;
步骤8,所有索引变量都被赋予相同的值,一旦确定了两个矩阵eng和pos,则步骤5中的算法获得/>合适的值,在测试阶段,对于输入的视图图像,首先使用三种类型的CNN分别获得类别似然性,潜在矢量和转移概率,然后根据步骤5中的算法获得/>的合适值,最后使用等式/>计算分类分数,根据分类分数选择合适的分类。
进一步的,步骤2中M个视图图像的整个类别可能性为:
为解决上式概率通常小于1,因此多个概率的乘积将导致非常小的值,上述等式被重写为对数可能性之和:
进一步的,步骤3中Vi,cm和应该服从以下方程式:
从Vi到cm的距离越小,将索引m分配给的可能性就越大,通过使用softmax,将概率定义如下:
使用负对数可能性定义了以下优化问题:
其中ylable是类别标签。
进一步的,步骤4中:
进一步的,步骤5中的算法如下:
算法定义为:的贪婪计算;
输入:输入参数类别标签ylable,输入视点图像的数量M和类别可能性K的数量;
输出:分配给
1:j∈{1,2…,K}
2:
3:pos(1,j)=j;
4:for m=2:M do
5:for n=1:K do
6:根据等式
计算eng(m,n),
7:pos(m,n)等于等式中对的最佳分配H,
8:除以外,/>中的任何变量均未分配H;
9:
10:fori=M-1:1do
11:
12:
进一步的,步骤6中当时/>求矩阵/>的值的方程为:
进一步的,步骤7其中当时,对/>的最佳分配H,H是唯一的,即除了之外,H还没有分配给/>中的任何变量。
相较于现有技术,本发明有以下有益效果:
1)LMVCNN输出许多类别似然性,因此,无论是在预定义视点还是随机视点的情况下,它都可以针对任何视图图像尽其所能选择一个合适的分类。另外,LMVCNN能够处理少量视图图像。因此,如果测试视图图像的数量非常小,我们的方法仍然可以正常工作。
2)视图图像生成为了尽可能完整地捕获3D形状的2D视图图像,我们设计了三种类型的视点设置,例如Upright,Dodecahedron和Random设置,然后生成了渲染这些视点下3D形状的视图。
3)(Upright)在第一种情况下,我们将z轴固定为旋转轴,然后将视点围绕该轴以角度θ的间隔放置,并与地平面成30°角。我们将θ=30°设置为可产生一个对象的12个视图。(Dodecahedron)我们在围绕该对象的十二面体的M=20个顶点上设置了视点。这是因为具有20个顶点的十二面体是具有最多顶点数的规则多面体。(Random)我们随机设置摄像机的视点。我们统一选择0°和360°之间的方位角和高度。此外,摄像机到原始坐标的径向距离也可以随机设置。人们识别3D对象时,首先不能定义其视点,并且通常是随机的。因此,随机生成的视图图像类似于人们从现实世界中捕获的图像。注意,由于观察到的视点的变化,所以随机视点产生的2D视点图像是可变的。
附图说明
图1为本发明实施例中LMVCNN中的第一和第二子CNN概述。
图2为本发明实施例中LMCNN中的第三个子CNN概述。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
一种基于预定义和随机视点的多视图三维形状识别方法,所述方法中设计一种多视图卷积神经网络Latent-MVCNN,即LMVCNN,由三种类型的子CNN组成;第一种类型的子CNN为每个视图图像输出多个类别似然,第二种类型的子CNN输出一个隐变量以帮助第一种类型的子CNN选择正确的类别似然,第三种类型的子CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率。
所述方法包括如下分步骤:
步骤1,设M为预定义或随机视点的数量,N为目标对象类别的数量,通过在这些M个视点下渲染一个3D对象,得到M个视图图像{xi|1≤i≤M},用表示。
步骤2,如果已被确定,则计算M个视图图像的整个类别可能性。M个视图图像的整个类别可能性为:
为解决上式概率通常小于1,因此多个概率的乘积将导致非常小的值,上述等式被重写为对数可能性之和。
步骤3,若确定未被确定,则使用第二种类型的子CNN,选择合适的类别似然,输出一个隐变量Vi,其最后一层的激活函数设置为S型,由于未提供Vi的监督信号,因此Vi是隐变量,向输出隐变量引入了具有相同维数的K个分类索引中心/>它们分别对应于类别似然,如果输出隐变量Vi最接近分类索引中心cm,则意味着/>更有可能被分配给第m类可能性的索引。
步骤3中Vi,cm和应该服从以下方程式:
从Vi到cm的距离越小,将索引m分配给的可能性就越大,通过使用softmax,将概率定义如下:
使用负对数可能性定义了以下优化问题:
其中ylable是类别标签。
步骤4,引入了第三种类型的子CNN以使用一对视图图像来预测索引变量,该子CNN是一个Siamese network,该网络利用一对视图图像来输出从一个视图的类别可能性到另一视图的类别可能性的转变概率,即将从的候选值到/>候选值的转变概率的发展表示为P(xi,xj,/>);第三种类型的子CNN的输入是一对视图图像,输出是最终卷积层特征的减法,维数为K2的softmax作为最后一层连接到第三种类型的子CNN。
步骤4中,重写步骤3中的等式:
步骤5,对于离散的参数根据算法确定/>然后使用反向传播算法通过固定来更新三种类型的子CNN和分类索引中心的参数。步骤5中的算法如下:
算法定义为:的贪婪计算。
输入:输入参数类别标签ylable,输入视点图像的数量M和类别可能性K的数量。
输出:分配给
1:j∈{1,2…,K}
2:
3:pos(1,j)=j;
4:for m=2:M do
5:for n=1:K do
6:根据等式
计算eng(m,n),
7:pos(m,n)等于等式中对的最佳分配H,
8:除以外,/>中的任何变量均未分配H;
9:
10:for i=M-1:1do
11:
12:
步骤6,当类别似然数K和输入视点图像M的数量变大时,通过步骤5中的算法快速计算的值,定义一个矩阵/>表示当/>时/>的最佳分配概率。步骤6中当/>时/>求矩阵/>的值的方程为:
步骤7,使用另一个矩阵来记住步骤6中当/> 时,对/>的最佳分配H。H是唯一的,即除了/>之外,H还没有分配给/>中的任何变量。
步骤8,所有索引变量都被赋予相同的值,一旦确定了两个矩阵eng和pos,则步骤5中的算法获得/>合适的值,在测试阶段,对于输入的视图图像,首先使用三种类型的CNN分别获得类别似然性,潜在矢量和转移概率,然后根据步骤5中的算法获得/>的合适值,最后使用等式/>计算分类分数,根据分类分数选择合适的分类。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
Claims (7)
1.一种基于预定义和随机视点的多视图三维形状识别方法,其特征在于:所述方法中设计一种多视图卷积神经网络Latent-MVCNN,即LMVCNN,由三种类型的子CNN组成;第一种类型的子CNN为每个视图图像输出多个类别似然,第二种类型的子CNN输出一个隐变量以帮助第一种类型的子CNN选择正确的类别似然,第三种类型的子CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率;
所述方法包括如下分步骤:
步骤1,设M为预定义或随机视点的数量,N为目标对象类别的数量,通过在这些M个视点下渲染一个3D对象,得到M个视图图像{xi|1≤i≤M},用表示;
步骤2,如果已被确定,则计算M个视图图像的整个类别可能性;
步骤3,若确定未被确定,则使用第二种类型的子CNN,选择合适的类别似然,输出一个隐变量Vi,其最后一层的激活函数设置为S型,由于未提供Vi的监督信号,因此Vi是隐变量,向输出隐变量引入了具有相同维数的K个分类索引中心/>它们分别对应于类别似然,如果输出隐变量Vi最接近分类索引中心cm,则意味着/>更有可能被分配给第m类可能性的索引;
步骤4,引入了第三种类型的子CNN以使用一对视图图像来预测索引变量,该子CNN是一个Siamese network,该网络利用一对视图图像来输出从一个视图的类别可能性到另一视图的类别可能性的转变概率,即将从的候选值到/>候选值的转变概率的发展表示为P(xi,/>第三种类型的子CNN的输入是一对视图图像,输出是最终卷积层特征的减法,维数为K2的softmax作为最后一层连接到第三种类型的子CNN;
步骤5,对于离散的参数根据算法确定/>然后使用反向传播算法通过固定来更新三种类型的子CNN和分类索引中心的参数;
步骤6,当类别似然数K和输入视点图像M的数量变大时,通过步骤5中的算法快速计算的值,定义一个矩阵/>表示当/>时/>的最佳分配概率;
步骤7,使用另一个矩阵来记住步骤6中当/>时,对/>的最佳分配H;
步骤8,所有索引变量都被赋予相同的值,一旦确定了两个矩阵eng和pos,则步骤5中的算法获得/>合适的值,在测试阶段,对于输入的视图图像,首先使用三种类型的CNN分别获得类别似然性,潜在矢量和转移概率,然后根据步骤5中的算法获得/>的合适值,最后使用等式/>计算分类分数,根据分类分数选择合适的分类。
2.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法,其特征在于:步骤2中M个视图图像的整个类别可能性为:
为解决上式概率通常小于1,因此多个概率的乘积将导致非常小的值,上述等式被重写为对数可能性之和:
3.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法,其特征在于:步骤3中Vi,cm和应该服从以下方程式:
从Vi到cm的距离越小,将索引m分配给的可能性就越大,通过使用softmax,将概率定义如下:
使用负对数可能性定义了以下优化问题:
其中ylable是类别标签。
4.根据权利要求1-3中任一项所述的一种基于预定义和随机视点的多视图三维形状识别方法,其特征在于:步骤4中:
5.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法,其特征在于:步骤5中的算法如下:
算法定义为:的贪婪计算;
输入:输入参数类别标签ylable,输入视点图像的数量M和类别可能性K的数量;
输出:分配给
1:j∈{1,2…,K}
2:
3:pos(1,j)=j;
4:for m=2:M do
5:for n=1:K do
6:根据等式
计算eng(m,n),
7:pos(m,n)等于等式中对的最佳分配H,
8:除以外,/>中的任何变量均未分配H;
9:
10:for i=M-1:1 do
11:
12:
6.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法,其特征在于:步骤6中当时/>求矩阵/>的值的方程为:
7.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法,其特征在于:步骤7其中当时,对/>的最佳分配H,H是唯一的,即除了/>之外,H还没有分配给/>中的任何变量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010101436.5A CN111310670B (zh) | 2020-02-19 | 2020-02-19 | 一种基于预定义和随机视点的多视图三维形状识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010101436.5A CN111310670B (zh) | 2020-02-19 | 2020-02-19 | 一种基于预定义和随机视点的多视图三维形状识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310670A CN111310670A (zh) | 2020-06-19 |
CN111310670B true CN111310670B (zh) | 2024-02-06 |
Family
ID=71149220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010101436.5A Active CN111310670B (zh) | 2020-02-19 | 2020-02-19 | 一种基于预定义和随机视点的多视图三维形状识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310670B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217214A (zh) * | 2014-08-21 | 2014-12-17 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于可配置卷积神经网络的rgb-d人物行为识别方法 |
CN106778444A (zh) * | 2015-11-23 | 2017-05-31 | 广州华久信息科技有限公司 | 一种基于多视图卷积神经网络的表情识别方法 |
CN109063139A (zh) * | 2018-08-03 | 2018-12-21 | 天津大学 | 基于全景图及多通道cnn的三维模型分类和检索方法 |
CN109308486A (zh) * | 2018-08-03 | 2019-02-05 | 天津大学 | 基于深度学习的多源图像融合和特征提取算法 |
CN110287773A (zh) * | 2019-05-14 | 2019-09-27 | 杭州电子科技大学 | 基于自主学习的交通枢纽安检图像识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10289934B2 (en) * | 2016-11-08 | 2019-05-14 | Nec Corporation | Landmark localization on objects in images using convolutional neural networks |
US10762396B2 (en) * | 2017-12-05 | 2020-09-01 | Utac, Llc | Multiple stage image based object detection and recognition |
-
2020
- 2020-02-19 CN CN202010101436.5A patent/CN111310670B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217214A (zh) * | 2014-08-21 | 2014-12-17 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于可配置卷积神经网络的rgb-d人物行为识别方法 |
CN106778444A (zh) * | 2015-11-23 | 2017-05-31 | 广州华久信息科技有限公司 | 一种基于多视图卷积神经网络的表情识别方法 |
CN109063139A (zh) * | 2018-08-03 | 2018-12-21 | 天津大学 | 基于全景图及多通道cnn的三维模型分类和检索方法 |
CN109308486A (zh) * | 2018-08-03 | 2019-02-05 | 天津大学 | 基于深度学习的多源图像融合和特征提取算法 |
CN110287773A (zh) * | 2019-05-14 | 2019-09-27 | 杭州电子科技大学 | 基于自主学习的交通枢纽安检图像识别方法 |
Non-Patent Citations (1)
Title |
---|
王新颖 ; 王亚 ; .权值优化集成卷积神经网络及其在三维模型识别中的应用.图学学报.2019,(06),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111310670A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qiu et al. | Geometric back-projection network for point cloud classification | |
Zeng et al. | 3DContextNet: Kd tree guided hierarchical learning of point clouds using local and global contextual cues | |
Bai et al. | GIFT: Towards scalable 3D shape retrieval | |
Bai et al. | 3D shape matching via two layer coding | |
Prokhorov | A convolutional learning system for object classification in 3-D lidar data | |
Zhuang et al. | Acdnet: Adaptively combined dilated convolution for monocular panorama depth estimation | |
Xu et al. | Multi-view 3D shape recognition via correspondence-aware deep learning | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
CN112085835B (zh) | 三维卡通人脸生成方法、装置、电子设备及存储介质 | |
Shajahan et al. | Roof classification from 3-D LiDAR point clouds using multiview CNN with self-attention | |
Yu et al. | Latent-MVCNN: 3D shape recognition using multiple views from pre-defined or random viewpoints | |
CN114830131A (zh) | 等面多面体球面量规卷积神经网络 | |
CN111310821A (zh) | 多视图特征融合方法、系统、计算机设备及存储介质 | |
Gao et al. | Multi-level view associative convolution network for view-based 3D model retrieval | |
CN114067075A (zh) | 基于生成对抗网络的点云补全方法及装置 | |
Cao et al. | Accurate 3-D reconstruction under IoT environments and its applications to augmented reality | |
Bazazian et al. | DCG-net: Dynamic capsule graph convolutional network for point clouds | |
CN111597367B (zh) | 基于视图和哈希算法的三维模型检索方法 | |
Liu et al. | Semantic and context information fusion network for view-based 3D model classification and retrieval | |
Lei et al. | Mesh convolution with continuous filters for 3-d surface parsing | |
Fan et al. | Hcpvf: Hierarchical cascaded point-voxel fusion for 3d object detection | |
CN111310670B (zh) | 一种基于预定义和随机视点的多视图三维形状识别方法 | |
CN115661218B (zh) | 一种基于虚拟超点的激光点云配准方法和系统 | |
CN115311653A (zh) | 一种3d目标检测方法、装置、终端和存储介质 | |
Svirsky et al. | A non-linear differentiable CNN-rendering module for 3D data enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |