CN111695494A - 一种基于多视角卷积池化的三维点云数据分类方法 - Google Patents

一种基于多视角卷积池化的三维点云数据分类方法 Download PDF

Info

Publication number
CN111695494A
CN111695494A CN202010523532.9A CN202010523532A CN111695494A CN 111695494 A CN111695494 A CN 111695494A CN 202010523532 A CN202010523532 A CN 202010523532A CN 111695494 A CN111695494 A CN 111695494A
Authority
CN
China
Prior art keywords
point cloud
model
dimensional
view
dimensional point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010523532.9A
Other languages
English (en)
Inventor
窦曙光
王文举
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202010523532.9A priority Critical patent/CN111695494A/zh
Publication of CN111695494A publication Critical patent/CN111695494A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多视角卷积池化的三维点云数据分类方法,包括:将原始三维点云模型渲染成n个不同视角的二维图像,得多视角的二维图像图片集;在二维图像图片集中进行学习,得n个视角的深度视觉特征;将深度视觉特征转换为m×n大小的特征图,而后聚合不同视角的深度视觉特征,得聚合后的深度视觉特征向量;使用全连接神经网络将2m×1长度的特征向量转换为C×1的特征向量,再输入当前样本属于不同类别的概率分布情况,得预测向量;使用预测向量和当前样本的真实向量来计算交叉熵损失,而后迭代训练优化三维点云分类模型中的学习参数,重复上述步骤,迭代优化直到交叉熵损失为最小不再降低,即得到最优模型,再将最优模型用于预测测试集中样本的类别。

Description

一种基于多视角卷积池化的三维点云数据分类方法
技术领域
本发明涉及一种数据分类方法,具体涉及一种基于多视角卷积池 化的三维点云数据分类方法。
背景技术
当前,通过各类机载、车载、手持三维扫描仪等设备均可快捷、 高效地获取高精度大范围的点云数据用于三维重建、机器人、逆向工 程、虚拟现实技术等应用领域。在这些点云数据应用处理的过程中, 点云分类是不可缺失的重要组成部分,也是当前计算机科学相关领域 的研究重点和热点。
基于深度学习的三维点云数据分类方法主要有四类:基于体素卷 积神经网络,基于多视角卷积神经网络,基于特征和深度神经网络, 和基于点云的方法。
基于体素卷积神经网络的代表方法是美国卡内基梅隆大学的 Maturana等人提出的VoxNet。然而,因为数据稀疏问题,体素结构 受限于它的分辨率。三维卷积的计算复杂度相对于体素分辨率呈立体 增长。此外,由于大多数三维几何表示是基于边界的,因此占用的区 域不会随着离散化的大小成比例地增加,从而导致计算浪费。
基于多视角卷积神经网络的代表方法是美国马萨诸塞大学阿默斯 特分校的Su提出的Multi-view-CNN。该方法首先提出一个标准的卷 积神经网络结构,它被训练成能够独立识别形状渲染的视图。当提供 多个形状的视图时,识别率进一步增加。此外,Su提出了一种新颖 的卷积神经网络结构,它把来自三维模型的多个视图的信息组合成一 个单一且紧凑的形状描述符,提供更好的识别性能。
基于的特征和深度神经网络的代表方法是美国纽约大学的Fang 提出的一种形状描述符。形状描述符是一种简洁但信息丰富的表示, 它向三维模型提供作为某个类别的实例的标识。形状描述符本质上是 一个将三维数据转换的特征向量,再由全连接神经网络进行分类。三 维形状检索的实验结果表明,深层形状描述子在处理噪声、不完整性 和结构变化方面优于现有技术。
基于点云的三维模型分类与分割方法的代表是美国斯坦福大学 Charles Qi提出的PointNet和PointNet++。PointNet系列方法认为点 云是一种重要的几何数据结构。由于其格式不规则,大多数研究人员 将这些数据转换成规则的三维体素网格或图像集合。然而,这使得数 据不必要的庞大。因此Qi设计了一种直接消耗点云的新型神经网络, 该神经网络很好地考虑了输入点的置换不变性。并且PointNet为从对 象分类、部分分割到场景语义解析的应用程序提供了统一的体系结 构。虽然简单,PointNet分类效果有效的。
尽管上述分类算法效果有效,但分类精度依然有进一步提升的空 间。因此,需要一种能够提高分类精度的方法。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种基于多 视角卷积池化的三维点云数据分类方法。
本发明提供了一种基于多视角卷积池化的三维点云数据分类方 法,具有这样的特征,包括如下步骤:步骤1,通过PointImage预处 理方法将原始三维点云模型渲染成n个不同视角的二维图像,从而得 到多视角的二维图像图片集;步骤2,基于迁移学习的骨干模型在二 维图像图片集中进行学习,得到n个视角的深度视觉特征;步骤3, 将学习到的深度视觉特征转换为m×n大小的特征图,使用 ConvPooling的提升版Conv2Pooling池化方法来聚合不同视角的深度 视觉特征,得到聚合后的深度视觉特征向量;步骤4,使用全连接层将2m×1长度的特征向量转换为C×1的特征向量,再通过Softmax函数 输入当前样本属于不同类别的概率分布情况,得到预测向量,其中C 为待分类的类别数;步骤5,使用预测向量和当前样本的真实向量来 计算交叉熵损失,而后通过BP优化方法来迭代训练优化三维点云分 类模型中的学习参数;步骤6,重复步骤2到步骤5,迭代优化直到 交叉熵损失为最小不再降低,即训练的模型为最优模型,再将最优模 型用于预测测试集中样本的类别。
在本发明提供的基于多视角卷积池化的三维点云数据分类方法 中,还可以具有这样的特征:其中,步骤1包括如下子步骤:步骤 1-1,根据预先设置的分辨率R将所在的原始三维点云模型所在空间 划分为由个体素网格单元组成的体素网格空间;步骤1-2,对于处于 同个网络单元的C中的n个点,将其近似为同一个点,其坐标为C 在体素空间中的坐标(rx,ry,rz);步骤1-3,根据选取的视角,将体素 化的三维模型渲染成多个不同视角的二维图像,从而得到多视角的所 述二维图像片集。
在本发明提供的基于多视角卷积池化的三维点云数据分类方法 中,还可以具有这样的特征:其中,步骤3包括如下子步骤:步骤 3-1,将n视角m长度的多视角视觉特征视为大小为m×n的特征图; 步骤3-2,使用三个1×1的卷积层由原始特征图生成查询层Query特征图,键层Key特征图以及值层Value特征图;步骤3-3,将Query 特征图转置为n×m的特征图后与Key特征图进行点积操作,得到n×n 的特征图,再使用Softmax激活函数将其作为注意力权重,将该注意 力权重与Value特征图进行点积操作后重新得到m×n的特征图;步骤3-4,使用Max池化将m×n的特征图降维到m×1的最终的深度视觉特 征向量。
在本发明提供的基于多视角卷积池化的三维点云数据分类方法 中,还可以具有这样的特征:其中,步骤4中的全连接层由输入层、 隐藏层和输出层组成,且隐藏层由多层神经元组成,每个神经元由权 重函数、偏置函数和激活函数组成,其公式如下:
Figure BDA0002532899490000041
式(1)中,x为神经元的输入,w为神经元的权重,b为神经元 的偏置,函数
Figure BDA0002532899490000042
为非线性激活函数,该非线性函数是Softmax函数, 其公式为:
Figure BDA0002532899490000051
其中i=1,···,n。
在本发明提供的基于多视角卷积池化的三维点云数据分类方法 中,还可以具有这样的特征:其中,步骤5中的BP优化方法的公式 如下:
Figure BDA0002532899490000052
式(2)中,α为学习率(Learning Rate),θ(k)为模型第k次迭代 训练时的参数,
Figure BDA0002532899490000053
为第k次迭代训练时模型的梯度,J(θ)为模型 的优化目标函数,由损失函数L(θ)和正则项R(θ)组成,λ控制正则项 的比重。
发明的作用与效果
根据本发明所涉及的基于多视角卷积池化的三维点云数据分类 方法,因为采用了PointImage预处理方法,所以得到了多视角的二维 图像图片集;因为进行了特征池化,所以聚合了不同视角的视觉特征; 因为采用反向传播算法来优化模型中待训练的参数,并通过多次迭代 训练,所以能够使得目标损失函数最小,即预测值尽可能接近真实值。
因此,本发明的基于多视角卷积池化的三维点云数据分类方法, 对三维点云数据进行分类时,不仅分类效果好,而且还提高了分类精 度。
附图说明
图1是本发明中的三维点云分类框架示意图;
图2是本发明中的PointImage方法示意图;
图3是本发明中的VGG-11特征提取架构图;
图4是本发明中的注意力特征池化示意图;
图5是本发明中的全连接神经网络示意图;
图6是本发明中的全连接神经网络中神经元的数学模型示意图;
图7是本发明中的Sigmoid函数示意图。
具体实施方式
为了使本发明实现的技术手段与功效易于明白了解,以下结合实 施例及附图对本发明作具体阐述。
图1是本发明中的三维点云分类框架示意图。
如图1所示,本发明提供一种基于多视角卷积池化的三维点云数 据分类方法,包括如下步骤:
步骤1,通过PointImage预处理方法将原始三维点云模型渲染成 n个不同视角的二维图像,从而得到多视角的二维图像图片集,具体 包括如下子步骤:
步骤1-1,根据预先设置的分辨率R将所在的原始三维点云模型 所在空间划分为由个体素网格单元组成的体素网格空间;
步骤1-2,对于处于同个网络单元的C中的n个点,将其近似为 同一个点,其坐标为C在体素空间中的坐标(rx,ry,rz);
步骤1-3,根据选取的视角,将体素化的三维模型渲染成多个不 同视角的二维图像,从而得到多视角的所述二维图像片集。
图2是本发明中的PointImage方法示意图。
步骤1-3中,PointImage中选取的为上,下,左,右,前,后共 6个视角。PointImage渲染图片的核心在于坐标即是特征, (±rx,±ry,±rz)其中两个值转换为图片的两维坐标,第三个值作为这个 像素点的值,即像素值,其余像素点的值为0,如图2所示。例如, 将体素化的三维模型渲染为俯视图,(rx,ry,rz)的体素A映射为坐标为 (rx,ry),值为rz的二维像素点。
步骤2,基于迁移学习的骨干模型在二维图像图片集中进行学习, 得到n个视角的深度视觉特征。
本发明中,通过PointImage的预处理后,原始的三维点云被渲染 为直接可以直接被CNN处理的二维图片形式。对于基于图像的三维 形状识别方法,本发明通过多视角卷积神经网络架构(Multi-View Convolutional Neural Network,MVCNN)从二维图片组中学习深度特 征,来用于之后的分类任务。本发明所提多视角卷积神经网络是从 ImageNet分类任务的迁移学习中获益。采用在ImageNet数据集预训 练后的分类模型VGG-11作为架构的主干,具体来说,就是将在 ImageNet数据集训练完成后的模型权重作为多视角卷积神经网络骨 干模块的初始化参数。
在2014年,牛津大学视觉几何组(Visual Geometry Group)的 Karen和Andrew提出的一种以他们团队命名的深度卷积神经网络模 型VGG系列架构。VGGNet与AlexNet使用较大的卷积核不同,全 部使用3×3的小卷积核,再搭配2×2的池化核来构建深度架构。虽然 在ImageNet分类上与同时期Google提出的GoogleNet相比性能略低, 但VGGNet具有更强的迁移性,迁移到其它数据集上的很多任务上具 有良好的泛化性。本项目多视角卷积神经网络正是看重这点,采用 VGG-M网络作为架构的骨干模型。
图3是本发明中的VGG-11特征提取架构图。
本发明选择VGG-11作为基线模型,VGG-11网络特征提取架构 如图3所示。VGG-11将两个3×3大小的卷积层串联,其效果相当于 一个5×5的卷积层,但是却带来更少的模型参数。VGG-11共有11 层神经网络,其中8层全为3×3的卷积层,另外3层为网络最后的全 连接层,最后输出一个1×4096的特征向量。
图4是本发明中的注意力特征池化示意图。
如图4所示,步骤3,将学习到的深度视觉特征转换为m×n大小 的特征图,使用ConvPooling的提升版Conv2Pooling池化方法来聚合 不同视角的深度视觉特征,得到聚合后的深度视觉特征向量,具体包 括如下子步骤:
步骤3-1,将n视角m长度的多视角视觉特征视为大小为m×n的 特征图;
步骤3-2,使用三个1×1的卷积层由原始特征图生成查询层Query 特征图,键层Key特征图以及值层Value特征图;
步骤3-3,将Query特征图转置为n×m的特征图后与Key特征图 进行点积操作,得到n×n的特征图,再使用Softmax激活函数将其作 为注意力权重,将该注意力权重与Value特征图进行点积操作后重新 得到m×n的特征图;
步骤3-4,使用Max池化将m×n的特征图降维到2m×1的最终的 深度视觉特征向量。
本发明中,因为注意力机制在视觉领域的成功,GaitSet也将注 意力机制用于池化中,证明注意力机制在池化中的有效性。因此,本 发明也将自注意力机制融入到不同视角的视觉特征池化中。
步骤4,使用全连接神经网络将2m×1长度的特征向量转换为C×1 的特征向量,再通过Softmax函数输入当前样本属于不同类别的概率 分布情况,得到预测向量,其中C为待分类的类别数。
图5是本发明中的全连接神经网络示意图。
本发明中,全连接神经网络是研究员根据神经元之间互相连接传 送信息的结构设计的神经网络。全连接神经网络能充分逼近非常复杂 的非线性关系,并且可以并行式的训练,因此成为最常用的神经网络 之一。如图5所示,全连接神经网络由输入层、隐藏层和输出层组成, 且隐藏层由多层神经元组成,每个神经元由权重函数、偏置函数和激 活函数组成,并且神经元是一个具有多输入但只有单输出的信息处理 单元,由于激活函数的非线性能力,神经元也具有对应信息进行非线 性处理的能力,其公式如下:
Figure BDA0002532899490000091
式(1)中,x为神经元的输入,w为神经元的权重,b为神经元 的偏置,函数
Figure BDA0002532899490000101
为非线性激活函数,该非线性函数是Softmax函数, 其公式为:
Figure BDA0002532899490000102
其中i=1,···,n。
图6是本发明中的全连接神经网络中神经元的数学模型示意图。
此外,全连接神经网络中神经元的数学模型如图6所示。
步骤5,使用预测向量和当前样本的真实向量来计算交叉熵损失, 而后通过BP优化方法来迭代训练优化三维点云分类模型中的学习参 数。
其中,真实向量一般由人工进行标记。
图7是本发明中的Sigmoid函数示意图。
步骤6,重复步骤2到步骤5,迭代优化直到所述交叉熵损失为 最小不再降低,即训练的模型为最优模型,再将所述最优模型用于预 测测试集中样本的类别。
本发明中,在二分类任务中常将模型最后的输出用Sigmoid函数 映射为[0,1]之间的概率,即输出结果大于0.5,则分类结果为1。若小 于0.5,则分类结果为0。0和1代表二分类中的两个待分类的类别。
其中,Sigmoid函数如图7所示,可用以下公式表达:
Figure BDA0002532899490000103
将以上情况用数学表达式抽象出来,sigmoid的输出为模型输入x 被模型判别为1类别的概率,即为P(y=1|x)。与之相反,输入x被模 型判别为1类别的概率为P(y=0|x)=1-P(y=1|x)。将以上两种情况相 结合,可得到对于输入x判别为y的概率为:
P(y|x)=P(y=1|x)y·P(y=0|x)1-y
=P(y=1|x)y·(1-P(y=1|x))1-y
因为上式中包含指数级计算,为了简化计算。在等式两边加上log 函数,增加log函数不会改变函数原来的单调性,却能减少计算量。 加上log函数后,以上公式可化为:
logP(y|x)=log(P(y=1|x)y·(1-P(y=1|x))1-y)
=ylogP(y=1|x)+(1-y)log(1-P(y=1|x))
此外,对于预测模型,通常希望模型中的参数θ能最大化P(y|x), 即最小化-logP(y|x)。由此可得损失函数:
Lk=-[ylogP(y=1|x)+(1-y)log(1-P(y=1|x))]
以上为二分类的交叉熵损失函数,可推广到多分类任务。对于n分 类任务,其交叉熵损失为:
Figure RE-GDA0002578077240000111
其中,pi为预测为第i类别的概率P(y|x=i),并且三维点云分类 任务在本质上是多分类任务,因此选择多分类交叉熵损失作为分类模 型的损失函数。
本发明中,对于深度神经网络,一般采用反向传播(Back Propagation,BP)算法来优化模型中待训练的参数,通过多次迭代训 练从而目标损失函数最小,即预测值尽可能接近真实值。BP算法在 本质上是基于梯度下降的优化方法,具体操作可通过以下数学公式来说明:
Figure BDA0002532899490000112
式(2)中,α为学习率即Learning Rate,θ(k)为模型第k次迭代 训练时的参数,
Figure BDA0002532899490000121
为第k次迭代训练时模型的梯度,J(θ)为模型 的优化目标函数,由损失函数L(θ)和正则项R(θ)组成,λ控制正则项 的比重。
实施例:
对于三维形状分类,即使不同的方法使用的是不同三维表示形 式,但对于三维形状分类,最被学术界认可并使用的数据集是普林斯 顿大学提供的ModelNet系列数据集。因此,本实施例提出的方法将 在ModelNet数据集上实现。
训练时共有两个阶段,第一阶段仅对每个图片进行分类,用于微 调骨干模型。第二阶段对每个三维模型的所有视角的图片进行训练, 用于训练整个分类框架。在测试时,仅使用第二阶段进行预测。实验 硬件环境为2个NVidia Titan Xp GPU,64GB内存。对于单GPU (Graphics Processing Unit)训练,两个阶段的训练迭代次数将为30 次。而对于双GPU训练,由于实际训练时将批处理大小设置为单GPU 的两位发现模型收敛的很快,因此将第一阶段训练次数调整为10次, 而第二阶段训练次数调整为20次。双GPU不仅单次迭代训练速度更 快,并且总训练次数后者仅为前者的一半。对于双GPU训练,初始 学习率(lr,learning rate)设置为0.0001,之后动态调节学习率,将下一 次训练的学习率调整为上一次的一半,从而加快模型训练。除了在训 练中使用学习率衰减外,还使用了权重衰减。权重衰减即是L2正则 化,通过对权重的大小进行惩罚从而减少权重的值,这种技术可以减 少深度模型过拟合的可能性。
基于不同三维模型表示方法与本实施例提出的方法的分类精度 对比结果如表1所示。基于三维体素的VRN Single和三角网格的 MeshNet在OA上均没有达到92%以上。在以三维点云作为输入的其 它5种方法最优秀的方法为Dynamic Graph,本实施例提出的多视角 卷积池化方法在OA和AA上相比Dynamic Graph方法分别提升了 1.6%和1.3%。
表1基于不同三维模型表示方法的分类精度对比结果
Figure BDA0002532899490000131
实施例的作用与效果
由上述实施例可知,采用上述方法进行分类,使得在OA和AA 上相比DynamicGraph方法分别提升了1.6%和1.3%,即精度得到了 提高。
进一步地,本发明的基于多视角卷积池化的三维点云数据分类方 法,因为采用了PointImage预处理方法,所以得到了多视角的二维图 像图片集;因为进行了特征池化,所以聚合了不同视角的视觉特征; 因为采用反向传播算法来优化模型中待训练的参数,并通过多次迭代 训练,所以能够使得目标损失函数最小,即预测值尽可能接近真实值。
因此,本发明的基于多视角卷积池化的三维点云数据分类方法, 对三维点云数据进行分类时,不仅分类效果好,而且还提高了分类精 度。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护 范围。

Claims (5)

1.一种基于多视角卷积池化的三维点云数据分类方法,其特征在于,包括如下步骤:
步骤1,通过PointImage预处理方法将原始三维点云模型渲染成n个不同视角的二维图像,从而得到多视角的二维图像图片集;
步骤2,基于迁移学习的骨干模型在所述二维图像图片集中进行学习,得到n个视角的深度视觉特征;
步骤3,将学习到的所述深度视觉特征转换为m×n大小的特征图,使用ConvPooling的提升版Conv2Pooling池化方法来聚合不同视角的深度视觉特征,得到聚合后的深度视觉特征向量;
步骤4,使用全连接神经网络将2m×1长度的特征向量转换为C×1的特征向量,再通过Softmax函数输入当前样本属于不同类别的概率分布情况,得到预测向量,其中C为待分类的类别数;
步骤5,使用由步骤4中得到的所述预测向量和当前样本的真实向量来计算交叉熵损失,而后通过BP优化方法来优化三维点云分类模型中的学习参数;
步骤6,重复步骤2到步骤5,迭代优化直到所述交叉熵损失为最小不再降低,即训练的模型为最优模型,再将所述最优模型用于预测测试集中样本的类别。
2.根据权利要求1所述的基于多视角卷积池化的三维点云数据分类方法,其特征在于:
其中,所述步骤1包括如下子步骤:
步骤1-1,根据预先设置的分辨率R将所在的所述原始三维点云模型所在空间划分为由个体素网格单元组成的体素网格空间;
步骤1-2,对于处于同个网络单元的C中的n个点,将其近似为同一个点,其坐标为C在体素空间中的坐标(rx,ry,rz);
步骤1-3,根据选取的视角,将体素化的三维模型渲染成多个不同视角的二维图像,从而得到多视角的所述二维图像片集。
3.根据权利要求1所述的基于多视角卷积池化的三维点云数据分类方法,其特征在于:
其中,所述步骤3包括如下子步骤:
步骤3-1,将n视角m长度的多视角视觉特征视为大小为m×n的特征图;
步骤3-2,使用三个1×1的卷积层由原始特征图生成查询层Query特征图,键层Key特征图以及值层Value特征图;
步骤3-3,将所述Query特征图转置为n×m的特征图后与所述Key特征图进行点积操作,得到n×n的特征图,再使用Softmax激活函数将其作为注意力权重,将该注意力权重与所述Value特征图进行点积操作后重新得到m×n的特征图;
步骤3-4,使用Max池化将m×n的所述特征图降维到2m×1的最终的深度视觉特征向量。
4.根据权利要求1所述的基于多视角卷积池化的三维点云数据分类方法,其特征在于:
其中,所述步骤4中的所述全连接神经网络由输入层、隐藏层和输出层组成,且所述隐藏层由多层神经元组成,每个所述神经元由权重函数、偏置函数和激活函数组成,其公式如下:
Figure FDA0002532899480000031
式(1)中,x为神经元的输入,w为神经元的权重,b为神经元的偏置,函数
Figure FDA0002532899480000032
为非线性激活函数,该非线性函数是Softmax函数,其公式为:
Figure FDA0002532899480000033
其中i=1,···,n。
5.根据权利要求1所述的基于多视角卷积池化的三维点云数据分类方法,其特征在于:
其中,所述步骤5中的所述BP优化方法的公式如下:
Figure FDA0002532899480000034
式(2)中,α为学习率(Learning Rate),θ(k)为模型第k次迭代训练时的参数,
Figure FDA0002532899480000035
为第k次迭代训练时模型的梯度,J(θ)为模型的优化目标函数,由损失函数L(θ)和正则项R(θ)组成,λ控制正则项的比重。
CN202010523532.9A 2020-06-10 2020-06-10 一种基于多视角卷积池化的三维点云数据分类方法 Pending CN111695494A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010523532.9A CN111695494A (zh) 2020-06-10 2020-06-10 一种基于多视角卷积池化的三维点云数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010523532.9A CN111695494A (zh) 2020-06-10 2020-06-10 一种基于多视角卷积池化的三维点云数据分类方法

Publications (1)

Publication Number Publication Date
CN111695494A true CN111695494A (zh) 2020-09-22

Family

ID=72480061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010523532.9A Pending CN111695494A (zh) 2020-06-10 2020-06-10 一种基于多视角卷积池化的三维点云数据分类方法

Country Status (1)

Country Link
CN (1) CN111695494A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016638A (zh) * 2020-10-26 2020-12-01 广东博智林机器人有限公司 一种钢筋簇的识别方法、装置、设备及存储介质
CN112731522A (zh) * 2020-12-14 2021-04-30 中国地质大学(武汉) 地震地层智能识别方法、装置、设备及存储介质
CN112784782A (zh) * 2021-01-28 2021-05-11 上海理工大学 一种基于多视角双注意网络的三维物体识别方法
CN113052231A (zh) * 2021-03-23 2021-06-29 哈尔滨理工大学 一种基于体素和全局形状分布特征的三维模型分类方法
CN113066187A (zh) * 2021-04-20 2021-07-02 哈尔滨理工大学 一种基于形状特征和卷积神经网络的三维模型分类方法
CN113469198A (zh) * 2021-06-30 2021-10-01 南京航空航天大学 一种基于改进的vgg卷积神经网络模型的图像分类方法
CN115082616A (zh) * 2022-05-18 2022-09-20 北京大学深圳医院 一种基于深度学习的超声图像生成3d点云模型的方法
CN116152151A (zh) * 2022-11-12 2023-05-23 重庆数字城市科技有限公司 一种建筑变形信息提取方法及系统
CN117541810A (zh) * 2023-11-17 2024-02-09 粤港澳大湾区(广东)国创中心 三维特征提取方法、装置、电子设备以及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635843A (zh) * 2018-11-14 2019-04-16 浙江工业大学 一种基于多视角图像的三维物体模型分类方法
CN110941995A (zh) * 2019-11-01 2020-03-31 中山大学 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
CN111209952A (zh) * 2020-01-03 2020-05-29 西安工业大学 基于改进ssd和迁移学习的水下目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635843A (zh) * 2018-11-14 2019-04-16 浙江工业大学 一种基于多视角图像的三维物体模型分类方法
CN110941995A (zh) * 2019-11-01 2020-03-31 中山大学 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
CN111209952A (zh) * 2020-01-03 2020-05-29 西安工业大学 基于改进ssd和迁移学习的水下目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孟乐乐: "融合时空网络与注意力机制的人体行为识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邹辛怀: "基于室外三维点云多视角图像的目标分类与检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016638A (zh) * 2020-10-26 2020-12-01 广东博智林机器人有限公司 一种钢筋簇的识别方法、装置、设备及存储介质
CN112016638B (zh) * 2020-10-26 2021-04-06 广东博智林机器人有限公司 一种钢筋簇的识别方法、装置、设备及存储介质
CN112731522A (zh) * 2020-12-14 2021-04-30 中国地质大学(武汉) 地震地层智能识别方法、装置、设备及存储介质
CN112784782A (zh) * 2021-01-28 2021-05-11 上海理工大学 一种基于多视角双注意网络的三维物体识别方法
CN113052231A (zh) * 2021-03-23 2021-06-29 哈尔滨理工大学 一种基于体素和全局形状分布特征的三维模型分类方法
CN113066187A (zh) * 2021-04-20 2021-07-02 哈尔滨理工大学 一种基于形状特征和卷积神经网络的三维模型分类方法
CN113469198A (zh) * 2021-06-30 2021-10-01 南京航空航天大学 一种基于改进的vgg卷积神经网络模型的图像分类方法
CN115082616A (zh) * 2022-05-18 2022-09-20 北京大学深圳医院 一种基于深度学习的超声图像生成3d点云模型的方法
CN116152151A (zh) * 2022-11-12 2023-05-23 重庆数字城市科技有限公司 一种建筑变形信息提取方法及系统
CN117541810A (zh) * 2023-11-17 2024-02-09 粤港澳大湾区(广东)国创中心 三维特征提取方法、装置、电子设备以及可读存储介质

Similar Documents

Publication Publication Date Title
CN111695494A (zh) 一种基于多视角卷积池化的三维点云数据分类方法
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN109118564B (zh) 一种基于融合体素的三维点云标记方法和装置
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN111242208A (zh) 一种点云分类方法、分割方法及相关设备
Zeng et al. Single image super-resolution using a polymorphic parallel CNN
CN111191514A (zh) 一种基于深度学习的高光谱图像波段选择方法
CN111814874A (zh) 一种用于点云深度学习的多尺度特征提取增强方法及模块
CN113159232A (zh) 一种三维目标分类、分割方法
CN111915629B (zh) 基于边界检测的超像素分割方法
CN113177555A (zh) 基于跨层级跨尺度跨注意力机制的目标处理方法及装置
CN115222998B (zh) 一种图像分类方法
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、系统
CN112784782A (zh) 一种基于多视角双注意网络的三维物体识别方法
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN112348056A (zh) 点云数据分类方法、装置、设备及可读存储介质
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN114693923A (zh) 一种基于上下文和注意力的三维点云语义分割方法
CN114445280B (zh) 一种基于注意力机制的点云下采样方法
CN113139556B (zh) 基于自适应构图的流形多视图图像聚类方法及系统
CN115272696A (zh) 一种基于自适应卷积和局部几何信息的点云语义分割方法
Dalara et al. Entity Recognition in Indian Sculpture using CLAHE and machine learning
CN112767539A (zh) 一种基于深度学习的图像三维重构方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200922