CN114926690A - 一种基于计算机视觉的点云自动化分类方法 - Google Patents

一种基于计算机视觉的点云自动化分类方法 Download PDF

Info

Publication number
CN114926690A
CN114926690A CN202210604961.8A CN202210604961A CN114926690A CN 114926690 A CN114926690 A CN 114926690A CN 202210604961 A CN202210604961 A CN 202210604961A CN 114926690 A CN114926690 A CN 114926690A
Authority
CN
China
Prior art keywords
point cloud
cloud data
preprocessed
neural network
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210604961.8A
Other languages
English (en)
Inventor
刘大洋
邓利平
陈凤金
陈敏
周剑
徐平
刘慕溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Surveying And Mapping Institute Of Guangdong Nuclear Industry Geological Bureau
Original Assignee
Surveying And Mapping Institute Of Guangdong Nuclear Industry Geological Bureau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Surveying And Mapping Institute Of Guangdong Nuclear Industry Geological Bureau filed Critical Surveying And Mapping Institute Of Guangdong Nuclear Industry Geological Bureau
Priority to CN202210604961.8A priority Critical patent/CN114926690A/zh
Publication of CN114926690A publication Critical patent/CN114926690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种基于计算机视觉的点云自动化分类方法,包括以下步骤:获取点云数据,并对所述点云数据进行预处理;对预处理的点云数据进行编码;基于编码的点云数据,建立深度学习的神经网络判别模型;基于所述深度学习的神经网络判别模型,获得点云数据的预测分类结果。本发明通过对点云数据进行编码,并结合深度学习的神经网络技术,通过自主学习的模型达到对点云数据进行分类,提高分类结果的准确性。

Description

一种基于计算机视觉的点云自动化分类方法
技术领域
本发明属于计算机技术领域,尤其涉及一种基于计算机视觉的点云自动化分类方法。
背景技术
随着计算机视觉和人工智能等理论的发展,三维点云在汽车自动驾驶、机器人感知和导航以及虚拟/增强现实等领域中被广泛应用并发挥着重要作用。然而,由于点云具有数据量大、形状不规则、密度不均匀等特点,三维点云的自动分类一直是一个极具挑战性的难题。
由于三维点云的不规则和无序性,传统的卷积神经网络难以直接处理,所以早期基于深度学习的研究工作是将三维点云处理为适用于标准空间卷积的形式,如常规的体素网格或多视图。然而,数据格式转换通常会造成信息丢失,最终导致3D分类性能的下降。此外,采用体素网格或多视图的方法会产生昂贵的计算开销,大大增加了算法的空间复杂度和时间复杂度,因此这类方法不太适合大数据量、大场景点云数据的自动分类。直到2017年,Qi等提出了直接在非结构化的原始点云上进行分类的点云神经网络PointNet,它的基本思想是通过共享的多层感知(Multi-Layer-Perception,简记为MLP)网络学习每个点的特征,然后将所有单独点的特征聚合为全局点云表示,同时采用对称函数(例如最大池化)保证点云顺序的置换不变,最后将聚合后的特征通过全连接层输出一个一维矩阵,矩阵的每一分量对应为点云分类为该类别的分类得分,取具有最高得分的类别作为输入点云的类别。然而,该网络忽视了点与点之间的几何关系,因此不能获取由相邻点构成的局部细粒度特征信息,分类正确率仍有待提高。
发明内容
为解决上述技术问题,本发明提出了一种基于计算机视觉的点云自动化分类方法,通过对点云数据进行编码,并结合深度学习的神经网络技术,通过自主学习的模型达到对点云数据进行分类。
为实现上述目的,本发明提供了一种基于计算机视觉的点云自动化分类方法,包括以下步骤:
获取点云数据,并对所述点云数据进行预处理;
对预处理的点云数据进行编码;
基于编码的点云数据,建立深度学习的神经网络判别模型;
基于所述深度学习的神经网络判别模型,获得点云数据的预测分类结果。
可选地,所述点云数据包括:稀疏点云数据和密集点云数据。
可选地,对所述点云数据进行预处理的方法包括:
去除重复项和剔除异常值,使用线性插值的方法补充缺失值,以及将所述点云数据的时间分辨率统一处理。
可选地,对预处理的点云数据进行编码的方法包括:
对所述预处理的点云数据进行预训练获得若干个编码向量,并对若干个编码向量进行聚合,获得所述预处理的点云数据的表示向量;
基于所述表示向量,获取所述预处理的点云数据中任两个点云的邻接关系。
可选地,对所述预处理的点云数据进行预训练获得若干个编码向量的方法包括:
采用预训练语言模型BERT的若干层Transformer作为预训练的编码器;
基于所述编码器,将所述预处理的点云数据中的若干个标记编码为若干个分布式表示向量,将所述分布式表示向量作为所述编码向量。
可选地,获得所述预处理的点云数据的表示向量的方法包括:
基于注意力机制,对所述编码向量进行均值池化,获得向量表示;
将所有所述向量表示集合成表示矩阵,将所述表示矩阵作为所述预处理的点云数据的表示向量。
可选地,获取所述预处理的点云数据中任两个点云的邻接关系的方法包括:
基于双线性机制预测任意两个点云间的邻接关系,获得若干个任意两个点云间的关系强度系数;
将若干个所述关系强度系数构成矩阵并进行归一化,获得关系矩阵;
基于所述关系矩阵获得所述预处理的点云数据中任两个点云的邻接关系。
可选地,建立深度学习的神经网络判别模型的方法为:
基于所述编码的点云数据划分为训练集与测试集;
构建深度学习的神经网络;
基于所述训练集对所述深度学习的神经网络进行训练,基于所述测试集对训练后的所述深度学习的神经网络进行测试,获得深度学习的神经网络判别模型。
与现有技术相比,本发明具有如下优点和技术效果:
本发明提供一种基于计算机视觉的点云自动化分类方法,便于对复杂的物体实现自动分类识别。通过获取点云数据,并对点云数据进行预处理;对预处理的点云数据进行编码;基于编码的点云数据,建立深度学习的神经网络判别模型;基于深度学习的神经网络判别模型,获得点云数据的预测分类结果,提高了分类精度和准确性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的一种基于计算机视觉的点云自动化分类方法流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,本实施例提供了一种基于计算机视觉的点云自动化分类方法,包括以下步骤:
获取点云数据,并对点云数据进行预处理;
对预处理的点云数据进行编码;
基于编码的点云数据,建立深度学习的神经网络判别模型;
基于深度学习的神经网络判别模型,获得点云数据的预测分类结果。
具体地,点云数据包括:稀疏点云数据和密集点云数据。
具体地,对点云数据进行预处理的方法包括:
去除重复项和剔除异常值,使用线性插值的方法补充缺失值,以及将点云数据的时间分辨率统一处理。
具体地,对预处理的点云数据进行编码的方法包括:
对预处理的点云数据进行预训练获得若干个编码向量,并对若干个编码向量进行聚合,获得预处理的点云数据的表示向量;
基于表示向量,获取预处理的点云数据中任两个点云的邻接关系。
具体地,对预处理的点云数据进行预训练获得若干个编码向量的方法包括:
采用预训练语言模型BERT的若干层Transformer作为预训练的编码器;
基于编码器,将预处理的点云数据中的若干个标记编码为若干个分布式表示向量,将分布式表示向量作为编码向量。
具体地,获得预处理的点云数据的表示向量的方法包括:
基于注意力机制,对编码向量进行均值池化,获得向量表示;
将所有向量表示集合成表示矩阵,将表示矩阵作为预处理的点云数据的表示向量。
具体地,获取预处理的点云数据中任两个点云的邻接关系的方法包括:
基于双线性机制预测任意两个点云间的邻接关系,获得若干个任意两个点云间的关系强度系数;
将若干个关系强度系数构成矩阵并进行归一化,获得关系矩阵;
基于关系矩阵获得预处理的点云数据中任两个点云的邻接关系。
进一步地,给定点云数据X,GraphBERT首先利用BERT的第1至s_0层Transformer作为编码器,得到点云数据所包含的各个token(标记)的编码向量。随后,利用点云数据表示聚合器模块,得到点云数据的表示向量。
具体而言,对于X={X_1,…,X_(t+1)},其中X_i={x_1,…,x_(l_i)}为X中的一个点云数据,第s_0层Transformer能够给将X中包含的各个token编码为分布式表示向量H^(s_0)={(h_1^1,…,h_(l_1)^1),…,(h_1^(t+1),…,h_(l_(t+1))^(t+1))},其中h_j^i∈R^(1×d)是X_i中第j个token的表示向量。
随后,基于注意力机制实现了点云数据表示聚合器模块。其中注意力机制中的Query定义为H_i的均值池化,即q_i=1/l_i∑h_l^i,同时令Key和Value矩阵均等于H^((s_1))。如此,点云数据X_i的向量表示可以按如下方式得到:
e^_i=MultiAttn(q_i,H_i^((s_1)))
对于点云数据链X中的T+1个点云数据而言,他们的向量表示组成了一个表示矩阵E^={e^_1,…,e^_(t+1)}。注意到,E^是从BERT内部的Transformer层中获得。以这种方法,GraphBERT能够利用BERT中蕴含的丰富语言学信息,得到高质量的点云数据表示。
随后,GraphBERT利用这些(深度)点云数据表示估计点云数据间邻接关系。
进一步地,给定点云数据表示矩阵E^,GraphBERT引入了一个点云数据关系推断器模块,以利用E^估计X中任两个点云数据间的邻接关系。点云数据关系推断器模块的输出是一个(t+1)×(t+1)的矩阵A^,A^中每个元素A^_ij代表点云数据i与点云数据j之间的邻接关系。从而,在测试阶段对于任意两个点云数据,GraphBERT可以利用点云数据关系推断器预测出其邻接关系。
为此,GraphBERT首先基于图注意力机制(GAT)升级点云数据表示。GAT需要已知每个点的邻接点。对于点云数据i,因为其邻接关系事先未知,因而将i的邻域定义为N_i={X_j},其中X_j∈X,j≠i,α_ij=softmax_(j,j∈N_i)(Relu(u[W_α||W_αe^_j]))
e^_i=σ(∑_(j∈N_i)^α_ij W_αe^_j)
其中u∈R^(1×2d),W_α∈R^(d×d)均为可训练参数,·||·为拼接操作。
随后,利用一个双线性机制预测两个点云数据之间的邻接关系:
Γ_ij=(e^_i^n W_R T(e^_j^n))
其中W_R∈R^(d×d)为可训练参数,T(·)为转置操作。对于X中的所有t+1个点云数据,任意两个点云数据X_i与X_j间的关系强度系数Γ_ij形成一个矩阵Γ∈R^((t+1)×(t+1))。通过进一步将Γ归一化:
A^_ij=softmax_j(Γ_ij)
可得∑_j^A^_ij=1。
具体地,建立深度学习的神经网络判别模型的方法为:
基于编码的点云数据划分为训练集与测试集;
构建深度学习的神经网络;
基于训练集对深度学习的神经网络进行训练,基于测试集对训练后的深度学习的神经网络进行测试,获得深度学习的神经网络判别模型。
进一步地,在进行深度学习的数据分析前,一般会进行可视化,用以对点云数据进行直观了解。当我们想要对高维点云数据进行分类但是又不确定点云数据是否可分时,先对点云数据进行降维,把点云数据投到二维或三维空间中观察,若在低维空间中是可分的,则点云数据可分。目前来说t-SNE是效果最好的数据降维和可视化方法。
鉴于以上结论,需要对点云数据进行深度学习训练。由于这些点云数据均可做为相互独立的数据,所以可把点云数据进行排列组合,为简化训练过程,每个排列组合仅产生100000个数据点,然后随机选取五分之四的数据作为训练集,剩下五分之一作为测试集。
把训练集的数据组输入Keras模型中让其进行自主学习和结果收敛,构建了一个三层的神经网络模型(输入层一般不算一层神经网络,图中中间层就是隐含层,为两个隐含层的神经网络)。
神经网络具体的参数为;第一层有128个神经元,选取‘relu’激活方式,dropout的比率为0.5,第二层也有128个神经元,同样选取‘relu’激活方式,dropout的比率为0.5,第三层有2个神经元(因为是2种点云数据),采用‘softmax’激活方式。
从二十万个数据中随机抽取五分之四作为训练集供神经网络学习,在经过不停的迭代学习后,可以得到一个成型的神经网络模型。然后输入测试集中的数据对模型进行测试,所得到的结果为模型的精确程度是93.84%,误差仅为0.198。此时的各个参数所对应的模型为所需要的模型。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种基于计算机视觉的点云自动化分类方法,其特征在于,包括以下步骤:
获取点云数据,并对所述点云数据进行预处理;
对预处理的点云数据进行编码;
基于编码的点云数据,建立深度学习的神经网络判别模型;
基于所述深度学习的神经网络判别模型,获得点云数据的预测分类结果。
2.根据权利要求1所述的基于计算机视觉的点云自动化分类方法,其特征在于,所述点云数据包括:稀疏点云数据和密集点云数据。
3.根据权利要求1所述的基于计算机视觉的点云自动化分类方法,其特征在于,对所述点云数据进行预处理的方法包括:
去除重复项和剔除异常值,使用线性插值的方法补充缺失值,以及将所述点云数据的时间分辨率统一处理。
4.根据权利要求1所述的基于计算机视觉的点云自动化分类方法,其特征在于,对预处理的点云数据进行编码的方法包括:
对所述预处理的点云数据进行预训练获得若干个编码向量,并对若干个编码向量进行聚合,获得所述预处理的点云数据的表示向量;
基于所述表示向量,获取所述预处理的点云数据中任两个点云的邻接关系。
5.根据权利要求4所述的基于计算机视觉的点云自动化分类方法,其特征在于,对所述预处理的点云数据进行预训练获得若干个编码向量的方法包括:
采用预训练语言模型BERT的若干层Transformer作为预训练的编码器;
基于所述编码器,将所述预处理的点云数据中的若干个标记编码为若干个分布式表示向量,将所述分布式表示向量作为所述编码向量。
6.根据权利要求5所述的基于计算机视觉的点云自动化分类方法,其特征在于,获得所述预处理的点云数据的表示向量的方法包括:
基于注意力机制,对所述编码向量进行均值池化,获得向量表示;
将所有所述向量表示集合成表示矩阵,将所述表示矩阵作为所述预处理的点云数据的表示向量。
7.根据权利要求4所述的基于计算机视觉的点云自动化分类方法,其特征在于,获取所述预处理的点云数据中任两个点云的邻接关系的方法包括:
基于双线性机制预测任意两个点云间的邻接关系,获得若干个任意两个点云间的关系强度系数;
将若干个所述关系强度系数构成矩阵并进行归一化,获得关系矩阵;
基于所述关系矩阵获得所述预处理的点云数据中任两个点云的邻接关系。
8.根据权利要求1所述的基于计算机视觉的点云自动化分类方法,其特征在于,建立深度学习的神经网络判别模型的方法为:
基于所述编码的点云数据划分为训练集与测试集;
构建深度学习的神经网络;
基于所述训练集对所述深度学习的神经网络进行训练,基于所述测试集对训练后的所述深度学习的神经网络进行测试,获得深度学习的神经网络判别模型。
CN202210604961.8A 2022-05-31 2022-05-31 一种基于计算机视觉的点云自动化分类方法 Pending CN114926690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210604961.8A CN114926690A (zh) 2022-05-31 2022-05-31 一种基于计算机视觉的点云自动化分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210604961.8A CN114926690A (zh) 2022-05-31 2022-05-31 一种基于计算机视觉的点云自动化分类方法

Publications (1)

Publication Number Publication Date
CN114926690A true CN114926690A (zh) 2022-08-19

Family

ID=82812886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210604961.8A Pending CN114926690A (zh) 2022-05-31 2022-05-31 一种基于计算机视觉的点云自动化分类方法

Country Status (1)

Country Link
CN (1) CN114926690A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829399A (zh) * 2019-01-18 2019-05-31 武汉大学 一种基于深度学习的车载道路场景点云自动分类方法
CN112287939A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 三维点云语义分割方法、装置、设备及介质
CN112488210A (zh) * 2020-12-02 2021-03-12 北京工业大学 一种基于图卷积神经网络的三维点云自动分类方法
CN112614071A (zh) * 2020-12-29 2021-04-06 清华大学 基于自注意力的多样点云补全方法和装置
CN114398500A (zh) * 2022-01-29 2022-04-26 哈尔滨工业大学 一种基于图增强预训练模型的事件预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829399A (zh) * 2019-01-18 2019-05-31 武汉大学 一种基于深度学习的车载道路场景点云自动分类方法
CN112287939A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 三维点云语义分割方法、装置、设备及介质
CN112488210A (zh) * 2020-12-02 2021-03-12 北京工业大学 一种基于图卷积神经网络的三维点云自动分类方法
CN112614071A (zh) * 2020-12-29 2021-04-06 清华大学 基于自注意力的多样点云补全方法和装置
CN114398500A (zh) * 2022-01-29 2022-04-26 哈尔滨工业大学 一种基于图增强预训练模型的事件预测方法

Similar Documents

Publication Publication Date Title
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN109919204B (zh) 一种面向噪声图像的深度学习聚类方法
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
Qiu et al. Improved denoising autoencoder for maritime image denoising and semantic segmentation of USV
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN112819873B (zh) 高泛化性的跨域道路场景语义分割方法和系统
CN114445420A (zh) 编解码结构结合注意力机制的图像分割模型及其训练方法
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN112489168A (zh) 一种图像数据集生成制作方法、装置、设备及存储介质
CN113658322A (zh) 一种基于视觉transformer的三维重建体素方法
CN112634438A (zh) 基于对抗网络的单帧深度图像三维模型重建方法及装置
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN115249321A (zh) 训练神经网络的方法、训练神经网络的系统以及神经网络
Bounsaythip et al. Genetic algorithms in image processing-a review
CN116012930A (zh) 一种基于深度学习卷积神经网络的维度表情识别方法
CN115965789A (zh) 一种基于场景感知类注意力的遥感图像语义分割方法
CN116485867A (zh) 一种面向自动驾驶的结构化场景深度估计方法
CN116188543A (zh) 基于深度学习无监督的点云配准方法及系统
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
CN113538662B (zh) 一种基于rgb数据的单视角三维物体重建方法及装置
Gadasin et al. Application of Convolutional Neural Networks for Three-Dimensional Reconstruction of the Geometry of Objects in the Image
CN113096239B (zh) 一种基于深度学习的三维点云重建方法
CN114462486A (zh) 图像处理模型的训练方法、图像处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220819

RJ01 Rejection of invention patent application after publication