CN115546302A - 一种局部几何建模的点云数据解算方法 - Google Patents
一种局部几何建模的点云数据解算方法 Download PDFInfo
- Publication number
- CN115546302A CN115546302A CN202211285950.4A CN202211285950A CN115546302A CN 115546302 A CN115546302 A CN 115546302A CN 202211285950 A CN202211285950 A CN 202211285950A CN 115546302 A CN115546302 A CN 115546302A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- cloud data
- grabbing
- data
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0014—Image feed-back for automatic industrial control, e.g. robot with camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Robotics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种局部几何建模的点云数据解算方法,包括:由全局特征编码器对多尺度特征映射层输出的特征进行注意力操作得到全局特征;由方向解码器学习点云上的每个采样点的可抓取性以及方向向量,预测可抓取方向;以及由操作解码器预测可抓取方向上的平面旋转以及抓取深度、宽度。该方法能够充分挖掘点数数据的几何结构信息,输出一定范围内的最稳定的抓取,并且该方法的模型采用端到端的编码器解码器结构,可以并行输出预测的抓取参数。
Description
技术领域
本发明涉及空间抓取技术领域,尤其涉及一种局部几何建模的点云数据解算方法。
背景技术
空间抓取是智能硬件感知方向中最核心、最基本的任务之一,是智能硬件如机械臂进行复杂运动的前提与基础。并且,空间抓取算法也是解放人类双手,从而实现工业信息化、产业智能化的重要方向之一,未来会计划应用于工业制造、物流分拣、太空无人操作等。空间抓取的主要任务是通过对物体的三维数据等进行解析,计算出多组包括抓取点坐标,抓取点姿态信息,抓取宽度的数据信息,利用这些信息,可以实现物体的稳定抓取。
从输入的三维数据格式来分,可以分为基于点云、基于体素的方法。
基于点云的空间抓取模型。针对点云数据无序性以及离散型,PointNet以及PointNet++等衍生网络是提取点云特征的主要方法,其特点是利用最大上采样操作来解决点云数据表示的无序性问题,同时利用集合聚合(Set Aggregation)操作处理多尺度信息,实现了点云数据的有效解析。然而由于抓取问题对物体的结构信息尤其是局部几何结构非常敏感与点云数据结构稀疏、离散之间的矛盾,现有的点云数据解析方法对抓取问题的应用表现效果不理想,没有充分挖掘点数数据的几何结构信息。而且现有的模型没有实现真正的端到端,姿态解析模型复杂冗余。
发明内容
本发明的任务是提供一种局部几何建模的点云数据解算方法,能够充分挖掘点数数据的几何结构信息,输出一定范围内的最稳定的抓取,并且该方法的模型采用端到端的编码器解码器结构,可以并行输出预测的抓取参数。
针对现有技术中存在的问题,本发明提供一种局部几何建模的点云数据解算方法,包括:
由全局特征编码器对多尺度特征映射层输出的特征进行注意力操作得到全局特征;
由方向解码器学习点云上的每个采样点的可抓取性以及方向向量,预测可抓取方向;以及
由操作解码器预测可抓取方向上的平面旋转以及抓取深度、宽度。
在本发明的一个实施例中,还包括:
从原始数据集中提取点云数据和标注信息;
对原始数据集进行预处理及数据增强得到建模数据集;
将建模数据集分为训练集和测试集;
以训练集作为输入,经过多尺度特征映射层处理后得到语义特征和几何特征。
在本发明的一个实施例中,注意力的计算公式如下:
其中Q,K,V分别为特征经过映射后的查询,待查询,值矩阵,d为特征维度,Softmax(.)为归一化指数函数。
在本发明的一个实施例中,由方向解码器预测可抓取方向包括:
在每个采样点上以球面的形式均匀采样300个方向;
方向解码器计算300个方向的方向置信度,并从300个方向中选取一个方向置信度最高的方向作为可抓取方向。
在本发明的一个实施例中,所述方向解码器或所述操作解码器首先将抓取查询特征进行自注意力计算,之后抓取查询特征与所述全局特征进行交叉注意力计算以学习局部的特征。
在本发明的一个实施例中,进行交叉注意力计算时,设置查询半径,每个抓取查询特征与查询半径内的全局特征进行交叉注意力计算。
在本发明的一个实施例中,还包括将傅里叶位置编码信息加入到抓取查询特征中。
在本发明的一个实施例中,根据预测的可抓取方向,利用所述可抓取方向的方向编码作为嵌入和抓取查询特征一起输入所述操作解码器。
在本发明的一个实施例中,所述对原始数据集进行预处理包括:
每个场景随机采样两万个点,若一次采样不够两万个点,则重复采样;
根据每个场景中的单个物体的位姿得到当前场景下的标签;和/或
所述对原始数据集进行数据增强包括:
随机将每个场景沿着YZ平面进行反转或者沿着Z轴进行旋转,旋转角度在-30度~+30度之间。
在本发明的一个实施例中,将所述建模数据集分为训练集和测试集,其中训练集包含100个场景,每个场景包含256个点云数据,测试集包含90个场景,每个场景包含256个点云数据;
将所述测试集平均分成三份,其中第一份测试集中的物体出现在训练集,第二份测试集中的物体与训练集中的物体形状相近,第三份测试集中的物体未出现在训练集。
在本发明的一个实施例中,还包括:
输出映射层将预测的结果与标签结果进行损失计算,并反向传播更新基于Transformer的多尺度抓取模型的参数,其中基于Transformer的多尺度抓取模型的预测包括抓取方向的方向向量、抓取中心、平面旋转矩阵、抓取宽度、抓取置信度以及抓取深度。
本发明至少具有下列有益效果:本发明公开的一种局部几何建模的点云数据解算方法,利用基于Transformer的多尺度抓取模型的强大的全局建模能力来对点云数据进行解析,同时为每个抓取查询添加傅里叶位置编码信息和可学习的方向信息,利用抓取查询特征和编码器输出的特征进行交叉注意力机制,进一步融合局部特征,能够充分挖掘点数数据的几何结构信息,输出一定范围内的最稳定的抓取;并且该方法的模型采用端到端的编码器解码器结构,多个模块之间能够进行信息沟通,可以并行输出预测的抓取参数。
附图说明
为了进一步阐明本发明的各实施例的以上和其它优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。
图1示出了根据本发明一个实施例的一种局部几何建模的点云数据解算方法的流程。
图2示出了根据本发明一个实施例的基于Transformer的多尺度抓取模型的模型架构流程。
具体实施方式
应当指出,各附图中的各组件可能为了图解说明而被夸大地示出,而不一定是比例正确的。
在本发明中,各实施例仅仅旨在说明本发明的方案,而不应被理解为限制性的。
在本发明中,除非特别指出,量词“一个”、“一”并未排除多个元素的场景。
在此还应当指出,在本发明的实施例中,为清楚、简单起见,可能示出了仅仅一部分部件或组件,但是本领域的普通技术人员能够理解,在本发明的教导下,可根据具体场景需要添加所需的部件或组件。
在此还应当指出,在本发明的范围内,“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等,而是允许一定的合理误差,也就是说,所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。
在此还应当指出,在本发明的描述中,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性。
另外,本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出,各方法步骤可以以不同顺序执行。
在传统的针对智能硬件感知的方法,如机器人抓取中,往往存在对点云数据的几何结构解析不彻底或者分阶段式的处理抓取位姿信息的问题,如将空间中的抓取姿态分成抓取方向,沿抓取方向的平面旋转,沿抓取方向的抓取深度等阶段性的进行独立的学习,造成模型结构复杂冗余、单独的学习模块之间相互隔绝。在这种情况下,发明人认为一个端到端的,且融合全局几何信息的空间抓取姿态网络模型可以提供更加准确、鲁棒的效果。
图1示出了根据本发明一个实施例的一种局部几何建模的点云数据解算方法的流程。
如图1所示,一种局部几何建模的点云数据解算方法包括数据处理、模型设计、实验验证三个阶段。
首先是对数据集进行处理得到用于建模的训练集和测试使用的测试集。利用训练集训练基于Transformer的多尺度抓取模型。得到基于Transformer的多尺度抓取模型后还需要利用测试集进行测试,判断模型的性能。最后利用基于Transformer的多尺度抓取模型进行实验验证。
在数据处理阶段,选取的是人工标注的真实数据集作为原始数据集,该原始数据集涵盖场景点云信息、碰撞检测标签、抓取姿态标签等信息。从原始数据集中提取点云数据和标注信息,其中点云数据包括场景点云信息,标注信息包括碰撞检测标签、抓取姿态标签。
之后对原始数据集进行预处理及数据增强得到建模数据集,为模型训练提供可靠的数据输入。由于原始点云数据过大并且每个场景的点云数目不一样,所以数据预处理的主要过程是每个场景随机采样两万个点,若一次采样不够两万个点,则重复采样。原始数据集标注的是单个物体的标签,数据预处理还包括根据每个场景中的单个物体的位姿得到当前场景下的标签。
数据增强主要是为了让模型更具有鲁棒性,所以随机将每个场景沿着YZ平面进行反转,或者沿着Z轴进行旋转,旋转角度在-30度~+30度之间。
在此,将数据预处理和数据增强后的建模数据集分为训练集和测试集,其中训练集包含100个场景,每个场景包含256个点云数据,测试集包含90个场景,每个场景包含256个点云数据。同时进一步将测试集平均分成三份,其中第一份测试集中的物体在训练集中出现过,第二份测试集中的物体与训练集中的物体形状相近,第三份测试集中的物体没有在训练集中出现过。
图2示出了根据本发明一个实施例的基于Transformer的多尺度抓取模型的模型架构流程。
在模型设计阶段,建立了基于Transformer的多尺度抓取模型。模型的架构图如2图所示,其中模型的主体由全局特征编码器、方向解码器、操作解码器组成。
训练集作为输入,经过多尺度特征映射层处理后得到语义特征和几何特征。
全局特征编码器。全局特征编码器对多尺度特征映射层输出的特征进行注意力操作得到全局特征,其中注意力的计算公式如下:
其中Q,K,V分别为特征经过映射后的查询,待查询,值矩阵,d为特征维度,Softmax(.)为归一化指数函数。全局特征编码器期望对点云整体的特征进行建模,从而后续可以利用查询特征来进行有效的解码。
方向解码器。方向解码器学习点云上的每个采样点的可抓取性(可抓取信息)以及方向向量(方向信息),其中在每个采样点上以球面的形式均匀采样300个角度(方向)以供学习。这个采样点是点云中的点。方向解码器预测可抓取方向。方向解码器计算300个方向的方向置信度,从300个方向中选取一个方向置信度最高的方向作为可抓取方向。方向解码器首先将抓取查询特征进行自注意力计算,之后抓取查询特征会与全局特征进行交叉注意力计算以学习局部的特征。同时在进行交叉注意力计算时,人为设置一个查询半径,每个抓取查询特征只会与查询半径内的全局特征进行交叉注意力计算,这样有利于模型的收敛以及加强局部特征的学习。额外的,因为注意力机制缺少对位置信息,所以会将傅里叶位置编码信息加入到抓取查询特征中。在方向解码器将抓取查询特征进行自注意力计算时以及抓取查询特征会与全局特征进行交叉注意力计算时,傅里叶位置编码信息就已经加入到了抓取查询特征中。
操作解码器。操作解码器负责预测由方向解码器预测的可抓取方向上的平面旋转以及抓取深度、宽度。由于方向解码器已经预测点云上每个采样点的可抓取方向,因此根据预测的可抓取方向,利用这个可抓取方向的可学习的方向编码(方向的向量)作为嵌入和抓取查询特征一起输入操作解码器,来加强操作解码器的学习能力。同样的,操作解码器中,抓取查询特征首先会进行自注意力计算操作,之后会与全局特征进行交叉注意力计算操作,以及人为设置查询半径。同样将傅里叶位置编码信息加入到抓取查询特征中。
输出映射层将预测的结果与标签结果进行损失计算,并反向传播更新基于Transformer的多尺度抓取模型的参数。基于Transformer的多尺度抓取模型的最终预测包括作为抓取方向一个方向向量、一个抓取中心、一个平面旋转矩阵、一个抓取宽度、一个抓取置信度以及一个抓取深度。根据这些输出就能得到一个空间抓取姿态,实现准确的抓取。上述方法具有更高效、更准确的点云数据感知能力,由于Transformer在自然语言处理任务及图片分类、检测任务上的优秀表现,上述方法引入了Transformer结构来提高现有抓取任务的准确度,提高机器人感知外界的能力。类比人的抓取倾向以及抓取任务的特点(局部几何特征比全局几何特征更为重要),上述方法更注重物体的局部特征,引入了基于掩码机制的查询半径,限制了每个查询特征的查询范围,在解码阶段进一步融合局部几何特征即实现了对抓取点周围局部几何的建模,同时也加快了模型的收敛速度。
由于使用了Transformer结构,相比较其他方法的复杂、冗余模型结构,上述方法的模型结构较为简单,其中编码器、解码器均为简单堆叠的注意力模块。同时,抓取方向对抓取任务的成功率影响很大,并且传统方法没有考虑点云数据中不同采样点之间的相同可抓取方向性关系,因此本发明提出了可学习的方向嵌入特征模块。此模块利用方向解码器预测的方向序号显示的从方向嵌入特征模块中抽取对应的方向特征,并与傅里叶位置编码一起加入操作编码器中进行后续计算,加强了不同采样点上相同抓取方向的特征联系。
本发明的技术方案所得出的基于Transformer的多尺度抓取模型以及利用该模型的局部几何建模的点云数据解算方法,可在空间抓取领域中用于实现如下技术效果:能够充分挖掘点数数据的几何结构信息,提升了抓取的精准度,该方法的模型采用端到端的编码器解码器结构,多个模块之间能够进行信息沟通,可以并行输出预测的抓取参数,提高了运算速度。
可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品,这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时,可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。
此外,可以作为计算机程序产品下载各实施例,其中,可以经由通信链路(例如,调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如,服务器)传输给请求计算机(例如,客户机)。因此,在此所使用的机器可读介质可以包括这样的载波,但对此不作要求。
本发明至少具有下列有益效果:本发明公开的一种局部几何建模的点云数据解算方法,利用基于Transformer的多尺度抓取模型的强大的全局建模能力来对点云数据进行解析,同时为每个抓取查询添加傅里叶位置编码信息和可学习的方向信息,利用抓取查询特征和编码器输出的特征进行交叉注意力机制,进一步融合局部特征,能够充分挖掘点数数据的几何结构信息,输出一定范围内的最稳定的抓取;并且该方法的模型采用端到端的编码器解码器结构,多个模块之间能够进行信息沟通,可以并行输出预测的抓取参数。
虽然本发明的一些实施方式已经在本申请文件中予以了描述,但是本领域技术人员能够理解,这些实施方式仅仅是作为示例示出的。本领域技术人员在本发明的教导下可以想到众多的变型方案、替代方案和改进方案而不超出本发明的范围。所附权利要求书旨在限定本发明的范围,并借此涵盖这些权利要求本身及其等同变换的范围内的方法和结构。
Claims (11)
1.一种局部几何建模的点云数据解算方法,其特征在于,包括:
由全局特征编码器对多尺度特征映射层输出的特征进行注意力操作得到全局特征;
由方向解码器学习点云上的每个采样点的可抓取性以及方向向量,预测可抓取方向;以及
由操作解码器预测可抓取方向上的平面旋转以及抓取深度、宽度。
2.根据权利要求1所述的局部几何建模的点云数据解算方法,其特征在于,还包括:
从原始数据集中提取点云数据和标注信息;
对原始数据集进行预处理及数据增强得到建模数据集;
将建模数据集分为训练集和测试集;
以训练集作为输入,经过多尺度特征映射层处理后得到语义特征和几何特征。
4.根据权利要求1所述的局部几何建模的点云数据解算方法,其特征在于,由方向解码器预测可抓取方向包括:
在每个采样点上以球面的形式均匀采样300个方向;
方向解码器计算300个方向的方向置信度,并从300个方向中选取一个方向置信度最高的方向作为可抓取方向。
5.根据权利要求4所述的局部几何建模的点云数据解算方法,其特征在于,所述方向解码器或所述操作解码器首先将抓取查询特征进行自注意力计算,之后抓取查询特征与所述全局特征进行交叉注意力计算以学习局部的特征。
6.根据权利要求5所述的局部几何建模的点云数据解算方法,其特征在于,进行交叉注意力计算时,设置查询半径,每个抓取查询特征与查询半径内的全局特征进行交叉注意力计算。
7.根据权利要求5所述的局部几何建模的点云数据解算方法,其特征在于,还包括将傅里叶位置编码信息加入到抓取查询特征中。
8.根据权利要求1所述的局部几何建模的点云数据解算方法,其特征在于,根据预测的可抓取方向,利用所述可抓取方向的方向编码作为嵌入和抓取查询特征一起输入所述操作解码器。
9.根据权利要求2所述的局部几何建模的点云数据解算方法,其特征在于,所述对原始数据集进行预处理包括:
每个场景随机采样两万个点,若一次采样不够两万个点,则重复采样;
根据每个场景中的单个物体的位姿得到当前场景下的标签;和/或
所述对原始数据集进行数据增强包括:
随机将每个场景沿着YZ平面进行反转或者沿着Z轴进行旋转,旋转角度在-30度~+30度之间。
10.根据权利要求2所述的局部几何建模的点云数据解算方法,其特征在于,将所述建模数据集分为训练集和测试集,其中训练集包含100个场景,每个场景包含256个点云数据,测试集包含90个场景,每个场景包含256个点云数据;
将所述测试集平均分成三份,其中第一份测试集中的物体出现在训练集,第二份测试集中的物体与训练集中的物体形状相近,第三份测试集中的物体未出现在训练集。
11.根据权利要求2所述的局部几何建模的点云数据解算方法,其特征在于,还包括:
输出映射层将预测的结果与标签结果进行损失计算,并反向传播更新基于Transformer的多尺度抓取模型的参数,其中基于Transformer的多尺度抓取模型的预测包括抓取方向的方向向量、抓取中心、平面旋转矩阵、抓取宽度、抓取置信度以及抓取深度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211285950.4A CN115546302A (zh) | 2022-10-20 | 2022-10-20 | 一种局部几何建模的点云数据解算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211285950.4A CN115546302A (zh) | 2022-10-20 | 2022-10-20 | 一种局部几何建模的点云数据解算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546302A true CN115546302A (zh) | 2022-12-30 |
Family
ID=84735069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211285950.4A Pending CN115546302A (zh) | 2022-10-20 | 2022-10-20 | 一种局部几何建模的点云数据解算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546302A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417618A (zh) * | 2020-11-20 | 2021-02-26 | 北京工商大学 | 一种四维时空感知的大场景自由弯曲管路检测及点云补全方法 |
WO2021253430A1 (zh) * | 2020-06-19 | 2021-12-23 | 深圳市大疆创新科技有限公司 | 绝对位姿确定方法、电子设备及可移动平台 |
CN114140586A (zh) * | 2022-01-29 | 2022-03-04 | 苏州工业园区测绘地理信息有限公司 | 面向室内空间的三维建模方法、装置和存储介质 |
CN114211490A (zh) * | 2021-12-17 | 2022-03-22 | 中山大学 | 一种基于Transformer模型的机械臂抓手位姿预测方法 |
CN114363633A (zh) * | 2021-12-30 | 2022-04-15 | 中山大学 | 基于全自注意力网络的深度点云压缩编码方法 |
WO2022166400A1 (zh) * | 2021-02-05 | 2022-08-11 | 中国科学院深圳先进技术研究院 | 一种处理三维点云的方法、装置、设备以及存储介质 |
CN114973422A (zh) * | 2022-07-19 | 2022-08-30 | 南京应用数学中心 | 一种基于三维人体建模点云特征编码的步态识别方法 |
-
2022
- 2022-10-20 CN CN202211285950.4A patent/CN115546302A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021253430A1 (zh) * | 2020-06-19 | 2021-12-23 | 深圳市大疆创新科技有限公司 | 绝对位姿确定方法、电子设备及可移动平台 |
CN112417618A (zh) * | 2020-11-20 | 2021-02-26 | 北京工商大学 | 一种四维时空感知的大场景自由弯曲管路检测及点云补全方法 |
WO2022166400A1 (zh) * | 2021-02-05 | 2022-08-11 | 中国科学院深圳先进技术研究院 | 一种处理三维点云的方法、装置、设备以及存储介质 |
CN114211490A (zh) * | 2021-12-17 | 2022-03-22 | 中山大学 | 一种基于Transformer模型的机械臂抓手位姿预测方法 |
CN114363633A (zh) * | 2021-12-30 | 2022-04-15 | 中山大学 | 基于全自注意力网络的深度点云压缩编码方法 |
CN114140586A (zh) * | 2022-01-29 | 2022-03-04 | 苏州工业园区测绘地理信息有限公司 | 面向室内空间的三维建模方法、装置和存储介质 |
CN114973422A (zh) * | 2022-07-19 | 2022-08-30 | 南京应用数学中心 | 一种基于三维人体建模点云特征编码的步态识别方法 |
Non-Patent Citations (3)
Title |
---|
SHENG, HL ET.AL: "Improving 3D Object Detection with Channel-wise Transformer", 2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2021), 1 January 2021 (2021-01-01), pages 2723 - 2732 * |
徐小薇: "基于深度学习的三维点云去噪算法研究", 万方学位论文全文数据库, 12 August 2022 (2022-08-12), pages 1 - 20 * |
王栋: "基于视觉的机械臂目标跟踪与抓取方法研究", 中国优秀硕士论文全文数据库, no. 1, 15 January 2022 (2022-01-15), pages 1 - 94 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN112445876B (zh) | 融合结构、属性和关系信息的实体对齐方法和系统 | |
CN113327279B (zh) | 一种点云数据处理方法、装置、计算机设备及存储介质 | |
CN112529020B (zh) | 基于神经网络的动物识别方法、系统、设备及存储介质 | |
CN112163596B (zh) | 复杂场景文本识别方法、系统、计算机设备及存储介质 | |
CN111784041A (zh) | 一种基于图卷积神经网络的风电功率预测方法及系统 | |
Shen et al. | Vehicle detection in aerial images based on lightweight deep convolutional network and generative adversarial network | |
AU2020316538A1 (en) | Meteorological parameter-based high-speed train positioning method and system in navigation blind zone | |
Li et al. | Multi‐scale attention encoder for street‐to‐aerial image geo‐localization | |
CN112819080B (zh) | 一种高精度通用的三维点云识别方法 | |
CN112733701A (zh) | 一种基于胶囊网络的鲁棒场景识别方法及系统 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN113011568A (zh) | 一种模型的训练方法、数据处理方法及设备 | |
CN114373099A (zh) | 一种基于稀疏图卷积的三维点云分类方法 | |
Yin et al. | Pse-match: A viewpoint-free place recognition method with parallel semantic embedding | |
CN114926742A (zh) | 一种基于二阶注意力机制的回环检测及优化方法 | |
CN115063585A (zh) | 一种无监督语义分割模型的训练方法及相关装置 | |
CN111291695A (zh) | 人员违章行为识别模型训练方法、识别方法及计算机设备 | |
Shi et al. | Object Detection Based on Swin Deformable Transformer-BiPAFPN-YOLOX | |
CN117079132A (zh) | 基于高斯距离损失的遥感图像目标检测方法 | |
CN115546302A (zh) | 一种局部几何建模的点云数据解算方法 | |
CN112699776B (zh) | 训练样本优化方法、目标检测模型生成方法、设备及介质 | |
Yang et al. | UAV Landmark Detection Based on Convolutional Neural Network | |
CN113221628A (zh) | 基于人体骨架点云交互学习的视频暴力识别方法、系统及介质 | |
CN114485694A (zh) | 用于自动检测建筑物覆盖区的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |