CN113838113A - 三维物体识别方法和装置 - Google Patents
三维物体识别方法和装置 Download PDFInfo
- Publication number
- CN113838113A CN113838113A CN202111106903.4A CN202111106903A CN113838113A CN 113838113 A CN113838113 A CN 113838113A CN 202111106903 A CN202111106903 A CN 202111106903A CN 113838113 A CN113838113 A CN 113838113A
- Authority
- CN
- China
- Prior art keywords
- feature
- point cloud
- view
- features
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000000605 extraction Methods 0.000 claims abstract description 73
- 230000004927 fusion Effects 0.000 claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 14
- 239000000758 substrate Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000007499 fusion processing Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种三维物体识别方法和装置,其中,三维物体识别方法可以包括:获取待识别的三维物体的多视图数据,以及点云数据;对多视图数据进行特征提取,获取多视图特征;对点云数据进行特征提取,获取点云特征;将多视图特征与点云特征分别映射为相同的中间特征维度大小的特征向量;基于映射后的特征向量计算多视图特征和点云特征两两之间的相似度;基于相似度对多视图特征和点云特征进行融合,获得融合数据;根据融合数据识别三维物体。该方法能够利用不同模态数据在局部区域内的关联系来更好地进行数据融合,进而提高了识别三维物体的准确率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种三维物体识别方法和装置。
背景技术
目前三维物体有多种数据表现形式,其中比较典型的两种数据形式为多视图数据和点云数据。通过对两种数据形式的数据进行融合来识别数据对应的三维物体。
在实现本申请的过程中,发明人发现现有实现视图数据和点云数据融合过程中,未能全面考虑视图数据之间的关联性,进而导致三维物体识别准确率不高。
发明内容
有鉴于此,本申请提供一种三维物体识别方法和装置,能够利用不同模态数据在局部区域内的关联系来更好地进行数据融合,进而提高了识别三维物体的准确率。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种三维物体识别方法,所述方法包括:
获取待识别的三维物体的多视图数据,以及点云数据;
对所述多视图数据进行特征提取,获取多视图特征;
对所述点云数据进行特征提取,获取点云特征;
将所述多视图特征与所述点云特征分别映射为相同的中间特征维度大小的特征向量;
基于映射后的特征向量计算多视图特征和点云特征两两之间的相似度;
基于所述相似度对所述多视图特征和所述点云特征进行融合,获得融合数据;
根据所述融合数据识别所述三维物体。
在另一个实施例中,提供了一种三维物体识别装置,所述装置包括:获取单元、第一提取单元、第二提取单元、映射单元、计算单元、融合单元和识别单元;
所述获取单元,用于获取待识别的三维物体的多视图数据,以及点云数据;
所述第一提取单元,用于对所述获取单元获取的多视图数据进行特征提取,获取多视图特征;
所述第二提取单元,用于对所述获取单元获取的点云数据进行特征提取,获取点云特征;
所述映射单元,用于将所述第一提取单元获取的多视图特征与所述第二提取单元获取的点云特征分别映射为相同的中间特征维度大小的特征向量;
所述计算单元,用于基于所述映射单元映射后的特征向量计算多视图特征和点云特征两两之间的相似度;
所述融合单元,用于基于所述计算单元计算的相似度对所述多视图特征和所述点云特征进行融合,获得融合数据;
所述识别单元,用于根据所述融合单元获取的融合数据识别所述三维物体。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述三维物体识别方法的步骤。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述三维物体识别方法的步骤。
由上面的技术方案可见,上述实施例中在进行多视图特征和点云特征融合时,计算多视图特征和点云特征两两之间的相似度;基于计算的相似度对所述多视图特征和所述点云特征进行融合,使用获得的融合数据进行三维物体识别。该方案能够利用不同模态数据在局部区域内的关联系来更好地进行数据融合,进而提高了识别三维物体的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一中三维物体识别流程示意图;
图2为本申请实施例中预设的特征提取器的网络结构示意图;
图3为本申请实施例中特征抽取流程示意图;
图4为本申请实施例二中三维物体识别流程示意图;
图5为本申请实施例特征融合的示意图;
图6为本申请实施例三中三维物体识别流程示意图;
图7为本申请实施例四中三维物体识别流程示意图;
图8为本申请实施例中三维物体检索流程示意图;
图9为本申请实施例中三维物体识别装置结构示意图;
图10为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
本申请实施例中提供一种三维物体识别方法,在对三维物体对应的视图数据和点云数据进行融合时,考虑了通道级别的交互关系,利用不同模态数据在局部区域内的关联系来更好地进行数据融合,进而提高了识别三维物体的准确率。
多视图数据是由一组二维图像组成的序列,很好地表示了三维物体的外观信息。
点云数据是以一系列三维坐标点构成的集合,该数据模态具有较强的不规则性,点之间的关系可以很好地表示三维物体的几何形状信息。
下面结合附图,详细说明本申请实施例中实现三维物体识别过程。
实施例一
参见图1,图1为本申请实施例一中三维物体识别流程示意图。具体步骤为:
步骤101,获取待识别的三维物体的多视图数据,以及点云数据。
步骤102,对多视图数据进行特征提取,获取多视图特征。
针对多视图数据进行特征提取的方式不进行限制,本申请实施例中给出如下实现方式:
采用简单的单环路视图作为采集的多视图数据,使用多视图卷积神经网络(Multi-view CNN,MVCNN)作为多视图的特征提取器,并选用MVCNN在视图池化层之前的输出作为提取的多视图特征,如可以记为其中,Nview表示特征的数量,Cview表示特征的维度,
每张视图只能表示一个视角上的三维物体的外观信息,所以视图级的特征表示了多视图数据中的局部信息。
步骤103,对点云数据进行特征提取,获取点云特征。
本申请实施例中具体实现时,不限制点云数据的特征提取方式,本申请实施例中给出如下实现方式:
基于预设的特征提取器提取点云数据的点云特征;其中,预设的特征提取器包括多个特征抽取过程,是一个从局部到全局的特征提取器,其以较少的点云数据作为输入,即可表示整个三维物体的特征,同时其中间输出的点云特征表示了点云数据的局部信息。
预设的特征提取器中的多个特征抽取过程堆叠而成,即一个特征抽取过程的输入作为另为一个特征抽取过程的输出。
参见图2,图2为本申请实施例中预设的特征提取器的网络结构示意图。图2中,以三个特征抽取过程(第一特征抽取过程、第二抽取过程和第三抽取过程)为例。其中每个特征抽取过程包括一个多层感知机(MLP)、K近邻(K-NN)集合构建网络和点下采样。
下面结合附图,详细说明本申请实施例中特征抽取过程。图3为本申请实施例中特征抽取流程示意图,具体步骤为:
步骤301,通过一个多层感知机进行逐点云的特征升维。
具体实现时,可以通过图2中的MLP实现点云的特征升维。
多层感知机在每个点上计算时共享权重参数。
步骤302,点云中的每个点作为中心点,并基于中心点进行特征聚集,获得中心点的K近邻集合。
特征聚集时根据特征点之间的距离进行聚集,这里不限制计算距离的算法,如可以使用欧式距离。
步骤303,基于中心点的点云特征更新K近邻集合中的点的特征。
本步骤中基于中心点的点云特征更新K近邻集合中的点的特征,包括:
通过连接函数将K近邻集合中的点的特征与中心点的点云特征的差值,同K近邻集合中的点的特征进行连接;
具体连接过程如下:x'=Concatenate(x-xc,x);
其中,x'为更新后的点云特征,即本申请实施例中新建的特征;x为集合里的点的点云特征,xc为中心点的点云特征
将连接后的特征作为K近邻集合中的点的特征更新后的特征。
步骤304,将更新后的K近邻集合中的点的特征进行最大池化得到更新后的中心点的特征向量。
此时该中心点的特征向量所对应的感受野覆盖原K近邻集合内的所有点。
基于图2中的K近邻集合构建网络实现步骤302到步骤304之间的步骤。
步骤305,基于特征向量对中心点进行特征点下采样。
步骤306,确定是否存在下一个特征抽取网络,如果是,执行步骤307;否则,执行步骤308。
步骤307,将当前采样获得的特征点作为下一个特征抽取网络的输入。
步骤308,将当前采样获得的特征点的特征作为点云数据的点云特征。
通过多个特征抽取过程,点云网络中的点数量逐渐下降,点特征维度逐渐增加,输出的每个点的特征表示了三维物体的一个局部区域的几何信息。
在特征提取过程中只需要经过多个特征抽取过程获取的特征点的特征即可作为要提取的点云特征。
但是在训练特征抽取过程相关权重参数时,还需要在最后一个特征抽取过程之后增加一个全连接层和一个最大池化层,如图2中第三个特征抽取过程之后连接一个全连接层和一个最大池化层。
本申请实施例中可以建立如图2所示的特征提取器,也可以建立包括多个特征提取网络、一个全连接层和一个最大池化层的特征提取器。
如果是包括多个特征提取网络、一个全连接层和一个最大池化层的特征提取器,则在全连接层之前输出的特征点的特征作为提取的点云特征。
步骤104,将多视图特征与点云特征分别映射为相同的中间特征维度大小的特征向量。
步骤105,基于映射后的特征向量计算多视图特征和点云特征两两之间的相似度。
这里对相似度计算方法不进行限制,如可以计算两个特征之间的距离等。
步骤106,基于相似度对多视图特征和点云特征进行融合,获得融合数据。
步骤107,根据融合数据识别三维物体。
本实施例中在进行多视图特征和点云特征融合时,计算多视图特征和点云特征两两之间的相似度;基于计算的相似度对多视图特征和点云特征进行融合,使用获得的融合数据进行三维物体识别。该方案能够利用不同模态数据在局部区域内的关联系来更好地进行数据融合,进而提高了识别三维物体的准确率。
实施例二
参见图4,图4为本申请实施例二中三维物体识别流程示意图。具体步骤为:
步骤401,获取待识别的三维物体的多视图数据,以及点云数据。
步骤402,对多视图数据进行特征提取,获取多视图特征。
每张视图只能表示一个视角上的三维物体的外观信息,所以视图级的特征表示了多视图数据中的局部信息。
步骤403,对点云数据进行特征提取,获取点云特征。
本申请实施例中具体实现时,不限制点云数据的特征提取方式。
步骤404,将多视图特征与点云特征分别映射为相同的中间特征维度大小的特征向量。
步骤405,基于映射后的特征向量计算多视图特征和点云特征两两之间的相似度。
这里对相似度计算方法不进行限制,如可以计算两个特征之间的距离等。
这里计算多视图特征和点云特征两两之间的相似度时,计算的是每个多视图特征与一个点云特征的相似度。
步骤406,基于相似度建立一个关系矩阵;其中,关系矩阵的每个元素表示一个多视图特征与一个点云特征的相似度。
关系矩阵中的一个元素即为一个相似度,表示每个视图特征到每个点云特征的关系。
根据获取的多视图特征和点云特征,矩阵为Nview×Npoint大小的矩阵。该关系矩阵可以表示为如下:
步骤407,基于关系矩阵,针对每个多视图特征收集相关点云特征并与之融合,获取融合数据。
针对第i个多视图特征的特征融合过程如下:
通过下式对ri进行软最大化:
si=softmax(ri);
通过下式计算与第i个多视图特征相关的点云特征p'i:
其中,F()表示变换函数,sik表示第i个多视图特征到第k个点云特征的关系对应的软件最大化结果;pk表示第k个点云特征;
通过下式对第i个多视图特征与关联的点云特征的融合:
v'i=Fuse(vi,p'i);
其中,Fuse()表示融合函数,具体实现时,对融合算法不进行限制,如可以使用逐位乘法方式进行融合。
参见图5,图5为本申请实施例特征融合的示意图。图5中A示意区域对应的融合过程为针对每个多视图特征收集相关点云特征并与之融合的过程,图5中A示意区域对应的融合后的多视图特征即为步骤407中获取的融合数据。
步骤408,根据融合数据识别三维物体。
本实施例中在进行多视图特征和点云特征融合时,计算多视图特征和点云特征两两之间的相似度;基于计算的相似度构建多视图特征到点云特征的关系矩阵,基于关系矩阵,针对每个多视图特征收集相关点云特征并与之融合,使用获得的融合数据进行三维物体识别。该方案能够利用不同模态数据在局部区域内的关联系来更好地进行数据融合,进而提高了识别三维物体的准确率。
实施例三
参见图6,图6为本申请实施例三中三维物体识别流程示意图。具体步骤为:
步骤601,获取待识别的三维物体的多视图数据,以及点云数据。
步骤602,对多视图数据进行特征提取,获取多视图特征。
每张视图只能表示一个视角上的三维物体的外观信息,所以视图级的特征表示了多视图数据中的局部信息。
步骤603,对点云数据进行特征提取,获取点云特征。
本申请实施例中具体实现时,不限制点云数据的特征提取方式。
步骤604,将多视图特征与点云特征分别映射为相同的中间特征维度大小的特征向量。
步骤605,基于映射后的特征向量计算多视图特征和点云特征两两之间的相似度。
这里对相似度计算方法不进行限制,如可以计算两个特征之间的距离等。
步骤606,基于相似度建立一个关系矩阵;其中,关系矩阵的每个元素表示一个点云特征与一个多视图特征的相似度。
关系矩阵中的一个元素即为一个相似度,表示每个点云特征到每个多视图特征的关系。
步骤607,基于关系矩阵,针对每个点云特征收集相关多视图特征并与之融合,获取融合数据。
针对第j个点云特征的特征融合过程如下:
通过下式对rj进行软最大化:
sj=softmax(rj);
通过下式计算与第j个点云特征相关的多视图特征p'j:
其中,F()表示变换函数,sjk表示第j个点云特征到第k个多视图特征的关系对应的软件最大化结果;pk表示第k个多视图特征;
通过下式对第j个点云特征与关联的多视图特征的融合:
v'j=Fuse(vj,p'j);
其中,Fuse()表示融合函数,具体实现时,对融合算法不进行限制,如可以使用逐位乘法方式进行融合。
图5中B区域示意图为针对每个点云特征收集相关多视图特征并与之融合的过程,图5中B示意区域对应的融合后的点云特征即为步骤607中获取的融合数据。
步骤608,根据融合数据识别三维物体。
本实施例中在进行多视图特征和点云特征融合时,计算多视图特征和点云特征两两之间的相似度;基于计算的相似度构建点云特征到多视图特征的关系矩阵,基于关系矩阵,针对每个点云特征收集相关多视图特征并与之融合,使用获得的融合数据进行三维物体识别。该方案能够利用不同模态数据在局部区域内的关联系来更好地进行数据融合,进而提高了识别三维物体的准确率。
实施例四
参见图7,图7为本申请实施例四中三维物体识别流程示意图。具体步骤为:
步骤701,获取待识别的三维物体的多视图数据,以及点云数据。
步骤702,对多视图数据进行特征提取,获取多视图特征。
每张视图只能表示一个视角上的三维物体的外观信息,所以视图级的特征表示了多视图数据中的局部信息。
步骤703,对点云数据进行特征提取,获取点云特征。
本申请实施例中具体实现时,不限制点云数据的特征提取方式。
步骤704,将多视图特征与点云特征分别映射为相同的中间特征维度大小的特征向量。
步骤705,基于映射后的特征向量计算多视图特征和点云特征两两之间的相似度。
这里对相似度计算方法不进行限制,如可以计算两个特征之间的距离等。
步骤706,基于相似度建立第一关系矩阵和第二关系矩阵。
其中,第一关系矩阵的每个元素表示一个点云特征与一个多视图特征的相似度,第二关系矩阵的每个元素表示一个多视图特征与一个点云特征的相似度;
第一矩阵为Npoint×Nview大小的矩阵。该关系矩阵可以表示为如下:
第二矩阵为Nview×Npoint大小的矩阵。该关系矩阵可以表示为如下:
步骤707,基于第一关系矩阵,针对每个点云特征收集相关多视图特征并与之融合,获取第一融合数据。执行步骤709。
针对第j个点云特征的特征融合过程如下:
通过下式对rj进行软最大化:
sj=softmax(rj);
通过下式计算与第j个点云特征相关的多视图特征p'j:
其中,F()表示变换函数,sjk表示第j个点云特征到第k个多视图特征的关系对应的软件最大化结果;pk表示第k个多视图特征;
通过下式对第j个点云特征与关联的多视图特征进行融合:
v'j=Fuse(vj,p'j);
其中,Fuse()表示融合函数,具体实现时,对融合算法不进行限制,如可以使用逐位乘法方式进行融合。
图5中B区域示意图为针对每个点云特征收集相关多视图特征并与之融合的过程,图5中B示意区域对应的融合后的点云特征即为步骤707中获取的第一步融合数据。
步骤708,基于第二关系矩阵,针对每个多视图特征收集相关点云特征并与之融合,获取第二融合数据。
针对第i个多视图特征的特征融合过程如下:
通过下式对ri进行软最大化:
si=softmax(ri);
通过下式计算与第i个多视图特征相关的点云特征p'i:
其中,F()表示变换函数,sik表示第i个多视图特征到第k个点云特征的关系对应的软件最大化结果;pk表示第k个点云特征;
通过下式对第i个多视图特征与关联的点云特征的融合:
v'i=Fuse(vi,p'i);
其中,Fuse()表示融合函数,具体实现时,对融合算法不进行限制,如可以使用逐位乘法方式进行融合。
图5中A示意区域为针对每个多视图特征收集相关点云特征并与之融合的过程,图5中A示意区域对应的融合后的多视图特征即为步骤708中获取的第二融合数据。
步骤709,根据第一融合数据和第二融合数据识别三维物体。
本实施例中在进行多视图特征和点云特征融合时,计算多视图特征和点云特征两两之间的相似度;基于计算的相似度构建多视图特征到点云特征的关系矩阵,以及点云特征到多视图特征的关系矩阵,基于关系矩阵,针对每个多视图特征收集相关点云特征并与之融合,针对每个点云特征收集相关多视图特征并与之融合,使用获得的融合数据进行三维物体识别。该方案能够利用不同模态数据在局部区域内的关联系来更好地进行数据融合,进而提高了识别三维物体的准确率。
实施例五
参见图8,图8为本申请实施例中三维物体检索流程示意图。具体步骤为:
步骤801,获取待识别的三维物体的多视图数据,以及点云数据。
步骤802,对多视图数据进行特征提取,获取多视图特征。
针对多视图数据进行特征提取的方式不进行限制,本申请实施例中给出如下实现方式:
采用简单的单环路视图作为采集的多视图数据,使用多视图卷积神经网络(Multi-view CNN,MVCNN)作为多视图的特征提取器,并选用MVCNN在视图池化层之前的输出作为提取的多视图特征,如可以记为其中,Nview表示特征的数量,Cview表示特征的维度,
每张视图只能表示一个视角上的三维物体的外观信息,所以视图级的特征表示了多视图数据中的局部信息。
步骤803,对点云数据进行特征提取,获取点云特征。
本申请实施例中具体实现时,不限制点云数据的特征提取方式,本申请实施例中给出如下实现方式:
基于预设的特征提取器提取点云数据的点云特征;其中,预设的特征提取器包括多个特征抽取过程,是一个从局部到全局的特征提取器,其以较少的点云数据作为输入,即可表示整个三维物体的特征,同时其中间输出的点云特征表示了点云数据的局部信息。
预设的特征提取器中的多个特征抽取过程堆叠而成,即一个特征抽取过程的输入作为另为一个特征抽取过程的输出。
步骤804,将多视图特征与点云特征分别映射为相同的中间特征维度大小的特征向量。
步骤805,基于映射后的特征向量计算多视图特征和点云特征两两之间的相似度。
这里对相似度计算方法不进行限制,如可以计算两个特征之间的距离等。
步骤806,基于相似度对多视图特征和点云特征进行融合,获得融合数据。
步骤807,根据融合数据进行三维物体的检索。
本实施例中在进行多视图特征和点云特征融合时,计算多视图特征和点云特征两两之间的相似度;基于计算的相似度对多视图特征和点云特征进行融合,使用获得的融合数据进行三维物体检索。该方案能够利用不同模态数据在局部区域内的关联系来更好地进行数据融合,进而提高了检索三维物体的效率和准确率。
基于同样的发明构思,本申请实施例中还提供一种三维物体识别装置。参见图9,图9为本申请实施例中三维物体识别装置结构示意图。三维物体识别装置包括:获取单元901、第一提取单元902、第二提取单元903、映射单元904、计算单元905、融合单元906和识别单元907;
获取单元901,用于获取待识别的三维物体的多视图数据,以及点云数据;
第一提取单元902,用于对获取单元901获取的多视图数据进行特征提取,获取多视图特征;
第二提取单元903,用于对获取单元901获取的点云数据进行特征提取,获取点云特征;
映射单元904,用于将第一提取单元902获取的多视图特征与第二提取单元903获取的点云特征分别映射为相同的中间特征维度大小的特征向量;
计算单元905,用于基于映射单元904映射后的特征向量计算多视图特征和点云特征两两之间的相似度;
融合单元906,用于基于计算单元905计算的相似度对多视图特征和点云特征进行融合,获得融合数据;
识别单元907,用于根据融合单元906获取的融合数据识别三维物体。
在另一个实施例中,
第二提取单元903,具体用于对点云数据进行特征提取时,基于预设的特征提取器提取点云数据的点云特征;其中,预设的特征提取器包括多个特征抽取网络。
在另一个实施例中,
第二提取单元903,具体用于特征抽取网络进行特征抽取时,包括:
通过一个多层感知机进行逐点云的特征升维;
点云中的每个点作为中心点,并基于中心点进行特征聚集,获得中心点的K近邻集合;
基于中心点的点云特征更新K近邻集合中的点的特征;
将更新后的K近邻集合中的点的特征进行最大池化得到更新后的中心点的特征向量;
基于特征向量对中心点进行特征点下采样;
若存在下一个特征抽取网络,则将当前采样获得的特征点作为下一个特征抽取网络的输入;
若不存在下一个特征抽取网络,则将当前采样获得的特征点的特征作为点云数据的点云特征。
在另一个实施例中,
第二提取单元903,具体用于基于中心点的点云特征更新K近邻集合中的点的特征时,包括:
通过连接函数将K近邻集合中的点的特征与中心点的点云特征的差值,同K近邻集合中的点的特征进行连接;
将连接后的特征作为K近邻集合中的点的特征更新后的特征。
在另一个实施例中,
融合单元906,具体用于基于相似度对多视图特征和点云特征进行融合时,包括:
基于相似度建立一个关系矩阵;其中,关系矩阵的每个元素表示一个多视图特征与一个点云特征的相似度;
基于关系矩阵,针对每个多视图特征收集相关点云特征并与之融合。
在另一个实施例中,
融合单元906,具体用于基于相似度对多视图特征和点云特征进行融合时,包括:
基于相似度建立一个关系矩阵;其中,关系矩阵的每个元素表示一个点云特征与一个多视图特征的相似度;
基于关系矩阵,针对每个点云特征收集相关多视图特征并与之融合。
在另一个实施例中,
融合单元906,具体用于基于相似度对多视图特征和点云特征进行融合时,包括:
基于相似度建立第一关系矩阵和第二关系矩阵;其中,第一关系矩阵的每个元素表示一个点云特征与一个多视图特征的相似度,第二关系矩阵的每个元素表示一个多视图特征与一个点云特征的相似度;
基于第一关系矩阵,针对每个点云特征收集相关多视图特征并与之融合,获取第一融合数据;
基于第二关系矩阵,针对每个多视图特征收集相关点云特征并与之融合,获取第二融合数据;
将第一融合数据和第二融合数据作为获取的融合数据。
在另一个实施例中,装置进一步包括:检索单元908;
检索单元908,用于根据融合单元获取的融合数据进行三维物体的检索。
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
在另一个实施例中,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现三维物体识别方法的步骤。
在另一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机指令,指令被处理器执行时可实现三维物体识别方法中的步骤。
图10为本发明实施例提供的电子设备的实体结构示意图。如图10所示,该电子设备可以包括:处理器(Processor)1010、通信接口(Communications Interface)1020、存储器(Memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行如下方法:
获取待识别的三维物体的多视图数据,以及点云数据;
对多视图数据进行特征提取,获取多视图特征;
对点云数据进行特征提取,获取点云特征;
将多视图特征与点云特征分别映射为相同的中间特征维度大小的特征向量;
基于映射后的特征向量计算多视图特征和点云特征两两之间的相似度;
基于相似度对多视图特征和点云特征进行融合,获得融合数据;
根据融合数据识别三维物体。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (11)
1.一种三维物体识别方法,其特征在于,所述方法包括:
获取待识别的三维物体的多视图数据,以及点云数据;
对所述多视图数据进行特征提取,获取多视图特征;
对所述点云数据进行特征提取,获取点云特征;
将所述多视图特征与所述点云特征分别映射为相同的中间特征维度大小的特征向量;
基于映射后的特征向量计算多视图特征和点云特征两两之间的相似度;
基于所述相似度对所述多视图特征和所述点云特征进行融合,获得融合数据;
根据所述融合数据识别所述三维物体。
2.根据权利要求1所述的方法,其特征在于,所述对所述点云数据进行特征提取,包括:
基于预设的特征提取器提取所述点云数据的点云特征;
其中,所述预设的特征提取器包括多个特征抽取网络。
3.根据权利要求2所述的方法,其特征在于,所述特征抽取网络进行特征抽取的过程,包括:
通过一个多层感知机进行逐点云的特征升维;
将点云中的每个点作为中心点,并基于所述中心点进行特征聚集,获得所述中心点的K近邻集合;
基于所述中心点的点云特征更新所述K近邻集合中的点的特征;
将更新后的所述K近邻集合中的点的特征进行最大池化得到更新后的所述中心点的特征向量;
基于所述特征向量对中心点进行特征点下采样;
若存在下一个特征抽取网络,则将当前采样获得的特征点作为下一个特征抽取网络的输入;
若不存在下一个特征抽取网络,则将当前采样获得的特征点的特征作为所述点云数据的点云特征。
4.根据权利要求3所述的方法,其特征在于,所述基于所述中心点的点云特征更新所述K近邻集合中的点的特征,包括:
通过连接函数将所述K近邻集合中的点的特征与所述中心点的点云特征的差值,同所述K近邻集合中的点的特征进行连接;
将连接后的特征作为所述K近邻集合中的点的特征更新后的特征。
5.根据权利要求1所述的方法,其特征在于,所述基于所述相似度对所述多视图特征和所述点云特征进行融合,包括:
基于所述相似度建立一个关系矩阵;其中,所述关系矩阵的每个元素表示一个多视图特征与一个点云特征的相似度;
基于所述关系矩阵,针对每个多视图特征收集相关点云特征并与之融合。
6.根据权利要求1所述的方法,其特征在于,所述基于所述相似度对所述多视图特征和所述点云特征进行融合,包括:
基于所述相似度建立一个关系矩阵;其中,所述关系矩阵的每个元素表示一个点云特征与一个多视图特征的相似度;
基于所述关系矩阵,针对每个点云特征收集相关多视图特征并与之融合。
7.根据权利要求1所述的方法,其特征在于,所述基于所述相似度对所述多视图特征和所述点云特征进行融合,包括:
基于所述相似度建立第一关系矩阵和第二关系矩阵;其中,所述第一关系矩阵的每个元素表示一个点云特征与一个多视图特征的相似度,所述第二关系矩阵的每个元素表示一个多视图特征与一个点云特征的相似度;
基于所述第一关系矩阵,针对每个点云特征收集相关多视图特征并与之融合,获取第一融合数据;
基于所述第二关系矩阵,针对每个多视图特征收集相关点云特征并与之融合,获取第二融合数据;
将所述第一融合数据和所述第二融合数据作为获取的融合数据。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法进一步包括:
根据所述融合数据进行三维物体的检索。
9.一种三维物体识别装置,其特征在于,所述装置包括:获取单元、第一提取单元、第二提取单元、映射单元、计算单元、融合单元和识别单元;
所述获取单元,用于获取待识别的三维物体的多视图数据,以及点云数据;
所述第一提取单元,用于对所述获取单元获取的多视图数据进行特征提取,获取多视图特征;
所述第二提取单元,用于对所述获取单元获取的点云数据进行特征提取,获取点云特征;
所述映射单元,用于将所述第一提取单元获取的多视图特征与所述第二提取单元获取的点云特征分别映射为相同的中间特征维度大小的特征向量;
所述计算单元,用于基于所述映射单元映射后的特征向量计算多视图特征和点云特征两两之间的相似度;
所述融合单元,用于基于所述计算单元计算的相似度对所述多视图特征和所述点云特征进行融合,获得融合数据;
所述识别单元,用于根据所述融合单元获取的融合数据识别所述三维物体。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111106903.4A CN113838113B (zh) | 2021-09-22 | 2021-09-22 | 三维物体识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111106903.4A CN113838113B (zh) | 2021-09-22 | 2021-09-22 | 三维物体识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113838113A true CN113838113A (zh) | 2021-12-24 |
CN113838113B CN113838113B (zh) | 2024-02-13 |
Family
ID=78960121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111106903.4A Active CN113838113B (zh) | 2021-09-22 | 2021-09-22 | 三维物体识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838113B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563767A (zh) * | 2018-04-19 | 2018-09-21 | 深圳市商汤科技有限公司 | 图像检索方法及装置 |
CN109215003A (zh) * | 2018-07-09 | 2019-01-15 | 上海海事大学 | 一种图像融合方法及装置 |
CN110334237A (zh) * | 2019-07-15 | 2019-10-15 | 清华大学 | 一种基于多模态数据的立体对象检索方法与系统 |
CN112257637A (zh) * | 2020-10-30 | 2021-01-22 | 福州大学 | 一种融合点云和多视图的车载激光点云多目标识别方法 |
CN112347932A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 一种点云-多视图融合的三维模型识别方法 |
-
2021
- 2021-09-22 CN CN202111106903.4A patent/CN113838113B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563767A (zh) * | 2018-04-19 | 2018-09-21 | 深圳市商汤科技有限公司 | 图像检索方法及装置 |
US20200327363A1 (en) * | 2018-04-19 | 2020-10-15 | Shenzhen Sensetime Technology Co., Ltd. | Image retrieval method and apparatus |
CN109215003A (zh) * | 2018-07-09 | 2019-01-15 | 上海海事大学 | 一种图像融合方法及装置 |
CN110334237A (zh) * | 2019-07-15 | 2019-10-15 | 清华大学 | 一种基于多模态数据的立体对象检索方法与系统 |
CN112257637A (zh) * | 2020-10-30 | 2021-01-22 | 福州大学 | 一种融合点云和多视图的车载激光点云多目标识别方法 |
CN112347932A (zh) * | 2020-11-06 | 2021-02-09 | 天津大学 | 一种点云-多视图融合的三维模型识别方法 |
Non-Patent Citations (1)
Title |
---|
刘阔;张宗华;: "基于多视图融合的闭环检测技术研究", 河北工业大学学报, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
CN113838113B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523621B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN111898547B (zh) | 人脸识别模型的训练方法、装置、设备及存储介质 | |
US11144787B2 (en) | Object location method, device and storage medium based on image segmentation | |
WO2020259481A1 (zh) | 定位方法及装置、电子设备、可读存储介质 | |
CN107045631B (zh) | 人脸特征点检测方法、装置及设备 | |
CN107657249A (zh) | 多尺度特征行人重识别的方法、装置、存储介质及处理器 | |
JP7038867B2 (ja) | 顔認識方法及び装置 | |
WO2016119076A1 (en) | A method and a system for face recognition | |
JP2016517084A (ja) | 動的カテゴリ物体認識のコンピュータベースの方法コンピュータベースの方法及びシステム | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
CN103927387A (zh) | 图像检索系统及其相关方法和装置 | |
CN110309835B (zh) | 一种图像局部特征提取方法及装置 | |
CN111931764B (zh) | 一种目标检测方法、目标检测框架及相关设备 | |
CN111414875B (zh) | 基于深度回归森林的三维点云头部姿态估计系统 | |
CN110222607B (zh) | 人脸关键点检测的方法、装置及系统 | |
CN110069989B (zh) | 人脸图像处理方法及装置、计算机可读存储介质 | |
CN114332415B (zh) | 基于多视角技术的输电线路廊道的三维重建方法及装置 | |
US11410327B2 (en) | Location determination apparatus, location determination method and computer program | |
CN108256454B (zh) | 一种基于cnn模型的训练方法、人脸姿态估测方法及装置 | |
CN112785705B (zh) | 一种位姿获取方法、装置及移动设备 | |
CN111783506A (zh) | 目标特征的确定方法、装置和计算机可读存储介质 | |
CN111080670A (zh) | 图像提取方法、装置、设备及存储介质 | |
CN110765882A (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
CN113837168A (zh) | 一种图像文本检测与ocr识别方法、装置及存储介质 | |
KR20200092450A (ko) | 데이터 라벨링을 수행하기 위한 기법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |