CN116434220A - 基于描述符和AdaBoost算法的三维物体分类方法及系统 - Google Patents
基于描述符和AdaBoost算法的三维物体分类方法及系统 Download PDFInfo
- Publication number
- CN116434220A CN116434220A CN202310477856.7A CN202310477856A CN116434220A CN 116434220 A CN116434220 A CN 116434220A CN 202310477856 A CN202310477856 A CN 202310477856A CN 116434220 A CN116434220 A CN 116434220A
- Authority
- CN
- China
- Prior art keywords
- dimensional object
- classifier
- descriptor
- model
- descriptors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 101150041570 TOP1 gene Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000011960 computer-aided design Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于三维物体分类技术领域,提供了基于描述符和AdaBoost算法的三维物体分类方法及系统,其在视角采样方面,提出了一种基于网格细分的方法,它提供了全方位的视角覆盖,同时又能自然地控制密度。对于三维表面和二维投影描述,选择或设计了简单而有效的描述符。进行了两阶段AdaBoost学习,第一阶段在2D投影的特定尺度上训练分类器,第二阶段组合了尺度特定的分类器来得出最终分类器。所提出的算法在分类准确率方面优于基准传统算法。
Description
技术领域
本发明属于三维物体分类技术领域,尤其涉及基于描述符和AdaBoost算法的三维物体分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着三维获取和计算技术的快速发展,三维模型在许多领域中得到越来越广泛的创建和使用,例如虚拟/增强现实、计算机辅助设计(CAD)、分子生物学和机器人技术。在许多应用领域中,对三维物体进行分类通常是一项必要的任务。总体而言,三维模型包含比物体的平面2D图像更丰富的信息,并提供更多的物体分类线索,这激发了近几十年来对三维物体分类的密集研究。
传统的三维物体分类方法存在的技术缺陷是:
在早期,提出的三维物体分类算法通常基于手工制作的特征和传统的机器学习技术。在近年来,提出的三维物体分类算法很大程度上基于深度学习技术,自主学习特征提取和类别预测。虽然基于深度学习的方法可以产生高准确率的分类结果,传统分类方法需要调整参数以获得最佳性能,依赖于人工设计,需要对特征进行选择和组合才能获得最佳分类性能,往往需要巨大的计算和内存资源。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于表面和深度图描述符的三维物体分类方法及系统,其使用多个特征描述符来表征三维表面及其多视角二维投影,将每个描述符与基础分类器配对,并使用AdaBoost得到最终的分类器,相较于基于深度学习的方法,降低了计算和存储成本。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于描述符和AdaBoost算法的三维物体分类方法,包括如下步骤:
获取待分类的三维物体模型;
基于网格细分方法,将每个三维物体模型内嵌在单位包围球内,在包围球球体表面设置多个虚拟相机作为视点,对三维模型进行投影采样,获得三维物体模型的多个视角2D深度图;
采用3D表面描述符和多个2D深度图描述符表征三维物体表面及其多个视角2D深度图;
将每个描述符与对应的分类器配对,在每个尺度上构建一个集成分类器,将所有尺度的集成分类器通过AdaBoost学习进一步组合,形成强分类器;
基于强分类器对待分类的三维物体进行分类得到分类结果。
本发明的第二个方面提供基于描述符和AdaBoost算法的三维物体分类系统,包括:
三维物体模型获取模块,用于获取待分类的三维物体模型;
2D深度图获取模块,用于基于网格细分方法,将每个三维物体模型内嵌在单位包围球内,在包围球球体表面设置多个虚拟相机作为视点,对三维模型进行投影采样,获得三维物体模型的多个视角2D深度图;
分类模块,用于采用3D表面描述符和多个2D深度图描述符表征三维物体表面及其多个视角2D深度图;
将每个描述符与对应的分类器配对,在每个尺度上构建一个集成分类器,将所有尺度的集成分类器通过AdaBoost学习进一步组合,形成强分类器;
基于强分类器对待分类的三维物体进行分类得到分类结果。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的基于描述符和AdaBoost算法的三维物体分类方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的基于描述符和AdaBoost算法的三维物体分类方法中的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明采在视角采样方面,提出了一种基于网格细分的方法,将每个三维物体模型归一化为一个单位包围球内,在包围球球体表面设置多个虚拟相机作为视点,对三维模型进行投影采样,获得三维模型的多个视角以获取多个2D深度图;具有全范围角度覆盖和方便的密度控制的优势。
2、本发明对于三维表面和二维投影(深度图)描述,选择或设计了简单而有效的描述符,进行了两阶段AdaBoost学习,第一阶段在2D投影的特定尺度上训练分类器,第二阶段组合了尺度特定的分类器来得出最终分类器,降低了计算和存储成本。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例提供的基于描述符和AdaBoost算法的三维物体分类方法流程图;
图2是本发明实施例提供的视点采样过程的示意图;
图3是本发明实施例在ModelNet10分类任务中生成的混淆矩阵。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本发明提供基于描述符和AdaBoost算法的三维物体分类方法,包括如下步骤:
步骤1:对三维物体模型进行规范化处理即统一每个模型的大小与位置;
规范化处理的过程包括:使三维物体模型的重心与三维空间坐标原点重合,且将其包围在半径为1的球体内。将每个规范化处理后的模型作为查询模型或待分类模型。
步骤2:基于网格细分的选择方法,将每个三维物体模型归一化为一个单位包围球内,在包围球球体表面设置多个虚拟相机作为视点,对三维模型进行投影采样,获得三维模型的多个视角以获取多个2D深度图;
以三维模型为八面体为例说明视角采样的过程,如图2所示,将一个八面体网格内嵌在模型的包围球中,经过两步细分,并使用最终的顶点作为采样视点。
所述在包围球球体表面设置多个虚拟相机作为视点的具体过程包括:
首先,将一个八面体网格内嵌在单位包围球S中,在球体表面构建一个正八面体网格,将网格与球体的交点作为候选点,如图2中(a)所示;
接下来,在每条边的中点处添加一个顶点,并添加新的边以获得细分的网格,如图2中(b)所示。
具体为:取网格每条边的中点,将其垂直投影到球体表面作为候选点,将得到的所有候选点(本实施例中为18个)作为虚拟相机视点,由于网格是均匀细化的,取得的视点能够保证完全范围覆盖模型且高度对称。
最后,将添加的顶点投影到S上,如图2中(c)所示。
使用图2中(c)中的每个顶点作为视点,通过正交投影获得每个三维模型的18个2D深度图。
上述技术方案的优势在于,相较于透视投影,使用正交投影能够防止由于视点选择不同而造成的模型形变。
与普通的光场描述图像相比,深度投影图像还包含了模型在该视点上的深度信息:为了便于观察,将视点位置的RGB像素值设为(0,0,0),将模型背景RGB像素值设为(255,255,255),将视点到球体最远一点的切面的RGB像素值设为(240,240,240),以区分模型最远点处投影与背景的边界,按照模型表面一点到视点的距离,对模型进行深度值渲染,得到正交投影深度图像。
与常用的圆形视角采样和十二面体视角采样相比,本实施例所提出的通过调整网格细分的深度的方法具有全范围角度覆盖和方便的密度控制的优势。
步骤3:通过双三次插值对每个2D深度图进行降采样,得到降采样后的2D深度图;同时,为了获得更丰富的模型特征,对正交投影深度图像和体素模型进行多尺度变换:使用双三次差值对图像进行下采样,同时改变体素模型的大小,以提取不同尺度的特征。
此外,为了预测类别的稳健性,提出在深度图的多个尺度上分析形状,并将多尺度分析集成到最终结果中。具体来说,通过双三次插值将每个W×H深度图缩小到W/2×H/2和W/4×H/4,然后分两个阶段构建强分类器。
步骤4:采用多个3D表面描述符和2D深度图描述符表征三维表面及其多视角二维投影,将每个描述符与对应的分类器配对,在每个尺度上构建一个集成分类器;将所有集成分类器通过AdaBoost学习进一步组合,形成最终的强分类器,基于最终的强分类器对待分类的三维物体进行分类得到分类结果。
其中,所述多个3D表面描述符包括形状分布(Shape distribution,SD)特征描述符。
所述形状分布描述符的获取过程为:
首先,在三维网格模型的表面随机采样点对(本实施例中选取1024个顶点),每个顶点先求其顶点法向量,然后分别计算:每个顶点的法向量与其他顶点法向量的夹角;每个顶点与模型中心的L2距离,进而求得每个顶点到中心距离与其他顶点到中心距离比;每个顶点与其他顶点的L2距离。
然后按照顶点对之间的法向夹角值,按照它们法向量的投影方向将顶点对分为三组:同向(同向对),异向(背对背),相向(面对面),统计每一组中每个顶点对的中心距离比和L2距离,对于一个点对,它们之间的L2距离和它们距离模型重心的比率被用作形状函数。对于每个类别中的点对,计算了两个特定的SD,将所有6个特定的SD组合起来,分别由小到大排序并使用直方图进行统计,然后将所有的统计直方图线性组合得到一个特征描述向量,作为该模型的Shape Distribution特征描述符。
其中,所述2D深度图描述符包括:灰度共生矩阵(GLCM)特征描述符、灰度梯度共生矩阵特征描述符(GLGCM)、方向梯度直方图(HOG)特征描述符、深度体积(SOD)特征描述符和投影面积(AOP)特征描述符。
所述灰度共生矩阵特征描述符的获取过程为:
对于模型的每张深度图,首先统计每个像素的灰度值,然后计算整个视图每个像素点与其相邻像素点(与该像素点相邻且构成水平方向夹角为0°、45°、90°、135°的四个像素点)的灰度共生矩阵,并统计每个灰度共生矩阵的能量(灰度共生矩阵元素值的平方和,反映了图像灰度分布均匀程度和纹理粗细度)、熵(反映图像灰度分布的复杂程度)、对比度(灰度共生矩阵元素差值,反映图像纹理的深浅)、相关性(灰度共生矩阵元素在行、列方向上的相似度)、同质性(也叫逆差矩,测量图像的局部均匀性)。将这些评价指标线性连接作为该视图的GLCM特征描述符。
所述灰度梯度共生矩阵特征描述符的获取过程为:
对于模型的任意一张视图,首先统计其每个像素的灰度值及梯度值,得到视图的灰度矩阵和梯度矩阵。对灰度矩阵和梯度矩阵进行统计以获得灰度梯度共生矩阵,灰度梯度共生矩阵中的任一元素(x,y)值为灰度值为x且梯度值为y的像素点之和。统计灰度共生矩阵的小梯度优势,大梯度优势,灰度分布不均匀性,梯度分布不均匀性,能量,相关性,灰度熵,梯度熵,混合熵,逆差矩,将这些评价指标线性连接作为该视图的GLGCM特征描述符。将所有视图的GLGCM特征描述符连接起来,得到该模型的GLGCM特征描述符。
所述方向梯度直方图特征描述符的获取过程为:对于模型的任意一张视图,首先,在深度图上进行迭代矩形细分,以获得块、单元格和像素的分层组织。即把计算原始图像每个像素的梯度值和梯度方向作为该像素点的梯度信息,然后将图像分割为若干个像素单元,统计每个单元中所有像素点的梯度信息。对于每个像素单元,包含其相邻的像素单元构成像素块,然后对所有像素块进行卷积操作,统计得到模型的梯度直方图,作为该视图的HOG特征描述符。将所有视图的HOG特征描述符连接起来,得到该模型的HOG特征描述符。
所述深度体积特征描述符为:统计每张视图中模型的深度值之和,即将所有像素值相加作为该模型的深度体积特征描述符。
和投影面积特征描述符为:统计每张视图中模型投影的面积作为该模型的投影面积特征描述符。
对于每个全面的SD、GLCM、GLGCM、HOG、SOD和AOP描述符,将SVM分类器作为基分类器关联起来。为了有效利用所有描述符和基分类器,选择使用AdaBoost作为基本而高效的集成学习方法来得到强分类器。
步骤4中,为以上的每种特征描述符单独构造SVM分类器对模型进行分类,每个SVM分类器都能得到其对应的初始分类结果。统计结果后,对于每个SVM分类器,我们调整每个模型在该分类器中所占权重,进行下一轮预测。在迭代完成后,对所有的分类器进行投票统计分类结果,得到最终的分类结果,并将这组分类器看做一个强分类器。
在第一阶段,对基分类器加权投票,构造“一阶段强分类器”;具体包括:
假设共有N个模型,每个基分类器的所有模型的初始权重为weight(0)=1/N。每轮单独迭代所有的基分类器,每个基分类器各自按照上一轮的分类结果,对每个模型的权重进行再分配,将上一轮分类错误的模型赋以更高的权重,以增加此轮该模型分类正确的概率。统计每轮各基分类器的结果和正确率,当达到迭代轮数后,所有的基分类器按各自正确率赋权共同预测模型。将迭代产生的强分类器称为“一阶段强分类器”。
在第二阶段,将所有特定尺度的集成分类器通过AdaBoost学习进一步组合,形成最终的强分类器。对“一阶段强分类器”加权投票,构造“两阶段强分类器”;具体包括:
分别在三个尺度(设初始模型的大小为V,三个尺度分别为V、V/2、V/4)上对模型构造了“一阶段强分类器”。
同样的,将三个尺度上的“一阶段强分类器”视为三个“较大的基分类器”,构造一个“两阶段强分类器”。
假设共有N个模型,每个“一阶段强分类器”的所有模型的初始权重为Weight(0)=1/N。每轮“一阶段强分类器”中的基分类器初始权重weight(0)不再为1/N,而是为Weight(I),每个“一阶段强分类器”各自按照上一轮的分类结果,对每个模型的权重进行再分配,将分类错误的模型赋以更高的权重,以增加此轮该模型分类正确的概率。统计每轮各“一阶段强分类器”的结果和正确率,当达到迭代轮数后,所有的“一阶段强分类器”按各自正确率赋权共同预测模型。迭代产生的强分类器称为“两阶段强分类器”。最终使用“两阶段强分类器”对模型进行分类预测。
实验结果
在多个基准数据集上评估了所提出的方法:ModelNet40,ModelNet10,PrincetonShapeBenchmark(PSB),ShapeRetrievalContest2015(SHREC15),ShapeRetrievalContest2011(SHREC11)和McGill数据集。
ModelNet40包含来自40个类别的12,311个模型。遵循大多数相关工作中使用的训练和测试分割设置,其中分别使用9,843个和2,456个模型进行训练和测试。ModelNet10是ModelNet40的一个子集,包含10个类别的4,899个模型,其中3,991个和908个模型用于训练和测试。PSB,SHREC15,SHREC11和McGill数据集分别包含来自92,50,30和10个类别的1,814个,1,200个,600个和255个模型。与现有方法一样,每个数据集中的一半模型用于训练,而另一半用于测试。使用两个流行的指标,即前1分类精度和最近邻(NN),作为评估标准。
在ModelNet40和ModelNet10上的结果我们通过计算ModelNet40和ModelNet10上的前1分类精度,将本发明的方法与一些最先进的方法进行比较。表1显示了比较结果。本发明的方法优于传统的3D模型分类方法(即SPH,LFD和HOG3D)和基于深度学习的方法(即3DShapeNets,BeamSearch,PointNet,OrthographicNet和CNN+Adaboost)。值得指出的是,本发明的方法和CNN+AdaBoost都使用AdaBoost框架,而本发明的方法没有使用深度学习策略,表现更好。
表1与其他方法的分类准确率比较
为了比较不同方法在PSB,SHREC15,SHREC11和McGill数据集上的性能,使用表2列出了各种方法的最近邻率。
表2与其他方法的前1分类准确率比较
与传统方法(即LFD,VSCWCO和HOG3D)和基于深度学习的方法(即PointNet和DGCNN)相比,本发明的方法在大多数情况下表现更好。
在ModelNet40和ModelNet10数据集上,不同方法所实现的最高的Top1分类准确率已被列出,并用粗体突出显示。
为了更好地分析分类结果,计算了数据集上分类的混淆矩阵。混淆矩阵是一种表格布局,用于可视化算法的性能,其中包含分类方法得到的实际和预测分类的信息。
图3展示了本发明方法在ModelNet10类别上生成的混淆矩阵。横坐标和纵坐标分别表示实际和预测分类,值表示相应类别之间的相似性。值越高,颜色越深。
可以看出,同一类别的3D模型之间的相似度比不同类别的模型之间的相似度更高。大多数错误发生在容易混淆的类别之间。此外,结构相似的不同类别的模型(例如,床头柜和梳妆台,以及桌子和写字台)显示出更高的相似性(和混淆率)比不同结构的类别。
图3中展示了本发明的方法在ModelNet10分类任务中生成的混淆矩阵。混淆矩阵是一种可视化算法性能的表格布局,它包含一个分类方法得出的实际和预测分类的信息。横轴和纵轴分别表示实际分类和预测分类,值表示相应类别之间的相似度。值越高,颜色越深。可以看出,同一类别的3D模型之间的相似度高于不同类别之间的相似度。大多数错误发生在容易混淆的类别之间。此外,具有相似结构的不同类别的模型(例如,床头柜和梳妆台,桌子和办公桌)显示出比不同结构的类别更高的相似度(和混淆率)。
消融实验:为了研究本发明方法的有效性,在ModelNet10数据集上进行了消融实验,测试了使用不同描述符进行分类的情况。如表3所示,使用全部六个描述符可以获得更高的分类准确率(91.70%),而消除其中任何一个会导致分类准确率降低。此外,消除GLCM描述符获得的分类准确率最低,这意味着在六个描述符中,该描述符的贡献最大。还探究了深度图尺度数量的影响。单个、两个和三个深度图尺度的分类准确率分别为87.23%、89.05%和91.70%。随着深度图尺度数量的增加,能够捕捉到3D模型更多的特征,从而获得更高的分类准确率。
表3消融实验分类准确率比较
实验表明,所提出的算法在分类准确率方面优于基准传统算法。实验还表明,即使采用轻量级结构,所提出的算法在分类准确率方面也优于一些深度学习方法。
实施例二
本实施例提供基于描述符和AdaBoost算法的三维物体分类系统,包括:
三维物体模型获取模块,用于获取待分类的三维物体模型;
2D深度图获取模块,用于基于网格细分方法,将每个三维物体模型内嵌在单位包围球内,在包围球球体表面设置多个虚拟相机作为视点,对三维模型进行投影采样,获得三维物体模型的多个视角2D深度图;
分类模块,用于采用3D表面描述符和多个2D深度图描述符表征三维物体表面及其多个视角2D深度图;
将每个描述符与对应的分类器配对,在每个尺度上构建一个集成分类器,将所有尺度的集成分类器通过AdaBoost学习进一步组合,形成强分类器;
基于强分类器对待分类的三维物体进行分类得到分类结果。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一所述的基于描述符和AdaBoost算法的三维物体分类方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如实施例一所述的基于描述符和AdaBoost算法的三维物体分类方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于描述符和AdaBoost算法的三维物体分类方法,其特征在于,包括如下步骤:
获取待分类的三维物体模型;
基于网格细分方法,将每个三维物体模型内嵌在单位包围球内,在包围球球体表面设置多个虚拟相机作为视点,对三维物体模型进行投影采样,获得三维物体模型的多个视角2D深度图;
采用3D表面描述符和多个2D深度图描述符表征三维物体表面及其多个视角2D深度图;
将每个描述符与对应的分类器配对,在每个尺度上构建一个集成分类器,将所有尺度的集成分类器通过AdaBoost学习进一步组合,形成强分类器;
基于强分类器对待分类的三维物体进行分类得到分类结果。
2.如权利要求1所述的基于描述符和AdaBoost算法的三维物体分类方法,其特征在于,在获得多个2D深度图后,通过双三次插值对每个2D深度图进行降采样,得到降采样后的2D深度图。
3.如权利要求1所述的基于描述符和AdaBoost算法的三维物体分类方法,其特征在于,所述3D表面描述符采用形状分布特征描述符。
4.如权利要求3所述的基于描述符和AdaBoost算法的三维物体分类方法,其特征在于,所述形状分布特征描述符的获取过程为:
在三维网格模型的表面随机采样顶点对;
按照顶点对之间的法向夹角值,将顶点对进行分组;
计算每一组中每个顶点对的中心距离比和L2距离;
将计算的结果分别由小到大排序并使用直方图进行统计,然后将所有的统计直方图线性组合得到一个特征描述向量。
5.如权利要求1所述的基于描述符和AdaBoost算法的三维物体分类方法,其特征在于,所述2D深度图描述符包括:灰度共生矩阵特征描述符、灰度梯度共生矩阵特征描述符、方向梯度直方图特征描述符、深度体积特征描述符和投影面积特征描述符。
6.如权利要求1所述的基于描述符和AdaBoost算法的三维物体分类方法,其特征在于,所述将每个描述符与对应的分类器配对,在每个尺度上构建一个集成分类器,将所有尺度的集成分类器通过AdaBoost学习进一步组合,形成强分类器,具体包括:
为每个特征描述符单独构造SVM分类器作为一个基分类器;
对基分类器加权投票,得到一阶段强分类器;
分别在所有尺度上对模型构造了一阶段强分类器,对一阶段强分类器进行加权投票,构造得到两阶段强分类器。
7.如权利要求6所述的基于描述符和AdaBoost算法的三维物体分类方法,其特征在于,所述加权投票的过程包括:每轮单独迭代所有的分类器,每个分类器各自按照上一轮的分类结果,对每个三维物体模型的权重进行再分配,统计每轮各分类器的结果和正确率,当达到迭代轮数后,所有的分类器按各自正确率赋权共同预测模型。
8.基于描述符和AdaBoost算法的三维物体分类系统,其特征在于,包括:
三维物体模型获取模块,用于获取待分类的三维物体模型;
2D深度图获取模块,用于基于网格细分方法,将每个三维物体模型内嵌在单位包围球内,在包围球球体表面设置多个虚拟相机作为视点,对三维模型进行投影采样,获得三维物体模型的多个视角2D深度图;
分类模块,用于采用3D表面描述符和多个2D深度图描述符表征三维物体表面及其多个视角2D深度图;
将每个描述符与对应的分类器配对,在每个尺度上构建一个集成分类器,将所有尺度的集成分类器通过AdaBoost学习进一步组合,形成强分类器;
基于强分类器对待分类的三维物体进行分类得到分类结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于描述符和AdaBoost算法的三维物体分类方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于描述符和AdaBoost算法的三维物体分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310477856.7A CN116434220B (zh) | 2023-04-24 | 2023-04-24 | 基于描述符和AdaBoost算法的三维物体分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310477856.7A CN116434220B (zh) | 2023-04-24 | 2023-04-24 | 基于描述符和AdaBoost算法的三维物体分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116434220A true CN116434220A (zh) | 2023-07-14 |
CN116434220B CN116434220B (zh) | 2024-02-27 |
Family
ID=87083993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310477856.7A Active CN116434220B (zh) | 2023-04-24 | 2023-04-24 | 基于描述符和AdaBoost算法的三维物体分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434220B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254338A (zh) * | 2011-06-15 | 2011-11-23 | 西安交通大学 | 基于最大化可视信息的三维场景最佳视角自动获取方法 |
CN102915448A (zh) * | 2012-09-24 | 2013-02-06 | 西北工业大学 | 一种基于AdaBoost的三维模型自动分类方法 |
CN103295025A (zh) * | 2013-05-03 | 2013-09-11 | 南京大学 | 一种三维模型最优视图的自动选择方法 |
CN103345631A (zh) * | 2013-06-04 | 2013-10-09 | 北京大学深圳研究生院 | 图像特征提取、训练、检测方法及模块、装置、系统 |
CN104182765A (zh) * | 2014-08-21 | 2014-12-03 | 南京大学 | 一种互联网图像驱动的三维模型最优视图自动选择方法 |
KR20150002157A (ko) * | 2013-06-28 | 2015-01-07 | 네이버 주식회사 | 단일 깊이 영상을 이용한 내용기반 3차원 모델 검색 방법, 이를 수행하는 3차원 모델 검색 서버 및 컴퓨터로 판독 가능한 기록매체 |
CN104281838A (zh) * | 2014-09-23 | 2015-01-14 | 西南交通大学 | 基于HOG特征与二维Gabor小波变换的高铁接触网支撑装置耳片断裂检测方法 |
CN105938565A (zh) * | 2016-06-27 | 2016-09-14 | 西北工业大学 | 基于多层分类器和互联网图像辅助训练的彩色图像情感分类方法 |
US20170116781A1 (en) * | 2015-10-21 | 2017-04-27 | Nokia Technologies Oy | 3d scene rendering |
CN107689079A (zh) * | 2017-08-28 | 2018-02-13 | 北京航空航天大学 | 一种卫星云图与自然图像结合的云景重建方法 |
CN109829505A (zh) * | 2019-02-15 | 2019-05-31 | 北京工业大学 | 一种基于多种特征描述符的三维模型分类方法 |
CN110019914A (zh) * | 2018-07-18 | 2019-07-16 | 王斌 | 一种支持三维场景交互的三维模型数据库检索方法 |
CN110516523A (zh) * | 2019-06-18 | 2019-11-29 | 中国矿业大学 | 移动视频巡检中危险区域行人检测方法 |
CN111078913A (zh) * | 2019-12-16 | 2020-04-28 | 天津运泰科技有限公司 | 基于多视图卷积神经网络的三维模型检索方法 |
CN112381945A (zh) * | 2020-11-27 | 2021-02-19 | 中国科学院自动化研究所 | 三维模型过渡面的重建方法及系统 |
CN113392244A (zh) * | 2021-06-10 | 2021-09-14 | 北京印刷学院 | 一种基于深度度量学习的三维模型检索方法及系统 |
-
2023
- 2023-04-24 CN CN202310477856.7A patent/CN116434220B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254338A (zh) * | 2011-06-15 | 2011-11-23 | 西安交通大学 | 基于最大化可视信息的三维场景最佳视角自动获取方法 |
CN102915448A (zh) * | 2012-09-24 | 2013-02-06 | 西北工业大学 | 一种基于AdaBoost的三维模型自动分类方法 |
CN103295025A (zh) * | 2013-05-03 | 2013-09-11 | 南京大学 | 一种三维模型最优视图的自动选择方法 |
CN103345631A (zh) * | 2013-06-04 | 2013-10-09 | 北京大学深圳研究生院 | 图像特征提取、训练、检测方法及模块、装置、系统 |
KR20150002157A (ko) * | 2013-06-28 | 2015-01-07 | 네이버 주식회사 | 단일 깊이 영상을 이용한 내용기반 3차원 모델 검색 방법, 이를 수행하는 3차원 모델 검색 서버 및 컴퓨터로 판독 가능한 기록매체 |
CN104182765A (zh) * | 2014-08-21 | 2014-12-03 | 南京大学 | 一种互联网图像驱动的三维模型最优视图自动选择方法 |
CN104281838A (zh) * | 2014-09-23 | 2015-01-14 | 西南交通大学 | 基于HOG特征与二维Gabor小波变换的高铁接触网支撑装置耳片断裂检测方法 |
US20170116781A1 (en) * | 2015-10-21 | 2017-04-27 | Nokia Technologies Oy | 3d scene rendering |
CN105938565A (zh) * | 2016-06-27 | 2016-09-14 | 西北工业大学 | 基于多层分类器和互联网图像辅助训练的彩色图像情感分类方法 |
CN107689079A (zh) * | 2017-08-28 | 2018-02-13 | 北京航空航天大学 | 一种卫星云图与自然图像结合的云景重建方法 |
CN110019914A (zh) * | 2018-07-18 | 2019-07-16 | 王斌 | 一种支持三维场景交互的三维模型数据库检索方法 |
CN109829505A (zh) * | 2019-02-15 | 2019-05-31 | 北京工业大学 | 一种基于多种特征描述符的三维模型分类方法 |
CN110516523A (zh) * | 2019-06-18 | 2019-11-29 | 中国矿业大学 | 移动视频巡检中危险区域行人检测方法 |
CN111078913A (zh) * | 2019-12-16 | 2020-04-28 | 天津运泰科技有限公司 | 基于多视图卷积神经网络的三维模型检索方法 |
CN112381945A (zh) * | 2020-11-27 | 2021-02-19 | 中国科学院自动化研究所 | 三维模型过渡面的重建方法及系统 |
CN113392244A (zh) * | 2021-06-10 | 2021-09-14 | 北京印刷学院 | 一种基于深度度量学习的三维模型检索方法及系统 |
Non-Patent Citations (1)
Title |
---|
刘小明等: ""基于适应加权非对称AdaBoost HMM的三维模型分类算法"", 《浙江大学学报(工学版)》, 28 August 2006 (2006-08-28), pages 1300 - 1305 * |
Also Published As
Publication number | Publication date |
---|---|
CN116434220B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509848B (zh) | 三维物体的实时检测方法及系统 | |
Li et al. | SHREC’14 track: Extended large scale sketch-based 3D shape retrieval | |
Feixas et al. | A unified information-theoretic framework for viewpoint selection and mesh saliency | |
CN106716450B (zh) | 利用边缘向量的基于图像的特征检测 | |
Li et al. | SHREC’13 track: large scale sketch-based 3D shape retrieval | |
Huang et al. | A coarse-to-fine algorithm for matching and registration in 3D cross-source point clouds | |
Hmimid et al. | Fast computation of separable two-dimensional discrete invariant moments for image classification | |
CN104751511B (zh) | 一种三维场景构建方法和装置 | |
Li et al. | SHREC’14 track: Large scale comprehensive 3D shape retrieval | |
Li et al. | Local log-euclidean covariance matrix (l 2 ecm) for image representation and its applications | |
CN108710916B (zh) | 图片分类的方法及装置 | |
Guan et al. | BRISKS: Binary features for spherical images on a geodesic grid | |
CN107292299B (zh) | 基于内核规范相关分析的侧面人脸识别方法 | |
CN105243139A (zh) | 一种基于深度学习的三维模型检索方法及其检索装置 | |
CN111695522A (zh) | 一种平面内的旋转不变人脸检测方法、装置及存储介质 | |
Pound et al. | A patch-based approach to 3D plant shoot phenotyping | |
Xu et al. | Enhancing 2D representation via adjacent views for 3D shape retrieval | |
US8429163B1 (en) | Content similarity pyramid | |
CN111310821A (zh) | 多视图特征融合方法、系统、计算机设备及存储介质 | |
CN111860124A (zh) | 基于空谱胶囊生成对抗网络的遥感图像分类方法 | |
CN102708589B (zh) | 一种基于特征聚类的三维目标多视点视图建模方法 | |
CN113392831A (zh) | 分析一组帧中的对象 | |
Li et al. | Primitive fitting using deep geometric segmentation | |
Shuai et al. | Regression convolutional network for vanishing point detection | |
CN116434220B (zh) | 基于描述符和AdaBoost算法的三维物体分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |