CN113869120A - 一种基于视图过滤的聚合卷积三维模型分类方法 - Google Patents

一种基于视图过滤的聚合卷积三维模型分类方法 Download PDF

Info

Publication number
CN113869120A
CN113869120A CN202110990067.4A CN202110990067A CN113869120A CN 113869120 A CN113869120 A CN 113869120A CN 202110990067 A CN202110990067 A CN 202110990067A CN 113869120 A CN113869120 A CN 113869120A
Authority
CN
China
Prior art keywords
view
dimensional model
dimensional
sequence
views
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110990067.4A
Other languages
English (en)
Other versions
CN113869120B (zh
Inventor
张雨禾
刘泽华
高健
郭宝
王淑睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN202110990067.4A priority Critical patent/CN113869120B/zh
Publication of CN113869120A publication Critical patent/CN113869120A/zh
Application granted granted Critical
Publication of CN113869120B publication Critical patent/CN113869120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉技术领域,公开了一种基于视图过滤的聚合卷积三维模型分类方法,所述基于视图过滤的聚合卷积三维模型分类方法将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据;利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列;提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符;采用全连接层和全局形状描述符进行三维模型分类。本发明操作方便,克服了三维模型分类方法对视图配置的依赖;克服了现有方法需要定向数据集中的预定义规范视点,无法处理视图缺失等问题。

Description

一种基于视图过滤的聚合卷积三维模型分类方法
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种基于视图过滤的聚合卷积三维模型分类方法。
背景技术
目前,三维模型识别是计算机图形学和计算机视觉的一个重要研究方向。三维模型是真实物体虚拟化表示,它通常可以用不同的格式表示,比较有代表性的如点云,体积网格和从单一视角捕捉的二维图像。近年来,随着3D采集技术(比如苹果深度相机和Kinect)的快速发展,三维模型在医疗、虚拟现实/增强现实和自动驾驶等领域被应用,推动了三维模型识别的发展。
近年来,大量的方法被提出,在三维模型识别上实现了良好的性能。按照三维形状的表示,可以将这些方法分为基于点的方法、基于体积的方法和基于多视图的方法。基于多视图的方法主要的问题是如何将多视图的特征融合成一个紧凑且可分辨的全局的三维形状描述符。基于体积的方法通常是先将点云转化成三维网格,然后从三维网格中学习三维形状的特征以实现形状分类。在基于点的方法中,每个点都用于特征学习,可以分为逐点MLP方法、基于卷积的方法、基于图的方法等经典方法。
现有的基于多视图的方法在三维形状识别方面有着最优的性能,但是仍然受到了一些限制。多视图序列可以有效地利用连续的多视图中所包含的特征信息,但更普遍的情况,如相机在正十二面体顶点上拍摄的多视图包含的三维几何信息被多视图序列所忽略,而且无法处理视图缺失问题。基于点的方法虽然使用了具有完整信息的点云作为输入,但是由于点云的非结构化和高维化等因素,严重影响了基于点的三维模型分类的进一步发展。基于体积的方法通常需要大量的计算开销,其形状识别的性能不如基于多视图的方法。综上,三维模型分类方法虽然达到了97%的准确率,但是仍然受到前置条件的诸多限制,导致三维模型分类性能不能进一步提升。
通过上述分析,现有技术存在的问题及缺陷为:现有技术中存在的依赖视图配置的同质空间、依赖于定向数据集中的预定义规范视点、无法应对视图缺失。
解决以上问题及缺陷的难度为:视图配置的同质空间需要严格的数学定义为基础条件,对于视图捕获的要求苛刻。大多数方法依赖于预定义规范视点获得的所有视图,对于其中不规范的视图无法进行识别筛选,使得不规范视图影响了三维模型的识别性能。对于多视图中代表性视图丢失,首先破坏了视图配置,导致无法识别,其次代表性视图的缺失影响识别。
解决以上问题及缺陷的意义为:三维模型多视图识别不依赖于视图配置的同质空间,极大地推动了三维模型识别在现实世界应用。克服多视图识别中预定义的规范视点及视图缺失的问题,为复杂环境中的三维模型识别提供了实验支撑。
发明内容
针对现有技术存在的问题,本发明提供了一种基于视图过滤的聚合卷积三维模型分类方法。
本发明是这样实现的,一种基于视图过滤的聚合卷积三维模型分类方法,所述基于视图过滤的聚合卷积三维模型分类方法包括:
将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据,将结构复杂的点云转换成规格的图像数据,避免了点云数据结构复杂,难以分析的难题;
利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列。利用生成的视图序列,将多视图序列中前k个代表性视图筛选出来用于识别,提升三维模型的识别性能;
提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,使k视图特征能够充分的进行融合。将重塑的k视图特征输入聚合卷积,聚合多视图特征。使每个视图的特征能够平等加权,避免了多视图特征融合中的信息损失。然后生成一个三维模型全局形状描述符;
采用全连接层和全局形状描述符进行三维模型分类。通过全连接层将高维度的全局形状描述符转换成低纬度的类别分数。
进一步,所述将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据具体包括:将所有三维模型通过视图渲染捕获的方式,转换成三维模型多视图数据
Figure BDA0003231985790000031
N=20;三维模型数据集为ModelNet40,训练集和测试集中的三维模型数分别为9843和2468个。
进一步,所述利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列具体包括:多视图数据中的每个视图图像Ii通过一个二维图像分类网络得到每个视图的预测标签
Figure BDA0003231985790000032
其中li∈{0,1,...,c-1},c表示分类任务中共有c个类别,比较预测标签与真实标签
Figure BDA0003231985790000033
Figure BDA0003231985790000034
得到预测结果
Figure BDA0003231985790000035
pi=0表示预测错误,pi=1表示预测正确,N=20。
进一步,所述提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符具体包括:首先将所有三维模型的多视图预测结果定义为
Figure BDA0003231985790000036
其中M是分类任务中所有形状的数量,基于预测结果P,进行实例级投票:
Figure BDA0003231985790000041
所有模型的同一视点的预测结果累加,给构造一个辅助序列
Figure BDA0003231985790000042
再对实例级投票结果
Figure BDA0003231985790000043
进行排序:
V′ins.=ψins.(Vins.,Ains.)
其中,排序函数ψins.将Vins.从大到小排列,序列Ains.记录了排序过程中,Vins.中每个数字的位置变化,最终生成序列V′ins.={i}i∈{1,2,...,N},序列V′ins.中的每个数字代表了一个视点的视图,生成实例级投票的视图序列。
进一步,所述采用全连接层和全局形状描述符进行三维模型分类具体包括:继续用定义的预测结果
Figure BDA0003231985790000044
再将所有三维模型多视图的预测标签定义为
Figure BDA0003231985790000045
对同一类别的预测结果进行实例级投票,使得同一类别中所有模型同一视点的预测结果累加;类级投票结果定义为
Figure BDA0003231985790000046
其中
Figure BDA0003231985790000047
Figure BDA00032319857900000414
被定义为:
Figure BDA0003231985790000048
其中,i=1,2,...,N,j=0,1,...,c-1,
Figure BDA0003231985790000049
作为一个约束条件保证同一类别的预测结果累加;构造一个辅助序列
Figure BDA00032319857900000410
其中
Figure BDA00032319857900000411
将投票结果和辅助序列输入排序函数:
V′cls.=ψcls.(Vcls.,Acls.)
得到类级投票的视图序列
Figure BDA00032319857900000412
其中
Figure BDA00032319857900000413
表示第j类的视图序列。
本发明的另一目的在于提供一种多视图三维模型分类方法,所述多视图三维模型分类方法包括所述的方法,具体包括:
步骤一,将待分类的三维模型进行抓拍捕获,转换成多视图数据;
步骤二,对三维模型多视图进行视图投票,得到两种视图序列V′ins.={i}i∈{1,2,...,N}
Figure BDA0003231985790000051
步骤三以V′ins.={i}i∈{1,2,...,N}投票结果为例,提取多视图特征
Figure BDA0003231985790000052
将视图序列中前k个视图的通过设计的拆分重组函数Φ,
F′=Φ(F,k)
对特征进行拆分重组后得到
Figure BDA0003231985790000053
k为输入视图的数量;
步骤四,利用设计的聚合卷积模块聚合多视图特征,聚合卷积模块由单层二维卷积实现,输入通道为k,输出通道为1;得到三维模型全局形状特征;
步骤五,将全局形状描述符输入一个由全连接层、Dropout和LeakyRule组成的模块,再通过softmax函数得到最终的类别概率向量PM
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述基于视图过滤的聚合卷积三维模型分类方法的步骤。
本发明的另一目的在于提供一种实施所述基于视图过滤的聚合卷积三维模型分类方法的基于视图过滤的聚合卷积三维模型分类系统,所述基于视图过滤的聚合卷积三维模型分类系统包括:
三维模型转换模块,用于将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据;
视图序列生成模块,用于利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列;
三维模型全局形状描述符生成模块,用于提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符;
三维模型分类模块,用于采用全连接层和全局形状描述符进行三维模型分类。
视图捕获的方式,转换成三维模型多视图数据。
本发明的另一目的在于提供一种所述基于视图过滤的聚合卷积三维模型分类方法在机器人三维模型分类中的应用。
本发明的另一目的在于提供一种所述基于视图过滤的聚合卷积三维模型分类方法在自动驾驶三维模型分类中的应用。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明所采取的基于投票的视图序列生成方法,克服了现有方法无法处理视图缺失,以及需要视图配置的同质空间等诸多前置条件;本发明所采取的特征融合方法,克服了传统的最大池化特征融合过程中信息损失的问题,本发明所采取方法,具有效率高,操作方便,正确率较高,达98.0%以上。
附图说明
图1是本发明实施例提供的基于视图过滤的聚合卷积三维模型分类方法的流程图。
图2是本发明实施例提供的基于视图过滤的聚合卷积三维模型分类系统的结构示意图;
图2中:1、三维模型转换模块;2、视图序列生成模块;3、三维模型全局形状描述符生成模块;4、三维模型分类模块。
图3是本发明实施例提供的两种三维模型多视图渲染捕获配置示意图。
图4是本发明实施例提供的原始视图序列以及两种投票后的视图序列示意图。
图5是本发明实施例提供的两种投票方式的流程图。
图6是本发明实施例提供的实例级投票视图序列的生成流程图。
图7是本发明实施例提供的类级投票视图序列的生成流程图。
图8是本发明实施例提供的实例级投票机制下,三种二维图像分类网络不同k值的分类结果示意图。
图9是本发明实施例提供的类级投票机制下,三种二维图像分类网络不同k值的分类结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于视图过滤的聚合卷积三维模型分类方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的基于视图过滤的聚合卷积三维模型分类方法包括以下步骤:
S101:将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据;
S102:利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列;
S103:提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符;
S104:采用全连接层和全局形状描述符进行三维模型分类。
本发明提供的基于视图过滤的聚合卷积三维模型分类方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的基于视图过滤的聚合卷积三维模型分类方法仅仅是一个具体实施例而已。
如图2所示,本发明提供的基于视图过滤的聚合卷积三维模型分类系统包括:
三维模型转换模块1,用于将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据;
视图序列生成模块2,用于利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列;
三维模型全局形状描述符生成模块3,用于提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符;
三维模型分类模块4,用于采用全连接层和全局形状描述符进行三维模型分类。
下面结合附图对本发明的技术方案作进一步的描述。
本发明的三维模型是三维网格数据,三维模型视图渲染捕获配置依照三维模型的中心点建立,例如,如图4所示,可由x、y和z三个坐标的中心点确定。给定一个三维形状S,本发明按照图5所示的两种预定义相机阵列,从三维形状渲染生成N个视图,其中N分别等于12和20。
首先通过二维图像分类网络对三维物体的多视图进行投票排序,生成视图序列。其次本发明对二维图像分类网络重新进行训练,提取利用视图序列筛选出k个视图的特征。然后本发明设计了一个多视图聚合卷积来聚合多视图特征生成一个全局形状描述符。最后,全局形状描述符可用于三维形状识别。
本发明采用LeakyRule激活函数来增强网络的非线性表达能力,计算公式如下:
y=max(0,x)+leak*min(0,x) (1)
其中,x为上一层网络的输出,leak是一个很小的常数,这样保留了一些负轴的值,使得负轴的信息不会全部丢失。
本发明采用投票函数来获取视图的最优序列。投票函数如下:
Figure BDA0003231985790000091
其中,
Figure BDA0003231985790000092
表示投票结果,
Figure BDA0003231985790000093
表示多视图分类结果,
Figure BDA0003231985790000094
为0即表示预测错误,为1则表示预测正确。
为了获得更加有代表性的视图序列,本发明优化公式(2)为:
Figure BDA0003231985790000095
其中,i=1,2,...,N,j=0,1,...,c-1,
Figure BDA0003231985790000096
作为一个约束条件保证同一类别的预测结果累加。
Figure BDA0003231985790000097
表示多视图分类结果,
Figure BDA0003231985790000098
为0即表示预测错误,为1则表示预测正确。
本发明用softmax函数来获取每个类别的预测概率。softmax函数如下:
Figure BDA0003231985790000099
表示,样本x数据属于第j类的概率。其中w为权重项,x为上一层网络的输出。
下面结合具体实施例对本发明的技术方案作进一步的描述。
本发明中所述的三维模型为三维网格数据,下面针对所述的三维模型为三维网格数据进行描述。所采用的三维网格数据通过合成得到,没有任何遮挡和背景。以下实施实例均以经过ImageNet预训练的ResNet-18为骨干网络。
实施例1:
本发明实施例的三维模型数据为三维网格数据,下面针对所述的三维模型数据为三维网格数据进行描述。所采用的三维网格数据通过合成得到,没有任何遮挡和背景。评估数据总共有11231个三维模型,其中9843个训练集,2468个测试集,分为40类。以下为具体的实施步骤:
步骤一:把评估数据中的三维模型的三维网格数据按照图4的(b)中的视图渲染捕获方式,把三维模型的网格数据转换成多视图数据。共20个视图,每个视图的大小为224×224;
步骤二:将评估数据放入二维图像分类网络,得到每个视图的预测标签
Figure BDA0003231985790000101
比较预测标签和真实标签
Figure BDA0003231985790000102
得到预测结果
Figure BDA00032319857900001017
k=1,2,...,2468,
Figure BDA0003231985790000103
表示预测错误,
Figure BDA0003231985790000104
表示预测正确;
步骤三:利用预测结果
Figure BDA0003231985790000105
k=1,2,...,2468和两种投票函数进行投票,得到投票结果,即得到投票结果
Figure BDA0003231985790000106
Figure BDA0003231985790000107
Figure BDA0003231985790000108
其中
Figure BDA0003231985790000109
表示第j类的投票结果,j=0,1,...,39。Vins.
Figure BDA00032319857900001010
中每个位置的数字,代表一个视图;
步骤四:分别构造两个辅助序列
Figure BDA00032319857900001011
Figure BDA00032319857900001012
其中
Figure BDA00032319857900001013
利用排序函数ψ分别对
Figure BDA00032319857900001014
Figure BDA00032319857900001015
以及辅助序列进行排序,得到最终的视图序列V′ins.={i}i∈{1,2,...,20}
Figure BDA00032319857900001016
表示第j类的准确率;
该实施例中:
V′ins.=[7,5,16,19,9,10,15,6,11,0,2,8,14,3,4,1,17,13,18 12],
V′cls.=[[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19],[2,19,15,18,3,5,7,11,6,14,1,9,4,10,17,8,12,13,16,0],[5,17,10,13,14,1,2,6,0,3,9,11,15,16,4,7,8,12,18,19],[8,10,0,1,2,4,5,6,9,11,12,14,15,18,13,16,17,3,7,19],[7,4,5,9,10,16,17,6,14,15,8,0,11,12,19,1,2,3,13,18],[19,7,4,5,8,0,1,3,15,16,2,6,11,9,12,13,10,14,17,18],[0,19,7,9,2,5,10,12,16,17,1,4,11,14,15,3,6,8,13,18],[8,9,0,2,6,7,11,14,18,1,3,4,5,10,12,13,15,16,17,19],[19,7,16,18,15,17,4,6,10,13,14,0,1,2,3,5,8,9,11,12],[0,7,16,19,6,11,12,14,15,17,18,1,2,3,4,5,8,9,10,13],[0,19,1,7,8,13,3,6,11,14,15,18,4,5,9,10,12,16,17,2],[9,0,1,11,2,3,10,13,16,5,7,8,12,14,18,19,4,6,15,17],[5,2,9,16,3,13,1,10,17,7,0,4,11,12,14,18,6,8,15,19],[7,9,10,15,0,4,12,14,17,1,3,6,13,16,18,19,2,5,8,11],[9,10,12,5,14,0,11,17,18,4,7,13,15,16,1,6,2,8,3,19],[16,0,7,9,10,2,14,17,3,4,5,13,15,18,1,11,19,6,8,12],[6,7,0,1,15,16,19,10,11,17,5,13,3,4,9,8,14,18,12,2],[19,8,2,11,5,7,10,0,4,6,9,13,14,16,1,3,12,15,17,18],[9,19,0,1,2,4,5,7,8,10,11,16,3,6,12,13,14,15,17,18],[0,7,16,19,3,6,11,12,14,15,18,1,2,5,8,10,13,4,9,17],[0,7,10,11,16,1,2,3,4,5,6,8,9,12,13,14,15,17,18,19],[10,9,1,6,15,7,8,19,0,4,5,14,16,17,12,2,3,18,11,13],[7,16,6,8,11,13,17,19,0,2,4,12,3,10,14,15,1,5,9,18],[9,12,10,13,14,5,7,2,1,6,15,18,4,17,19,3,11,8,16,0],[0,1,6,9,10,2,3,4,5,7,8,11,13,14,15,16,17,19,12,18],[9,10,7,8,11,4,19,0,5,2,6,15,16,17,14,1,3,13,18,12],[16,19,10,18,9,0,7,14,15,6,8,12,17,1,3,5,11,13,4,2],[7,0,6,16,5,11,3,8,9,10,15,17,18,1,14,19,2,12,4,13],[7,6,19,9,11,16,0,8,18,12,13,14,15,17,1,3,4,10,2,5],[4,15,18,3,11,14,19,0,2,5,6,7,8,10,9,13,17,1,12,16],[9,7,0,5,1,8,10,14,15,16,19,2,4,11,3,6,12,18,13,17],[7,19,0,3,15,5,9,11,18,2,6,8,10,12,13,16,17,1,14,4],[11,16,9,10,12,17,1,2,5,7,8,13,0,3,4,6,14,15,18,19],[14,13,11,15,7,16,2,9,12,17,18,5,6,19,0,1,10,3,4,8],[7,16,8,10,13,0,9,11,14,15,19,1,6,12,17,18,2,3,4,5],[18,17,2,3,4,5,7,11,12,13,15,0,1,6,8,9,10,14,16,19],[9,7,10,0,16,17,11,14,15,5,6,8,1,4,18,19,12,2,3,13],[5,18,2,7,13,19,17,9,3,14,4,10,12,15,6,16,8,11,0,1],[17,5,14,16,0,4,10,15,7,8,9,3,6,18,2,13,1,11,12,19],[9,10,0,1,2,5,6,7,8,16,4,12,17,11,15,19,14,18,3,13]],部分模型的多视图投票排序结果如图3所示。
实施例2:
本发明实施例是用实施例1得到的多视图投票排序结果分类多视图三维模型:
步骤一:把评估数据中的三维模型的三维网格数据按照图4的(b)中的视图渲染捕获方式,把三维模型的网格数据转换成多视图数据。共20个视图,每个视图的大小为224×224;
步骤二:以实施例1中的投票结果V′cls.为例,将评估数据输入二维图像分类网络,重新训练,然后筛选出前10个视图的特征进行特征聚合,其中前10个特征为
Figure BDA0003231985790000121
其中
Figure BDA0003231985790000122
步骤四:利用特征拆分重组函数Φ,对前k个视图特征进行操作。得到重组后的特征
Figure BDA0003231985790000123
其中
Figure BDA0003231985790000124
步骤五:利用聚合卷积聚合多视图特征F′,得到输出结果
Figure BDA0003231985790000125
即为三维模型全局描述符。再通过全连接模块和softmax函数,得到分类概率
Figure BDA0003231985790000126
该实施例使用ModelNet40进行训练和测试,其中9843个训练集,2468个测试集,如图3所示,AlexNet、ResNet18和ResNet-50三种二维图像分类网络平均分类准确率分别为96.65%、97.49%,97.60%,最大分类准确率分别为97.16%、97.97%和97.93%,k值分别为16,10,8。
该实施例中:
正确分类示例:airplane为第一类,
softmax函数的输入为:
[23.8367,-1.1190,2.2015,2.4085,-2.7210,-0.3147,1.4109,0.9245,1.4851,1.5933,-2.5887,-0.2850,-1.8253,-2.5971,-7.1425,0.0674,-1.0757,1.7438,1.0768,-2.2955,-2.2966,-4.6665,-1.1007,-2.8307,3.6586,-1.5686,4.5477,-2.3176,0.0850,-2.2065,0.1969,1.6204,1.1256,-2.8454,2.2598,-4.5910,-3.2231,-1.7781,-3.2291,0.1780];
softmax函数的输出概率
Figure BDA0003231985790000131
[1.0000E+00,1.4517E-11,4.0175E-10,4.9414E-10,2.9251E-12,3.2447E-11,1.8222E-10,1.1204E-10,1.9626E-10,2.1868E-10,3.3388E-12,3.3426E-11,7.1637E-12,3.3109E-12,3.5148E-14,4.7547E-11,1.5159E-11,2.5420E-10,1.3047E-10,4.4764E-12,4.4715E-12,4.1804E-13,1.4785E-11,2.6212E-12,1.7249E-09,9.2602E-12,4.1966E-09,4.3786E-12,4.8391E-11,4.8931E-12,5.4121E-11,2.2469E-10,1.3699E-10,2.5829E-12,4.2586E-10,4.5082E-13,1.7704E-12,7.5099E-12,1.7598E-12,5.3108E-11]
其中概率最大值在
Figure BDA0003231985790000132
的第一个位置,故分类正确。
错误分类示例:vase为第三十八类;
softmax函数的输入为:
[-4.0602,-1.7853,-3.2099,-1.8614,1.8016,2.5911,-1.2325,-0.7580,-4.5995,-2.3000,-1.4997,-0.3561,-1.5776,0.8206,0.3007,-2.1277,2.1265,-0.3672,3.8206,-0.9660,-1.2970,0.4597,-0.3220,0.1353,-0.0863,-0.8107,-0.8431,6.5920,-0.8845,0.4109,3.2181,-1.1692,-0.5150,-0.3259,1.3129,-1.2948,5.1673,2.5991,5.5469,2.4707];
softmax函数的输出概率
Figure BDA0003231985790000133
[1.3214E-05,1.2854E-04,3.0926E-05,1.1912E-04,4.6430E-03,1.0225E-02,2.2341E-04,3.5907E-04,7.7060E-06,7.6823E-05,1.7102E-04,5.3668E-04,1.5821E-04,1.7408E-03,1.0351E-03,9.1269E-05,6.4253E-03,5.3076E-04,3.4965E-02,2.9164E-04,2.0945E-04,1.2134E-03,5.5530E-04,8.7726E-04,7.0289E-04,3.4063E-04,3.2977E-04,5.5878E-01,3.1640E-04,1.1556E-03,1.9141E-02,2.3801E-04,4.5783E-04,5.5314E-04,2.8481E-03,2.0992E-04,1.3443E-01,1.0307E-02,1.9650E-01,9.0653E-03]。
其中概率最大值在
Figure BDA0003231985790000141
的第二十八个位置,而vase的分类概率值排在第六的位置,故分类错误。
下面结合实验对本发明的技术效果作详细的描述。
本实验以ModelNet40为性能评估数据集,分别以ResNet-18、AlexNet、ResNet-50为特征提取的骨干网络,与目前最先进的方法View-GCN和RotationNet做了比较,结果如下表所示。可以看出,以ResNet-18为骨干网络,本发明的方法与View-GCN相比,每个实例的准确率提升了0.37%。以AlexNet为骨干网络,本发明的方法与RotationNet和View-GCN相比,每个实例的准确率分别提高了0.85%和0.04%,而当使用ResNet-50作为骨干网络时,每个实例的准确率分别提高了1.01%和0.63%。
Figure BDA0003231985790000142
此外,本发明还评估了本发明方法的参数量和内存用量及分类准确率(括号中为每类的平均准确率),结果如下表所示。本发明的方法参数量比VoxNet和PointNet多,在使用AlexNet时与VoxNet的内存用量相当,但是本发明的方法的性能,明显超过了VoxNet和PointNet。使用相同的ResNet-18作为骨干网络,本发明方法的参数量只有View-GCN的三分之一,但是性能却优于它。与其他的方法,如RotationNet和MVCNN-New,本发明的方法在参数量,内存用量,准确率方法,均占有优势。
Figure BDA0003231985790000151
此外,本发明还在RGBD数据集上评估了本发明的方法。RGBD是一个真实拍摄的多视角数据集,由300个家用物品组成,分为51个类别,结果如下表所示。与View-GCN相比,本发明的方法在使用AlexNet和ResNet-18作为骨干网络的情况下,每实例的分类精度分别提高了0.26%和0.60%。与之前一些需要更多视图的方法相比,如MDSI-CNN、CFK和MMDCN,本发明的方法表现出明显的改进,并取得了最佳的每实例分类精度结果。这些结果验证了本发明的方法可以在真实拍摄的多视图图像上表现良好。
Figure BDA0003231985790000152
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于视图过滤的聚合卷积三维模型分类方法,其特征在于,所述基于视图过滤的聚合卷积三维模型分类方法包括:
将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据;
利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列;
提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符;
采用全连接层和全局形状描述符进行三维模型分类。
2.如权利要求1所述的基于视图过滤的聚合卷积三维模型分类方法,其特征在于,所述将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据具体包括:将所有三维模型通过视图渲染捕获的方式,转换成三维模型多视图数据
Figure FDA0003231985780000011
三维模型数据集为ModelNet40,训练集和测试集中的三维模型数分别为9843和2468个。
3.如权利要求1所述的基于视图过滤的聚合卷积三维模型分类方法,其特征在于,所述利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列具体包括:多视图数据中的每个视图图像Ii通过一个二维图像分类网络得到每个视图的预测标签
Figure FDA0003231985780000012
其中li∈{0,1,...,c-1},c表示分类任务中共有c个类别,比较预测标签与真实标签
Figure FDA0003231985780000013
Figure FDA0003231985780000014
得到预测结果
Figure FDA0003231985780000015
表示预测错误,pi=1表示预测正确,N=20。
4.如权利要求1所述的基于视图过滤的聚合卷积三维模型分类方法,其特征在于,所述提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符具体包括:首先将所有三维模型的多视图预测结果定义为
Figure FDA0003231985780000021
其中M是分类任务中所有形状的数量,基于预测结果P,进行实例级投票:
Figure FDA0003231985780000022
所有模型的同一视点的预测结果累加,给构造一个辅助序列
Figure FDA0003231985780000023
再对实例级投票结果
Figure FDA0003231985780000024
进行排序:
V′ins.=ψins.(Vins.,Ains.)
其中,排序函数ψins.将Vins.从大到小排列,序列Ains.记录了排序过程中,Vins.中每个数字的位置变化,最终生成序列V′ins.={i}i∈{1,2,...,N},序列V′ins.中的每个数字代表了一个视点的视图,生成实例级投票的视图序列。
5.如权利要求1所述的基于视图过滤的聚合卷积三维模型分类方法,其特征在于,所述采用全连接层和全局形状描述符进行三维模型分类具体包括:继续用定义的预测结果
Figure FDA0003231985780000025
再将所有三维模型多视图的预测标签定义为
Figure FDA0003231985780000026
对同一类别的预测结果进行实例级投票,使得同一类别中所有模型同一视点的预测结果累加;类级投票结果定义为
Figure FDA0003231985780000027
其中
Figure FDA0003231985780000028
Figure FDA0003231985780000029
被定义为:
Figure FDA00032319857800000210
其中,i=1,2,...,N,j=0,1,...,c-1,
Figure FDA00032319857800000211
作为一个约束条件保证同一类别的预测结果累加;构造一个辅助序列
Figure FDA00032319857800000212
其中
Figure FDA0003231985780000031
将投票结果和辅助序列输入排序函数:
V′cls.=ψcls.(Vcls.,Acls.)
得到类级投票的视图序列
Figure FDA0003231985780000032
其中
Figure FDA0003231985780000033
表示第j类的视图序列。
6.一种多视图三维模型分类方法,其特征在于,所述多视图三维模型分类方法包括权利要求2~5任意一项所述的方法,具体包括:
步骤一,将待分类的三维模型进行抓拍捕获,转换成多视图数据;
步骤二,对三维模型多视图进行视图投票,得到两种视图序列V′ins.={i}i∈{1,2,...,N}
Figure FDA0003231985780000034
步骤三以V′ins.={i}i∈{1,2,...,N}投票结果为例,提取多视图特征
Figure FDA0003231985780000035
将视图序列中前k个视图的通过设计的拆分重组函数Φ,
F′=Φ(F,k)
对特征进行拆分重组后得到
Figure FDA0003231985780000036
k为输入视图的数量;
步骤四,利用设计的聚合卷积模块聚合多视图特征,聚合卷积模块由单层二维卷积实现,输入通道为k,输出通道为1;得到三维模型全局形状特征;
步骤五,将全局形状描述符输入一个由全连接层、Dropout和LeakyRule组成的模块,再通过softmax函数得到最终的类别概率向量PM
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~5任意一项所述基于视图过滤的聚合卷积三维模型分类方法的步骤。
8.一种实施权利要求1~5任意一项所述基于视图过滤的聚合卷积三维模型分类方法的基于视图过滤的聚合卷积三维模型分类系统,其特征在于,所述基于视图过滤的聚合卷积三维模型分类系统包括:
三维模型转换模块,用于将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据;
视图序列生成模块,用于利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列;
三维模型全局形状描述符生成模块,用于提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符;
三维模型分类模块,用于采用全连接层和全局形状描述符进行三维模型分类;
视图捕获的方式,转换成三维模型多视图数据。
9.一种如权利要求1~5任意一项所述基于视图过滤的聚合卷积三维模型分类方法在机器人三维模型分类中的应用。
10.一种如权利要求1~5任意一项所述基于视图过滤的聚合卷积三维模型分类方法在自动驾驶三维模型分类中的应用。
CN202110990067.4A 2021-08-26 2021-08-26 一种基于视图过滤的聚合卷积三维模型分类方法 Active CN113869120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110990067.4A CN113869120B (zh) 2021-08-26 2021-08-26 一种基于视图过滤的聚合卷积三维模型分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110990067.4A CN113869120B (zh) 2021-08-26 2021-08-26 一种基于视图过滤的聚合卷积三维模型分类方法

Publications (2)

Publication Number Publication Date
CN113869120A true CN113869120A (zh) 2021-12-31
CN113869120B CN113869120B (zh) 2022-08-05

Family

ID=78988391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110990067.4A Active CN113869120B (zh) 2021-08-26 2021-08-26 一种基于视图过滤的聚合卷积三维模型分类方法

Country Status (1)

Country Link
CN (1) CN113869120B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294590A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种基于半监督学习的社交网络垃圾用户过滤方法
CN110457515A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法
US20200356760A1 (en) * 2019-05-09 2020-11-12 Snap Inc. Sequence-of-sequences model for 3d object recognition
CN113191401A (zh) * 2021-04-14 2021-07-30 中国海洋大学 基于视觉显著性共享的用于三维模型识别的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294590A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种基于半监督学习的社交网络垃圾用户过滤方法
US20200356760A1 (en) * 2019-05-09 2020-11-12 Snap Inc. Sequence-of-sequences model for 3d object recognition
CN110457515A (zh) * 2019-07-19 2019-11-15 天津理工大学 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法
CN113191401A (zh) * 2021-04-14 2021-07-30 中国海洋大学 基于视觉显著性共享的用于三维模型识别的方法及装置

Also Published As

Publication number Publication date
CN113869120B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
Xie et al. Unseen object instance segmentation for robotic environments
Zhu et al. Cylindrical and asymmetrical 3d convolution networks for lidar-based perception
CN110135503B (zh) 一种装配机器人零件深度学习识别方法
CN110321910B (zh) 面向点云的特征提取方法、装置及设备
CN111080693A (zh) 一种基于YOLOv3的机器人自主分类抓取方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN108171133B (zh) 一种基于特征协方差矩阵的动态手势识别方法
CN110457515B (zh) 基于全局特征捕捉聚合的多视角神经网络的三维模型检索方法
Makantasis et al. Deep learning based human behavior recognition in industrial workflows
CN110728295B (zh) 半监督式的地貌分类模型训练和地貌图构建方法
CN110222718B (zh) 图像处理的方法及装置
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN108133235B (zh) 一种基于神经网络多尺度特征图的行人检测方法
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN110991444A (zh) 面向复杂场景的车牌识别方法及装置
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
Wang et al. Transformer for 3D point clouds
Yang et al. Multi-scale bidirectional fcn for object skeleton extraction
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN115761905A (zh) 一种基于骨骼关节点的潜水员动作识别方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN112199994B (zh) 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
Wang SGDN: Segmentation-based grasp detection network for unsymmetrical three-finger gripper
CN109740682B (zh) 一种基于域转化和生成模型的图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant