CN113313161A - 基于旋转不变的规范等变网络模型的物体形状分类方法 - Google Patents
基于旋转不变的规范等变网络模型的物体形状分类方法 Download PDFInfo
- Publication number
- CN113313161A CN113313161A CN202110568102.3A CN202110568102A CN113313161A CN 113313161 A CN113313161 A CN 113313161A CN 202110568102 A CN202110568102 A CN 202110568102A CN 113313161 A CN113313161 A CN 113313161A
- Authority
- CN
- China
- Prior art keywords
- point
- invariant
- transformation
- formula
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004913 activation Effects 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000011423 initialization method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012856 packing Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种基于旋转不变的规范等变网络模型的物体形状识别方法,通过将每个3D物体的全局坐标在局部坐标上进行投影,构建并利用基于旋转不变的规范等变卷积网络模型,实现空间旋转不变的3D物体形状分类与识别。本发明方法可与现有逐点激活函数一起使用,提升了模型识别3D物体形状的性能;同时,本发明利用旋转对称性以及规范对称性作为先验信息,实现了高效的参数共享机制,能在参数量更少的情况下,超越现有最优的网络模型,能够取得更优的3D物体形状分类性能。
Description
技术领域
本发明属于模式识别、机器学习、人工智能、计算机图形学技术领域,涉及形状分类 方法,具体涉及一种基于旋转不变的规范等变网络模型的图像中物体形状分类方法。
背景技术
在过去的几年中,卷积神经网络(CNN)模型席卷了各大领域,包括机器学习、计算机 视觉等。形状分类是三维(3D)图像与视觉任务处理技术中的一个重要问题,由于CNN在二维(2D)图片分类识别处理上的成功,将其应用到3D图像数据引起了广泛的关注。大部 分的CNN都是针对定义在规则格点上的图片开发的,直接将这些CNN推广至采样于曲面的 不规则格点数据用于物体形状分类不是一件简单的事,因为在普通的曲面上缺少一个标 准的坐标系。一些早期工作将这些曲面数据做2维投影,或者通过体素格点来表示,这些 方法的缺点是计算量过大。另外一些工作直接将卷积定义在全面上,这样的好处对曲面的 形变更鲁棒。这类方法的主要难点在于,曲面上每个点的邻域没有一个标准的坐标系,使 得卷积核方向难以确定,目前主流的工作集中于克服这个问题。
为了解决卷积核方向不确定性,Boscaini等人通直接激活最大的方向来确定卷积核方 向,但会损失掉特征图中的方向信息。之后Boscaini又采用主曲率来确定卷积核的方向, 缺点在于在一些常见的曲面上比如扭结与球面上,主曲率不存在。Poulenard采用规范等 变网络来解决这个卷积核的不确定性,然而,他们采用的等变卷积核是标量形式的,表达 能力有限。Cohen提出了更加一般的规范不变网络,之后被de Haann与Wiersma应用在了一般的网格mesh上。de Haann等人发现,逐点的激活函数比比如ReLU普遍比NormNonlinearity与Gated Nonlinearity性能好,但是逐点的非线性激活函数一般不具有等变性,因此de Haann等人提出RegularNonlinearity,但是这种方法需要进行一次傅里叶变换与逆变换,带来了额外的计算负担。同时,以上的这些工作都普遍不具有空间旋转不变性。为了解决以上技术方法的不足,本专利提出了一种同时具有空间旋转不变性与规范等变的网络用于物体形状识别。
发明内容
为了克服上述现有技术的不足,本发明提供一种新型的基于旋转不变的规范等变网络 模型的图像物体形状识别方法,模型取名为RIGE-Net(Rotation Invariant GaugeEquivariant network),用于高效地进行3D图像数据中物体形状的分类与识别等视觉分析。
本发明利用等变性作为数学指导,分别设计了模型的输入处理和卷积层,使得整个模 型同时具有空间旋转不变性以及规范不变性。整个模型的输入是一个3D物体的mesh结 构,输出为该物体的预测类别。
本发明提供的技术方案是:
一种基于旋转不变的规范等变网络模型的物体形状识别方法,将每个3D物体的全局 坐标在局部坐标上进行投影,通过构建并利用基于旋转不变的规范等变的卷积网络模型, 实现空间旋转不变的3D物体形状识别,用于高效的进行3D数据的分类与识别等视觉分析, 包括以下步骤:
一)先对3D物体数据(mesh data)进行数据预处理,构造特征作作为模型的输入;
具体实施时,3D物体数据可利用3D相机获取3D物体数据集或直接采用已有的3D物体数据集。3D物体数据的格式采用mesh data(mesh数据)。mesh数据是3D物体的 一种数据表示,一个mesh由一组点、边、面构成,定义了一个物体的形状及大小。 mesh可以通过marching cubes算法生成)。数据预处理包括如下步骤:
11)归一化
计算出代表每个3D物体的mesh数据(3Dmesh)的面积,然后同放缩每个3Dmesh, 将其面积归一化为1.
12)确定3Dmesh中每个点的邻域:
事先设定测地阈值(类似于卷积核的半径)和直线阈值;根据3Dmesh中每个点在空间中的位置,找出在空间中与该点直线距离小于所设定测地阈值的点集,然后使用 (热向量法)vector heat method,对于3Dmesh中每个点i,计算出与该点直线距离小于 一设定直线阈值的点之间的测地距离,然后从这些小于设定直线阈值的点中筛选出测 地距离也小于相应测地阈值的点作为i点的邻域,记作ni。
13)选定一个局部坐标系:
对于3Dmesh中的每一个点,计算出它的切平面,然后任意选定切平面的坐标系作为局部坐标系,确定坐标系的x,y轴。
14)计算对数映射以及联络:
根据局部坐标系,使用vector heat method计算出3Dmesh中每一个点i邻域中 的点j的局部坐标以及点j点至i对应的联络gj→i,其中联络gj→i是一个2维旋 转,计算时,使用vector heat method即可计算每一个点i对应的旋转角度。
15)构造输入特征:
现有模型大多将3Dmesh中每个点的坐标直接作为输入,但这使得模型输入不是旋转不变的。相比之下,本发明将每个点的坐标,投影在该点的法向量方向,以及切平 面中局部坐标的x,y轴方向,从而得到3个新的分量u1、u2和u3,作为模型的输 入,这能使得模型不依赖于物体在3D空间中的方向。
二)将3Dmesh数据分为训练样本和测试样本;
三)构建规范等变卷积:
所谓规范等变卷积即为,如果在另一个局部坐标系来做卷积,输入的特征以及输出 的特征都会发生一个相应的变换。为了达到这个条件,卷积核需要做相应的限制。
31)用群表示来描述输入特征以及输出特征之间随着局部坐标系的变换相对应变换方式;
首先,我们事先规定好输入特征以及输出特征之间随着局部坐标系的变换相对应的变换方式。我们用群表示来描述变换方式。变换方式只有两种,其中一种是对应于 规范等变卷积模型的输入特征u,显然,随着局部坐标系的变换θ∈SO(2),u的变换方 式表示为式(1):
u′=ρlocal(θ)u 式(1)
其中,θ为局部坐标系的变换;ρlocal是SO(2)(2维旋转构成的群)的一个群表示,表示为式(2):
另一种变换方式对应于对于中间层特征f,当局部坐标系的变换θ∈CN时,(CN是 SO(2)的一个子群,是2pi/N的整数倍的旋转构成的集合,N是一个超参数,我们将其 设置为奇数),f的变换方式表示为式(3):
其中,是CN的一个群表示,关于它的具体介绍,可参考《LinearRepresentation of Finite Group》。由于只确定了对于属于CN的坐标变换方式,中间层特征f应该如 何变换,本发明提出一种方法将给拓展至SO(2)。根据有限群的表示,可分解为不 可约表示,即式(4):
其中,A是一个N维可逆矩阵,ψi(i=0,…,N-1/2)是CN的不可约表示,对于任意的θ∈ CN,表示如下:
其中,K=1,…,N-1/2。我们将ψi自然的拓展至SO(2),对任意的θ∈SO(2):
因此,对于中间层特征,局部坐标变换θ∈SO(2),f的变换方式表示为式(8):
32)构建模型的卷积操作;
本发明中的卷积操作,使得每一层的特征满足相应的变换规则。假设卷积层的输入特 征为n1维的fin(fin为mesh上每一点特征的集合),它的变换规则用输入群表示ρin描述,输 出层的变换规则用输出群表示ρout描述,K:其中n2是输出的维度;
式(9)中,K表示卷积核;(K*fin)i表示卷积运算;ηi为i点的邻近点集;我们事 先使用平行移动输入群表示ρin(gj→i),使得输入群表示中不同点的特征移动到同一空间; 令aj表示j点的积分权重,可使用Wiersma提出的方法来计算aj:
Aqrt表示j、r、t三个点所围成的三角形的面积。注意,为了使得卷积的输出满足设定 的变换规则,卷积核K需要满足如下的条件:
对任意的θ∈SO(2),
K(θ-1v)=ρout(θ-1)K(v)ρin(θ) 式(11)
实际上,上述条件等价于:式(11)只需要对一个特殊的θ0成立(这个θ0对应任意一个无理数乘以2pi)即可,因为可以证明,式(11)如果对这个θ0成立,那么对于所有的 θ∈SO(2)都成立。
为了找出满足条件的卷积核K,我们将卷积核K在0点处做泰勒展开:
式(12)中,v∈R2表示一个二维坐标,是卷积核K的输入,v1、v2分别表示坐标v的 两个分量。
并将其带回式(11),得到泰勒系数需要满足的条件:
在实际计算中,我们只将(1.12)展开到2阶项,为了找出所有满足条件的泰勒系数
式(13)等价为一个正常的线性方程。我们将泰勒系数Ki(具体实施时泰勒系数取值为 K0...K5)打包在一个向量中,然后通过SVD(singular value decomposition,奇异值分解)求解出这个方程的基就是所有满足条件的泰勒系数。满足条件的系数带入式(12),就可以得到满足式(11)的核函数Ki(i=1,2,…,k),每个Ki都满足式(11),它们的线性组合∑ciKi也满足式(11),在训练过程中,这些ci就是学习的权重。在实现时,我们做了一个 松弛,将θ0选择为的旋转,这样,式(11)只对CN成立,只要N足够大,等变性就可以得 到满足。
四)构建基于旋转不变的规范等变的卷积网络模型RIGE-Net:
采用任意一种卷积网络结构比如ResNet,DenseNet等,只需要将相应的卷积改为步骤 3)中介绍的卷积,以及输入,以及中间层的特征的变换方式,其中激活函数依然可以使用 逐点的激活函数。
我们在网络的最后一个卷积层的输出采用一个Cohen的群池化层来使得网路规范不变, 也就是说网络的输出不依赖于局部坐标系的选取,最后再分别通过全局平均池化层和全连 接层得到每个类别的预测分数。
本发明中的卷积层使用Weiler在(Learning Steerable Filters for RotationEquivariant CNNs)中提出的初始化方法,全连接层使用Xavier初始化方法。整个网络结构可以使用pytorch实现。
本发明具体实施时,均采用反向传播算法,用Adam算法对模型训练。训练过程迭代70 轮,批大小为1,即每一个mesh为一个批次。学习速率初始值为0.1,在41至70轮学习 速率为0.01。
五)利用步骤4)构建并训练好的RIGE-Net模型,对测试mesh样本进行识别,得到预测的形状分类标签。
本发明的有益效果是:
附图说明
图1是本发明具体实施构建的3D物体形状分类模型RIGE-Net的具体网络的结构框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种新型的基于旋转不变的规范等变网络模型RIGE-Net的形状识别方法, 用于高效的进行3D数据的分类与识别等视觉分析。包括以下步骤:
步骤1:先对整个3D数据(mesh data)进行数据预处理,包括如下步骤:
11)归一化
计算出每个mesh的面积,然后同放缩mesh,将其面积归一化为1.
12)确定mesh上每个点的邻域:
事先设定一个阈值(类似于卷积核的半径),根据mesh中每个点在空间中的位置,找 出在空间中与它直线距离小于设定阈值的点集,然后使用vector heat method,计算出每个mesh中每个点与对应点集之间的测地距离,然后从对应集合中筛选出测定距 离也小于相应阈值的点集作为该点的邻域,记作ni。
13)选定一个局部坐标系:
对于mesh中的每一个点,计算出它的切平面,然后任意选定切平面的坐标系,确定x,y轴。
14)计算对数映射以及联络:
有了局部坐标系,就可以使用vector heat method计算出每一个点i邻域中的点j的 局部坐标以及点j点至i对应的联络gj→i,其中gj→i是一个2维旋转,计算时, 使用vector heat method即可计算其对应的旋转角度。
15)构造输入特征:
之前的模型都将mesh中每个点的坐标直接作为输入,但这使得模型输入不是旋转不 变的。相比之下,我们将每个点的坐标,投影在该点的法向量方向,以及切平面中局 部坐标的x,y轴方向,从而得到3个新的放量u1、u2和u3作为模型的输入,这能使 得模型不依赖与物体在3D空间中的方向。
步骤2:将3D数据分为训练样本和测试样本,本实例使用数据集为Shrec dataset(Shape Retrieval on Non-rigid 3D Watertight Meshes.),这些3D物体形状数据来自于一 些知名的数据库,如PSB,McGill等,是对客观实体通过计算机图形学建模得到,该数 据集包含了30类3D物体形状,每个3D物体形状有20个样本,我们将该数据集分为 训练集和测试集,训练集和测试集每类均为10个3D物体形状样本。
步骤3:构建规范等变卷积:
所谓规范等变的卷积即为,如果我们在另一个一个局部坐标系来做卷积,输入的特征 图以及输出的特征图都会放生一个相应的变换。为了达到这个条件,卷积核需要做相应的限制。首先,我们事先规定好输入特征以及输出特征之间随着局部坐标系的变换 相对应的变换方式。这里我们用群表示来描述,我们这里只有两种变换方式,一种是 对应于整个模型的输入特征u,我们可以显然的看出,随着局部坐标系的变换θ∈SO(2), u的变换方式是
u′=ρlocal(θ)u (1.1)
这里,ρlocal是SO(2)的一个群表示,
对于中间层的特征f,我们希望当坐标系的变换θ∈CN时,(CN是SO(2)的一个子群,是2pi/N的整数倍的旋转构成的集合,这里N是一个超参数,我们将其设置为奇数), f的变换方式为
这里,是CN的一个群表示,关于它的具体介绍,可参考《LinearRepresentation of Finite Group》。由于只确定了对于属于CN的坐标变换方式,特征f应该如何变换, 因此这里,我们提出一种方法将给拓展至SO(2).根据有限群的表示理论,我们可 分解为不可约表示:
其中A是一个N维可逆矩阵,ψi(i=0,…,N-1/2)是CN的不可约表示,如下:
任意的θ∈CN,
K=1,…,N-1/2。我们将ψi自然的拓展至SO(2):
对任意的θ∈SO(2),
对任意的θ∈SO(2),
因此,对于中间层特征,局部坐标变换θ∈SO(2),
(1.9)式中,我们事先使用了一个平行移动ρin(gj→i)使得不同点的特征移动到同一空 间,ai表示j点的积分权重,这里我们使用了Wiersma提出的方法来计算,
Aqrt表示q、r、t三个格点所围成的三角形的面积。注意,为了使得卷积的输出满足相 设定的变换规则,K需要满足如下的条件:
对任意的θ∈SO(2),
K(θ-1v)=ρout(θ-1)K(v)ρin(θ) (1.11)
实际上,上述条件等价于(1.11)K只需要对一个特殊的θ0即可
为了找出满足条件的K,我们将K在0点处做泰勒展开:
并将其带回(1.11),得到泰勒系数需要满足的条件:
在实际计算中,我们只将(1.12)展开到2阶项,为了找出所有满足条件的泰勒系数我们将(1.13)等价为了一个正常的线性方程,这里我们将K0、...、K5打包在一个向 量x中,然后通过SVD求解出这个方程的基就是所有满足条件的泰勒系数。满足 条件的系数带入(1.12),我们就可以得到满足(1.11)的核函数Ki(i=1,2,…,k),每个 Ki都满足(1.11),它们的线性组合∑ciKi也满足(1.11),在训练过程中,这些ci就是 我 们学习的权重。在实现时,我们做了一个松弛,将θ0选择为的旋转,这样,(1.11) 只对CN成立,只要N足够大,等变性就可以得到满足。
四)构建RIGE-Net:
这里我们可以采用任意一种目前性能强大的卷积网络结构比如ResNet,DenseNet等, 只需要将相应的卷积改为步骤3)中介绍的卷积,以及输入,以及中间层的特征的变换方式,其中激活函数依然可以使用逐点的激活函数。
我们在网络的最后一个卷积层的输出采用一个Cohen的群池化层来使得网路规范不变, 也就是说网络的输出不依赖于局部坐标系的选取,最后再分别通过全局平均池化层和 全连接层得到每个类别的预测分数。
本发明中的卷积层使用Weiler在(Learning Steerable Filters for RotationEquivariant CNNs)中提出的初始化方法,全连接层使用Xavier初始化方法。整个网络结构可以使用pytorch实现。
本发明具体实施时,均采用反向传播算法,用Adam算法对模型训练。训练过程迭代70 轮,批大小为1,即每一个mesh为一个批次。学习速率初始值为0.1,在41至70轮学习 速率为0.01。
步骤4:构建RIGE-Net:
根据步骤3所讲解的卷积构建网络架构,具体的实施例可在模型实例图中找到。输入 以及中间层特征的变换方式均按照步骤3所述。
我们在网络的最后一个卷积层的输出采用一个Cohen的群池化层来使得网路规范不变, 也就是说网络的输出不依赖于局部坐标系的选取,最后再分别通过全局平均池化层和 全连接层得到每个类别的预测分数。
本发明中的卷积层使用Weiler在(Learning Steerable Filters for RotationEquivariant CNNs)中提出的初始化,全连接层使用Xavier初始化方法初始化。整个 网络结构可以使用pytorch实现。
本发明具体实施时,均采用反向传播算法,用Adam算法对模型训练。训练过程迭代70 轮,批大小为1,即每一个mesh为一个批次。学习速率初始值为0.1,在41至70轮 学习速率为0.01.
表1给出了本发明模型RIGE-Net和其他模型在SHREC数据集上的图像分类错误率比 较:
表1
模型 | SO(3)不变性 | 准确率 | 参数量 |
MDGCNN | 否 | 82.2% | --- |
MeshCNN | 是 | 91.0% | --- |
HSN | 否 | 96.6% | 78k |
RIGE--Net | 是 | 98.3% | 16k |
上表可以看出,该专利提出的模型能够在更小的参数量下实现更好的性能,得益于我们 同时具有旋转不变性以及规范等变性。MDGCNN中的卷积核是标量形式的,这极大的限制了 它的性能。相比于之前最优的规范不变的网络HSN,由于没有我们模型的旋转不变性,性 能更低,且需要更多的参数量。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员 可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此, 本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围 为准。
Claims (10)
1.一种基于旋转不变的规范等变网络模型的物体形状识别方法,通过将每个3D物体的全局坐标在局部坐标上进行投影,构建并利用基于旋转不变的规范等变卷积网络模型,实现空间旋转不变的3D物体形状分类与识别;包括以下步骤:
1)3D物体数据3Dmesh由一组点、边、面构成,表示3D物体的形状及大小;先对3D物体数据3Dmesh进行数据预处理,构造特征作为模型的输入;包括如下步骤:
11)归一化;
计算出代表每个3D物体数据3Dmesh的面积,通过放缩每个3Dmesh,将其面积归一化为1;
12)确定3Dmesh中每个点的邻域,包括:
设定测地阈值和直线阈值;
根据3Dmesh中每个点在空间中的位置,找出在空间中与该点直线距离小于所设定测地阈值的点集;
然后计算出3Dmesh中每个点与该点直线距离小于设定的直线阈值的点之间的测地距离;从对应点集中筛选出测定距离也小于测地阈值的点集作为该点的邻域,记作ni;
13)选定一个局部坐标系:对于3Dmesh中的每一个点计算出切平面,然后任意选定切平面的坐标系作为局部坐标系,确定坐标系的x,y轴;
14)计算对数映射和联络:
15)构造输入特征:将3Dmesh中每个点的坐标投影在该点的法向量方向和切平面中局部坐标的x,y轴方向,得到3个新的分量u1、u2和u3,作为模型的输入特征,使得模型不依赖于物体在3D空间中的方向;
2)将3Dmesh数据分为训练样本和测试样本;
3)对卷积核做限制,构建得到规范等变卷积;包括:
31)采用群表示描述输入特征与输出特征之间随着局部坐标系的变换相对应的变换方式;
首先,设定输入特征与输出特征之间随着局部坐标系的变换相对应的变换方式;
用群表示来描述变换方式;变换方式有两种;
其中一种变换方式对应于规范等变卷积模型的输入特征u;随着局部坐标系的变换θ∈SO(2),u的变换方式表示为式(1):
u′=ρlocal(θ)u 式(1)
其中,θ为局部坐标系的变换;ρlocal是SO(2)(2维旋转构成的群)的一个群表示,表示为式(2):
另一种变换方式对应于中间层特征f;当局部坐标系的变换θ∈CN时,f的变换方式表示为式(3):
其中,A是一个N维可逆矩阵,ψi(i=0,…,N-1/2)是CN的不可约表示;对于任意的θ∈CN,表示如下:
其中,K=1,…,N-1/2;
将ψi自然拓展至SO(2),对任意的θ∈SO(2):
对于中间层特征,局部坐标变换θ∈SO(2),f的变换方式f′表示为式(8):
32)构建模型的卷积操作,使得每一层的特征满足相应的变换规则;
式(9)中,K表示卷积核;(K*fin)i表示卷积运算;ηi为i点的邻近点集;使用平行移动输入群表示ρin(gj→i),使得输入群表示中不同点的特征移动到同一空间;
令aj表示j点的积分权重,通过式(10)计算得到aj:
Aqrt表示j、r、t三个点所围成的三角形的面积;
对任意的θ∈SO(2),K满足如下条件:
K(θ-1v)=ρout(θ-1)K(v)ρin(θ) 式(11)
式(11)等价于只需要对一个特殊的θ0成立,则所有的θ∈SO(2)均成立;其中θ0为任意一个无理数乘以2pi;
将K在0点处做泰勒展开,找出满足条件的K,表示为:
并带回式(11),得到泰勒系数需要满足的条件,表示为式(13):
将泰勒系数Ki打包在一个向量中;通过奇异值分解SVD求解出方程的基,即得到所有满足条件的泰勒系数;
将满足条件的泰勒系数带入式(12),得到满足式(11)的核函数Ki(i=1,2,…,k);每个Ki均满足式(11);它们的线性组合∑ciKi也满足式(11);ci是训练过程中学习的权重;
4)构建基于旋转不变的规范等变的卷积网络模型RIGE-Net:
采用任意一种卷积网络结构,只将相应的卷积改为步骤3)构建得到规范等变卷积、输入以及中间层的特征的变换方式,即得到基于旋转不变的规范等变的卷积网络模型RIGE-Net;在网络模型RIGE-Net最后卷积层的输出采用群池化层以使得网路规范不变,即网络的输出不依赖于局部坐标系的选取;最后再分别通过全局平均池化层和全连接层得到每个类别的预测分数;
5)利用步骤4)构建并训练好的RIGE-Net模型,对待测试的3Dmesh样本进行识别,得到预测的形状分类标签;
通过上述步骤,即实现基于旋转不变的规范等变网络模型的物体形状识别。
2.如权利要求1所述基于旋转不变的规范等变网络模型的物体形状识别方法,其特征是,3D物体数据可通过利用3D相机获取3D物体数据集或直接采用已有的3D物体数据集;3D物体数据的格式采用mesh数据;mesh数据可通过marching cubes算法生成。
3.如权利要求1所述基于旋转不变的规范等变网络模型的物体形状识别方法,其特征是,步骤12)中,具体使用热向量法计算出每个3Dmesh中每个点与该点直线距离小于一设定阈值的点之间的测地距离。
5.如权利要求1所述基于旋转不变的规范等变网络模型的物体形状识别方法,其特征是,步骤4)中采用的卷积网络结构为ResNet或DenseNet;其中激活函数可使用逐点的激活函数。
6.如权利要求1所述基于旋转不变的规范等变网络模型的物体形状识别方法,其特征是,卷积层使用Weiler初始化方法,全连接层使用Xavier初始化方法。
7.如权利要求1所述基于旋转不变的规范等变网络模型的物体形状识别方法,其特征是,网络结构使用pytorch实现。
8.如权利要求1所述基于旋转不变的规范等变网络模型的物体形状识别方法,其特征是,均采用反向传播算法,用Adam算法对模型进行训练。
9.如权利要求8所述基于旋转不变的规范等变网络模型的物体形状识别方法,其特征是,训练过程迭代70轮,批大小为1,即每一个mesh为一个批次。
10.如权利要求9所述基于旋转不变的规范等变网络模型的物体形状识别方法,其特征是,学习速率的初始值为0.1,在41至70轮学习速率为0.01。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110568102.3A CN113313161B (zh) | 2021-05-24 | 2021-05-24 | 基于旋转不变的规范等变网络模型的物体形状分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110568102.3A CN113313161B (zh) | 2021-05-24 | 2021-05-24 | 基于旋转不变的规范等变网络模型的物体形状分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313161A true CN113313161A (zh) | 2021-08-27 |
CN113313161B CN113313161B (zh) | 2023-09-26 |
Family
ID=77374452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110568102.3A Active CN113313161B (zh) | 2021-05-24 | 2021-05-24 | 基于旋转不变的规范等变网络模型的物体形状分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313161B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512661A (zh) * | 2015-11-25 | 2016-04-20 | 中国人民解放军信息工程大学 | 一种基于多模态特征融合的遥感影像分类方法 |
CN109410307A (zh) * | 2018-10-16 | 2019-03-01 | 大连理工大学 | 一种场景点云语义分割方法 |
CN109928107A (zh) * | 2019-04-08 | 2019-06-25 | 江西理工大学 | 一种自动分类系统 |
CA3032182A1 (en) * | 2018-01-31 | 2019-07-31 | Royal Bank Of Canada | Pre-training neural netwoks with human demonstrations for deep reinforcement learning |
CN111209861A (zh) * | 2020-01-06 | 2020-05-29 | 浙江工业大学 | 一种基于深度学习的动态手势动作识别方法 |
CN111401452A (zh) * | 2020-03-17 | 2020-07-10 | 北京大学 | 一种基于偏微分算子的等变卷积网络模型的图像分类方法 |
US20200327674A1 (en) * | 2019-04-10 | 2020-10-15 | Nvidia Corporation | Identifying Image Segmentation Quality Using Neural Networks |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112488210A (zh) * | 2020-12-02 | 2021-03-12 | 北京工业大学 | 一种基于图卷积神经网络的三维点云自动分类方法 |
-
2021
- 2021-05-24 CN CN202110568102.3A patent/CN113313161B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512661A (zh) * | 2015-11-25 | 2016-04-20 | 中国人民解放军信息工程大学 | 一种基于多模态特征融合的遥感影像分类方法 |
CA3032182A1 (en) * | 2018-01-31 | 2019-07-31 | Royal Bank Of Canada | Pre-training neural netwoks with human demonstrations for deep reinforcement learning |
CN109410307A (zh) * | 2018-10-16 | 2019-03-01 | 大连理工大学 | 一种场景点云语义分割方法 |
CN109928107A (zh) * | 2019-04-08 | 2019-06-25 | 江西理工大学 | 一种自动分类系统 |
US20200327674A1 (en) * | 2019-04-10 | 2020-10-15 | Nvidia Corporation | Identifying Image Segmentation Quality Using Neural Networks |
CN111209861A (zh) * | 2020-01-06 | 2020-05-29 | 浙江工业大学 | 一种基于深度学习的动态手势动作识别方法 |
CN111401452A (zh) * | 2020-03-17 | 2020-07-10 | 北京大学 | 一种基于偏微分算子的等变卷积网络模型的图像分类方法 |
CN112488210A (zh) * | 2020-12-02 | 2021-03-12 | 北京工业大学 | 一种基于图卷积神经网络的三维点云自动分类方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
Non-Patent Citations (1)
Title |
---|
熊红凯;戴文睿;林宙辰;吴飞;于俊清;申扬眉;徐明星: "多媒体信号处理的数学理论前沿进展", 中国图象图形学报, no. 001 * |
Also Published As
Publication number | Publication date |
---|---|
CN113313161B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mescheder et al. | Occupancy networks: Learning 3d reconstruction in function space | |
Shao et al. | The riemannian geometry of deep generative models | |
Tao et al. | Bayesian tensor approach for 3-D face modeling | |
Worrall et al. | Interpretable transformations with encoder-decoder networks | |
Gupta et al. | Parameterized principal component analysis | |
Furukawa | SOM of SOMs | |
Lin et al. | Learning of 3d graph convolution networks for point cloud analysis | |
EP3905194A1 (en) | Pose estimation method and apparatus | |
Spurek et al. | Hypernetwork approach to generating point clouds | |
Ghojogh et al. | Elements of dimensionality reduction and manifold learning | |
Araujo et al. | Self-organizing maps with a time-varying structure | |
US11673560B2 (en) | Efficient computational inference using Gaussian processes | |
Li et al. | Face sketch synthesis using regularized broad learning system | |
Han et al. | Quantitative microstructure analysis for solid-state metal additive manufacturing via deep learning | |
Zhang et al. | Local k-nns pattern in omni-direction graph convolution neural network for 3d point clouds | |
JP2005535951A (ja) | n−ピクセルに基づくと共に、代数学的位相幾何学で定義されたイメージモデル、及びそれに基づくアプリケーション | |
Muzahid et al. | 3D Object classification using a volumetric deep neural network: An efficient Octree Guided Auxiliary Learning approach | |
Bazazian et al. | DCG-net: Dynamic capsule graph convolutional network for point clouds | |
Wang et al. | Manufacturing process classification based on heat kernel signature and convolutional neural networks | |
Lee et al. | Connectivity-based convolutional neural network for classifying point clouds | |
Rios et al. | Scalability of learning tasks on 3D CAE models using point cloud autoencoders | |
Liang et al. | Feature-preserved convolutional neural network for 3D mesh recognition | |
Florindo et al. | Enhancing multiscale fractal descriptors using functional data analysis | |
CN113313161A (zh) | 基于旋转不变的规范等变网络模型的物体形状分类方法 | |
Jiang et al. | Robust 3d face alignment with efficient fully convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |