CN112990315B - 基于偏微分算子的等变3d卷积网络的3d形状图像分类方法 - Google Patents
基于偏微分算子的等变3d卷积网络的3d形状图像分类方法 Download PDFInfo
- Publication number
- CN112990315B CN112990315B CN202110288109.XA CN202110288109A CN112990315B CN 112990315 B CN112990315 B CN 112990315B CN 202110288109 A CN202110288109 A CN 202110288109A CN 112990315 B CN112990315 B CN 112990315B
- Authority
- CN
- China
- Prior art keywords
- group
- layer
- shape
- feature
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000000007 visual effect Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 32
- 230000009466 transformation Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000000844 transformation Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000011423 initialization method Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 34
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 229920002430 Fibre-reinforced plastic Polymers 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000011151 fibre-reinforced plastic Substances 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明公布了一种基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法,利用偏微分算子对卷积核进行参数化建模,对于3D旋转群和各卷积层的特征域求解得到等变卷积核,建立等变3D卷积网络模型PDO‑e3DCNN;PDO‑e3DCNN的输入为3D形状,输出为3D形状的预测分类,用于3D形状分类与识别视觉分析。本发明方法能够有效处理具有方向特征的图片数据,并且往往可以用更少的参数,在数据集上达到更低的3D形状图像分类错误率。
Description
技术领域
本发明属于模式识别、机器学习、人工智能技术领域,涉及3D形状分类方法,具体涉及一种基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法。
背景技术
在过去的几年中,卷积神经网络(CNN)模型已成为用于图像识别任务的主要机器学习方法。与全连接网络相比,采用CNN处理图像的一个显着优势是它们是平移等变的:先将图像平移然后通过若干个卷积层得到的特征图与先将原始图像通过卷积层然后再平移得到的结果相同。换句话说,每一层都保持了平移对称性,即等变性。同样,等变性带来了权重共享,通过它可以更有效地使用参数。然而,普通的CNN只能对平移群等变,而不能对其他变换等变,如旋转变换群。
为了在用CNN提取特征时,能够保持更多的对称性,Cohen和Welling通过直接旋转卷积核,提出了群等变卷积网络(G-CNN),它对于四折旋转变换群是等变的。为了探究更一般的等变性,Cohen和Welling提出了一种名为Steerable CNNs的理论,它将特征定义为特征域,而特征域的性质是它在群作用下的变换方式,是由给定的群表示所决定的。事实上,G-CNNs是Steerable CNNs的一个特例,因为当使用正则特征域时,Steerable CNNs会退化为G-CNNs。但是,他们提出的网络依然只能对四折旋转变换群等变。为了利用更多对称性,Weiler和Cesa进一步将Steerable CNNs的理论扩展到了欧几里得群E(2)及其子群,提出E2CNN。E2CNN是目前最一般的旋转等变的2D卷积神经网络,因为它可以处理所有常用的2D旋转群及其群表示。
对于3D情况,旋转等变性更为重要,因为旋转变换是不可避免的:即使3D物体是直立摆放的,仍然可能存在绕着竖直轴旋转的变换,更不用说一些3D数据甚至没有固有的方向,例如分子数据。此外,现在关于3D CNN的工作很少,因为3D CNN需要较大的计算量和存储空间。因此利用等变性减少计算量和存储量对于3D应用至关重要。
Worrall和Brostow将G-CNN的思想迁移到3D上,通过直接旋转3D卷积核设计出对于立方体群O等变的3D模型CubeNet。但是,由于一般的3D网格只存在立方体旋转对称性,因此CubeNet不能对更大的群等变,如二十面体群I,更不用说连续的旋转变换群SO(3)。事实上,CubeNet也只能利用正则特征域,而不能利用更一般的特征域,如商特征域。Weiler等人提出了SE3CNN,能够实现对连续群SO(3)的旋转等变。然而该方法只能用来处理连续群SO(3)的不可约表示,无法用于处理离散群。一些同期或后续的工作,如Tensor FieldNetwork(TFN)和LieConv,也只能处理连续群SO(3),无法将离散群的情况也囊括进来。
综上所述,目前的等变3D模型都只能处理特定的3D旋转群和他们对应的群表示,而不能将所有常用的群和群表示涵盖在一个统一的框架下。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于偏微分算子(PDO)的等变3D卷积网络模型的3D形状分类方法,利用偏微分算子建模并设计得到等变的卷积网络模型,取名为PDO-e3DCNN(partial diffrential operator based equivariant 3D CNN),用于高效的进行3D形状分类与识别等视觉分析。
本发明利用偏微分算子对卷积核进行参数化建模,对于给定的3D旋转群和各个卷积层所使用的特征域,我们可以求解得到符合条件的等变卷积核。我们将这些卷积层堆叠起来,得到一个等变的3D CNN模型,它的输入为3D形状,输出为3D形状的预测分类。
本发明提供的技术方案是:
一种基于偏微分算子的等变3D卷积网络模型PDO-e3DCNN的3D形状图像分类方法,利用偏微分算子设计出等变的3D CNN模型,用于高效的进行图像分类与识别等视觉分析,包括以下步骤:
1)通过3D相机采集3D形状,采集得到的每个3D形状数据是一组三维坐标,表示该形状存在的位置坐标,将这些3D形状数据分为训练样本和测试样本,并将它们体素化;
2)根据步骤1)中的3D形状数据具有的旋转对称性,确定3D形状数据对应的等变群和特征域;
由三维旋转变换组成的等变群称为3D旋转群;特征域为各个卷积层包含的特征域。
若3D形状数据具有旋转对称性,则可以选取相对应的旋转变换群;对于一般的数据集,等变群和特征域可通过实验效果进行选定。
21)3D旋转群:
3D旋转群主要包括离散群和连续群SO(3),其中离散群主要包括克莱因四元群V,四面体群T,正方体群O和正十二面体群I;
22)特征域:
对于离散群,我们可选用的基础特征域包括标量特征域,正则特征域和商特征域,他们对应的群表示都是置换矩阵;对于连续群,我们选用的基础特征域包括标量特征域和不可约特征域。当然,我们也可以将这些基础特征域组合起来构成更一般的特征域。一般地,特征域f(x)在旋转变换g下的结果由对应的群表示ρ(g)所决定,也就是表示为式(1)
[π(g)f](x)=ρ(g)f(g-1x) 式(1)
其中,ρ(g)是一个K×K的矩阵,K表示输入特征的通道数,π(g)表示群作用。因此,该特征域也可以叫做ρ-特征域。特别地,群表示ρ(g)需要满足对于G中任意两个元素g,h,ρ(gh)=ρ(g)ρ(h)。显然,ρ(g)=1是一个群表示,它决定的特征域也被叫做标量特征域。其他常用的特征域将在实施例步骤2中进一步详述。在该意义下,一个在群G上等变的卷积操作Ψ需要满足对于任意群G中的元素g,
π′(g)[Ψ[f]]=Ψ[π(g)[f]], 式(2)
其中,π(g)和π′(g)分别表示输入层和输出层上的群作用,类似地
[π′(g)f](x)=ρ′(g)f(g-1x), 式(3)
其中,ρ′(g)是一个群表示。根据式(2),本发明中,等变性指的是:将变换g(旋转变换群G中的元素)作用在映射的输入f上,然后通过映射Ψ得到的结果,应该与通过映射Ψ再经过变换g相同。
3)构建基于偏微分算子的等变卷积网络模型:
31)构造等变的卷积核:
首先,我们将一个卷积操作Ψ建模为多个偏微分算子的线性组合:
其中,系数矩阵K’和K分别表示输出层和输入层的特征通道数。为了满足等变性式(2),系数矩阵Ai(i=1..33)需要满足下列线性约束:对于G中的任意元素g,
其中,
是P的Moore-Penrose逆,/>表示克罗内克积。为了更方便的求解该线性约束,式(4)可以进一步写作
其中,IK表示K阶单位矩阵,vec(B)表示向量化操作,它将B的列堆叠成一个列向量。
我们可以通过求解式(8)(求解方式在具体实施方式中进一步详述),得到Bi的解空间。Bi的解空间实质上是它的基础解系的参数化的线性组合。我们根据式(5)从参数化后的Bi中提取Ai再代入式(3),得到参数化的卷积操作Ψ。最后,我们将Ψ中所含的所有偏微分算子离散化得到也就是最终用在离散数据上的3D卷积核。
32)等变的批量正则化(BN)和非线性激活函数:
为了在整个网络中保持等变性,我们需要BN层和非线性层同样是等变的。对于离散群,我们可以使用一般的逐点的激活函数,如ReLU;特别地,BN层需要对于每个基础特征域共享一套权值。对于连续群SO(3),我们可以选用SE3CNN中提出的等变版本的BN层和带门限的非线性激活函数。
33)构造整个PDO-e3DCNN:
我们根据所设定的等变群G和每层设定的特征域计算求解出相应的等变卷积Ψ再进行离散化得到然后,我们将多个/>堆叠起来得到整个卷积网络,每两个/>之间插入等变的BN层和非线性层用于增强模型的表达能力和加速模型训练。特别地,我们将最后一个输出层的特征域设定为标量特征域,并进行空间上的平均池化,得到不变的特征。得到的不变特征最后接上一个全连接层进行3D形状分类。
4)用训练样本对构造的PDO-e3DCNN进行训练
本发明中,卷积层参数的初始化方式为广义的何恺明初始化方法(Learningsteerable filters for rotation equivariant CNNs),全连接层参数初始化方式为Xavier初始化方式。利用训练样本图像对该等变CNN模型进行训练。该等变的3D CNN模型可以在深度学习框架Pytorch下实现。
本发明具体实施时,均采用反向传播算法,用Adam算法进行等变3D CNN模型训练。训练过程迭代2000轮,批大小为32,即每32个样本为一个批次。在每轮训练中我们按类别对训练样本进行重采样,使得每轮训练中各类别样本数大致相等。学习速率初始值为0.01,在701至1400轮学习速率为0.001,在1401至2000轮学习速率为0.0001。
5)利用步骤4)训练好的基于偏微分算子的等变CNN模型,对3D形状测试样本进行识别,得到预测的形状分类标签,由此实现形状分类识别。
与现有技术相比,本发明的有益技术效果是:
本发明提供了一种基于偏微分算子的等变3D模型PDO-e3DCNN的3D形状分类方法。在具体实施中,我们利用3D相机采集3D形状数据,将待处理的形状数据进行体素化,然后根据数据几何特征和实际经验,确定等变群和特征域,最后用一个基于偏微分算子的等变3D卷积网络进行特征提取和形状分类。
本发明提出的网络结构不仅具有等变性,也带来了更好的参数共享机制,能够显著提高参数利用率。在旋转的SHREC’17数据集上,本发明与传统的3D卷积网络模型以及一些现有的等变卷积如SE3CNN相比,都取得了明显更好的效果,它能够有效处理具有方向特征的图片数据,并且往往可以用更少的参数,在数据集上达到更低的3D形状分类错误率。
附图说明
图1是多种几何体示意图;
3D旋转群V,T,O,I和SO(3)分别由长方体、正四面体、正方体、正十二面体和球的旋转对称性组成。
图2是旋转变换g作用在ρ-特征域上的示意图;
当ρ(g)=1时,每个特征图上的向量移动到一个新的位置;当ρ(g)=g时,每个向量需要额外地根据g进行旋转;当ρ(g)是正则表示或者商表示时,向量中的元素将被置换。
图3是本发明具体实施实现基于偏微分算子的等变3D卷积网络模型进行3D形状分类的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于偏微分算子的等变3D卷积网络模型PDO-e3DCNN的3D形状分类方法,利用偏微分算子设计出等变的3D卷积网络模型,用于高效的进行3D形状分类与识别等视觉分析。
图3所示是本发明具体实施实现基于偏微分算子的等变3D卷积网络模型进行3D形状分类的方法流程,包括以下步骤:
步骤1:将3D形状分为训练样本和测试样本,本实施例所有数据集为旋转的SHREC’17数据集,它由51,162个3D形状组成,其中官方划分的训练数据35,764个,验证数据5,133个,测试数据10,265个,类别为55类。我们将这些形状体素化为64×64×64的数据。进行模型选择后,我们将训练数据和验证数据合起来进行训练。
步骤2:确定由三维旋转变换组成的等变群和各个卷积层包含的特征域;
对于现场采集的3D物体形状,可以使用连续群SO(3)或较大的离散旋转群,如正二十面体旋转群。因为他们包含较多的对称性。选用这些对称群可能会引起实现时的工程问题。我们此时可以选用较小的旋转群,如立方体群和四面体群,来缓解工程实施中遇到的问题。
1)3D旋转群:
3D旋转群主要包括离散群和连续群SO(3),其中离散群主要包括克莱因四元群V,四面体群T,正方体群O和正十二面体群I。如图1所示,3D旋转群V,T,O,I和SO(3)分别由长方体、正四面体、正方体、正十二面体和球的旋转对称性组成。其中离散群V,T,O,I的生成元和群的大小如表1所示,其中
表1几个离散群的生成元和大小
2)特征域:
总的来说,ρ-特征域由对应的群表示ρ(g)决定。因此,我们只需要考察群表示ρ(g)即可。最简单的特征域为标量特征域,此时ρ(g)=1。如图2所示,在这种情况下,旋转变换g将特征图中的向量都移动到新的位置。
21)离散群的特征域
对于离散群,除了标量特征域,我们可选用的的基础特征域还包括正则特征域和商特征域。
正则特征域由正则群表示决定,正则群表示也是离散群最重要的群表示。具体来说,特征图中的每个向量f(x)都是一个|G|维向量,由群G中的各个元素索引,|G|表示群中的元素个数。一个变换g作用在向量f(x)上的方式为,对于G中的任一元素g将/>的取值置换到/>上。因此,我们很容易根据凯莱表推导出正规群表示ρ(g)的具体形式。
商特征域是比正则特征域更一般的一类特征域。具体来说,给定一个群G和它的子群H。左陪集G/H={gH,g∈G}将群G进行了良好的划分。对于H-商特征域而言,特征图中的每个向量f(x)是一个|G/H|维向量,由G/H中的元素索引。一个变换g作用在向量f(x)上的方式为,它将向量中的值置换到/>上,相对应的群表示ρ(g)也可以类似的推导得到。特别地,当H={e}时(e是单位元),H-商特征域等价于正则特征域;当H=G时,H-商特征域等价于标量特征域。因此,商特征域是最为一般的特征域。此外,容易看出,正则特征域,商特征域对应的群表示都是置换矩阵,它们的变换效果如图2所示。
22)连续群SO(3)的特征域
由于连续群是个无限群,我们无法利用正则表示和商表示。在这里,我们选用不可约特征域,它由不可约表示所决定。具体来说,任何SO(3)的群表示都可以分解为维数为2m+1(m=0,1,2,…)的不可约表示。不可约特征域的向量f(x)是一个2m+1维的向量,不可约表示ρ(g)是m阶的Wigner-D矩阵,记作Dl(g)。特别地,D0(g)=1,等价于标量特征域;D1(g)=g,表示直接对3维向量f(x)进行旋转,如图2所示。
步骤3:构建成为基于偏微分算子的等变3D卷积网络分类模型
1)构造等变的卷积核:
首先,我们将一个卷积操作Ψ建模为多个偏微分算子的线性组合:
其中系数K’和K分别表示输出层和输入层的特征通道数。然后我们要求系数Ai需要满足下列线性约束:对于G中的任意元素g,
其中,
是P的Moore-Penrose逆,/>表示克罗内克积。为了更方便的求解该线性约束,式4可以进一步写作
其中IK表示K阶单位矩阵,vec(B)表示向量化操作,它将B的列堆叠成一个列向量。
11)离散群的基础特征域
当G为离散群时,我们并不需要显式地要求式8包含G中所有元素然后求解,仅需要G的生成元满足式8,就可以求解得到等变的卷积核了,这样能显著地减少计算量。
12)连续群的基础特征域
当G为连续群时,式8实际上包括无限个线性约束,无法求解。事实上,我们仅需要式8对于g1=Z(1)和g2=Y(1)满足就可以了,其中
13)复合特征域
事实上,类比于传统深度学习中的多通道特征,我们也可以将之前介绍的基础特征域,包括标量特征域、正则特征域、商特征域和不可约特征域进行组合,得到更一般的特征域,来增强特征域表达能力。此时,对于等变卷积核的求解也可以进行相应的修改来简化计算。具体方式如下:若其中ρi(g)和ρ′i(g)都是基础群表示,并且
此时,式5等价于
其中
是Ak的子矩阵,也就是说
因此,我们可以根据基础群表示ρi(g)和ρ′i(g)先求解较为简单的式12,得到和/>的解空间,然后根据式12得到/>最后,我们将/>叠加起来得到要求的系数Ak。
事实上,我们可以应用奇异值分解(SVD)方便的求解式8。由于式8实际上是一个齐次线性方程组,因而他的一般解都含有不定系数,我们将求解到的一般解代入式4中的Ψ中,即可得到一般的含参数化的卷积核
2)等变卷积核的离散化
由于输入数据为离散数据,我们也需要对基于偏微分算子的连续卷积核Ψ进行离散化才能使用。事实上,任意一个式4中的偏微分算子都可以用一个3×3×3的卷积核进行二阶逼近。一般地,我们有
其中I为数据,f是I的连续形式,h为格点大小,*表示卷积操作。各个卷积核ui具体形式如下所示:
为了便于展示,我们只列出了各个卷积核的部分元素,其他元素都是零。由于连续卷积核Ψ本质上是这些偏微分算子的线性组合,因而将它用这些卷积滤波进行离散化后,得到的离散卷积核依然是3×3×3的,在形式上与一般的3D CNN无异,因此我们的模型也是平移不变的。
3)等变的批量正则化(BN)和非线性激活函数:
为了在整个网络中保持等变性,我们需要BN层和非线性层同样是等变的。对于离散群,由于群表示都是置换矩阵,我们可以使用一般的逐点的激活函数,如ReLU;但是,BN层需要对于每个基础特征域共享一套权值。对于连续群SO(3),我们可以选用SE3CNN中提出的等变版本的BN层和带门限的非线性激活函数。
4)构造整个PDO-e3DCNN:
我们根据所设定的等变群G和每层设定的特征域计算求解出相应的等变卷积Ψ再进行离散化得到然后,我们将多个/>堆叠起来得到整个卷积网络,每两个/>之间插入等变的BN层和非线性层用于增强模型的表达能力和加速模型训练。特别地,我们将最后一个输出层的特征域设定为标量特征域或它们的复合,并进行空间上的平均池化,得到不变的特征。得到的不变特征最后接上一个全连接层进行3D形状分类。
步骤4:用训练样本对构造的PDO-e3DCNN进行训练
本发明中,卷积层参数的初始化方式为广义的何恺明初始化方法(Learningsteerable filters for rotation equivariant CNNs),全连接层参数初始化方式为Xavier初始化方式。利用训练样本图像对该等变CNN模型进行训练。该等变的3D CNN模型可以在深度学习框架Pytorch下实现。
本发明具体实施时,均采用反向传播算法,用Adam算法进行等变3D CNN模型训练。训练过程迭代2000轮,批大小为32,即每32个样本为一个批次。在每轮迭代中中我们按类别对训练样本进行重采样,使得每轮中各类别。学习速率初始值为0.01,在701至1400轮学习速率为0.001,在1401至2000轮学习速率为0.0001。
步骤5:利用步骤4)训练好的基于偏微分算子的等变3D CNN模型,对测试3D形状样本进行识别,得到预测的形状分类标签,由此实现形状分类识别。
本发明中的模型均使用反向传播算法,用Adam算法进行等变3D CNN模型训练。训练过程迭代2000轮,批大小为32,即每32个样本为一个批次。在每轮迭代中中我们按类别对训练样本进行重采样,使得每轮中各类别。学习速率初始值为0.01,在701至1400轮学习速率为0.001,在1401至2000轮学习速率为0.0001。卷积层参数的初始化方式为广义的何恺明初始化方法(Learning steerable filters for rotation equivariant CNNs),全连接层参数初始化方式为Xavier初始化方式。
在实施例中,我们使用9层的网络模型。具体来说,当使用克莱因四元群V的正则特征域时,输入层设定为1个标量特征域,之后的七层分别取8,8,12,12,16,16,16个正则特征域,在第2,4层之后分别接一个平均池化算子缩小特征图的尺寸,步长为2.第八层取512个标量特征域并接上一个空间全局平均池化用来提取不变的特征。最后我们使用一个全连接层进行形状分类。此外,我们还针对其他离散群和连续群设计了相似的网络结构,我们调整每层特征域的个数用来使得总参数量大约保持在0.15M左右,进行公平对比。
表1给出了当使用本发明模型PDO-e3DCNN和他的主要对比模型SE3CNN在SHREC’17数据集上的3D形状分类评分比较。其中离散群使用的是正则特征域,连续群使用的是不可约特征域。
表1
SE3CNN | V | T | O | I | SO(3) | |
评分 | 55.5 | 52.7 | 57.6 | 58.6 | 55.3 | 56.1 |
从表中可以看出,和SE3CNN对比,我们在SO(3)上等变的模型取得了更好的性能。此外,当使用离散群时,在正方体群O上等变的模型比V和T的更好,因为正方体群包含更多的旋转变换。我们观察到,当使用正二十面体群I时,性能反而下降,这主要是因为正二十面体的每个正则特征域包括60个通道,使得训练的模型过于庞大难以训练。值得一提的是,虽然SO(3)包括了所有的三维旋转,但是他的性能还是弱于一些离散群,如O和T,这可能是因为离散群的正则特征域用|G|个通道囊括了|G|个变换,而SO(3)所使用的不可约特征域仅用较少的通道数(1,3,5)容纳了无限的旋转变换,这会限制特征域的表达能力。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (7)
1.一种基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法,利用偏微分算子对卷积核进行参数化建模,对于3D旋转群和各卷积层的特征域求解得到等变卷积核,建立等变3D卷积网络模型PDO-e3DCNN;PDO-e3DCNN的输入为3D形状,输出为3D形状的预测分类,用于3D形状分类与识别视觉分析;包括以下步骤:
1)通过3D相机采集3D形状数据,将这些3D形状数据分为训练样本和测试样本,并进行体素化;
采集得到的每个3D形状数据为一组三维坐标,表示该形状存在的位置坐标;
2)根据步骤1)中的3D形状数据具有的旋转对称性,确定3D形状数据对应的等变群和特征域;由三维旋转变换组成的等变群称为3D旋转群;特征域为各个卷积层包含的特征域;
21)3D旋转群包括离散群和连续群S0(3);其中离散群包括克莱因四元群V、四面体群T、正方体群0和正十二面体群I;
22)特征域:
对于离散群,特征域包括标量特征域、正则特征域和商特征域,对应的群表示均为置换矩阵;对于连续群,特征域包括标量特征域和不可约特征域;当然,我们也可以将这些基础特征域组合起来构成更一般的特征域;
3)构建基于偏微分算子的等变卷积网络模型,包括:
31)构造等变的卷积核:
首先,将一个卷积操作Ψ建模为多个偏微分算子的线性组合,表示为式(4):
其中,系数矩阵K’和K分别表示输出层和输入层的特征通道数;对于任意群G中的元素g,系数矩阵Ai满足下列线性约束:
其中,
其中,是P的Moore-Penrose逆,/>表示克罗内克积;
为求解该线性约束,式(4)进一步表示为式(8):
其中,IK表示K阶单位矩阵;vec(B)表示向量化操作,该操作将B的列堆叠成一个列向量;
通过求解式(8)得到Bi的解空间;Bi的解空间是基础解系的参数化的线性组合;
根据式(5)从参数化后的Bi中提取Ai再代入式(3),得到参数化的卷积操作Ψ;
再将Ψ中所含的所有偏微分算子离散化得到即最终用在离散数据上的3D卷积核;
32)设计等变的批量正则化BN和非线性激活函数,使得BN层和非线性层保持等变性;
对于离散群,使用逐点的激活函数;BN层需对每个基础特征域共享权值;对于连续群S0(3),选用等变BN层和带门限的非线性激活函数;
33)构造PDO-e3DCNN:
根据所设定的等变群G和每层设定的特征域,计算求解出相应的等变卷积Ψ再进行离散化得到将多个/>堆叠起来即得到卷积网络模型PDO-e3DCNN;
每两个之间插入等变的BN层和非线性层用于增强模型的表达能力和加速模型训练;
将最后一个输出层的特征域设定为标量特征域,并进行空间上的平均池化,得到不变的特征;
将得到的不变特征最后接上一个全连接层进行3D形状分类;
4)用训练样本对构造的PDO-e3DCNN进行训练;包括:
初始化卷积层参数和全连接层参数;
采用反向传播算法进行等变3D CNN模型训练,得到训练好的PDO-e3DCNN模型;
5)利用步骤4)训练好的PDO-e3DCNN模型,对3D形状测试样本进行分类识别,得到预测的形状分类标签,由此实现3D形状的分类识别。
2.如权利要求1所述基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法,其特征是,步骤22)中,具体地,特征域f在旋转变换g下的结果由对应的群表示ρ(g)决定,即表示为式(1):
[π(g)f](x)=ρ(g)f(g-1x) 式(1)
其中,ρ(g)是一个K×K的矩阵,K表示输入特征的通道数,π(g)表示群作用;群表示ρ(g)满足对于任意群G中任意两个元素g,h,ρ(gh)=ρ(g)ρ(h)。
3.如权利要求2所述基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法,其特征是,对于任意群G中的元素g,在G上等变的卷积操作Ψ满足式(2):
π′(g)[Ψ[f]]=Ψ[π(g)[f]], 式(2)
其中,π(g)和π′(g)分别表示输入层和输出层上的群作用;
则:[π′(g)f](x)=ρ′(g)f(g-1x), 式(3)
其中,ρ′(g)是一个群表示;
将群G中的元素即变换g作用在映射的输入f上,再通过映射Ψ得到的结果与通过映射Ψ再经过变换g相同即为等变性。
4.如权利要求1所述基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法,其特征是,步骤32)中,对于离散群,具体使用激活函数ReLU。
5.如权利要求1所述基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法,其特征是,步骤4)对PDO-e3DCNN进行训练,卷积层参数的初始化具体采用广义的何恺明初始化方法;全连接层参数初始化具体采用Xavier初始化方式。
6.如权利要求1所述基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法,其特征是,步骤4)具体在深度学习框架Pytorch下实现对PDO-e3DCNN进行训练。
7.如权利要求1所述基于偏微分算子的等变3D卷积网络模型的3D形状图像分类方法,其特征是,步骤4)具体采用Adam算法对PDO-e3DCNN进行训练,训练过程迭代2000轮,批大小为32,即每32个样本为一个批次;在每轮迭代中按类别对训练样本讲行重采样,使得每轮训练中各类别样本数尽量相等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110288109.XA CN112990315B (zh) | 2021-03-17 | 2021-03-17 | 基于偏微分算子的等变3d卷积网络的3d形状图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110288109.XA CN112990315B (zh) | 2021-03-17 | 2021-03-17 | 基于偏微分算子的等变3d卷积网络的3d形状图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990315A CN112990315A (zh) | 2021-06-18 |
CN112990315B true CN112990315B (zh) | 2023-10-20 |
Family
ID=76333752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110288109.XA Active CN112990315B (zh) | 2021-03-17 | 2021-03-17 | 基于偏微分算子的等变3d卷积网络的3d形状图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990315B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723208B (zh) * | 2021-08-05 | 2023-10-20 | 北京大学 | 基于规范等变转换算子神经网络的三维物体形状分类方法 |
CN113705386A (zh) * | 2021-08-12 | 2021-11-26 | 北京有竹居网络技术有限公司 | 视频分类方法、装置、可读介质和电子设备 |
CN113591804B (zh) * | 2021-09-27 | 2022-02-22 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像特征提取方法、计算机可读存储介质以及计算机终端 |
CN114528977B (zh) * | 2022-01-24 | 2023-01-31 | 北京智源人工智能研究院 | 一种等变网络训练方法、装置、电子设备及存储介质 |
CN115879004A (zh) * | 2022-12-21 | 2023-03-31 | 北京百度网讯科技有限公司 | 目标模型的训练方法、装置、电子设备、介质和程序产品 |
CN116188933B (zh) * | 2023-05-04 | 2023-09-01 | 泉州装备制造研究所 | 一种基于群等变的鸟瞰图目标方向预测方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017142397A1 (en) * | 2016-02-19 | 2017-08-24 | Scyfer B.V. | Device and method for generating a group equivariant convolutional neural network |
CN107239514A (zh) * | 2017-05-19 | 2017-10-10 | 邓昌顺 | 一种基于卷积神经网络的植物识别方法及系统 |
CN107527068A (zh) * | 2017-08-07 | 2017-12-29 | 南京信息工程大学 | 基于cnn和域自适应学习的车型识别方法 |
WO2018010434A1 (zh) * | 2016-07-13 | 2018-01-18 | 华为技术有限公司 | 一种图像分类方法及装置 |
CN109726743A (zh) * | 2018-12-12 | 2019-05-07 | 苏州大学 | 一种基于三维卷积神经网络的视网膜oct图像分类方法 |
CN110533077A (zh) * | 2019-08-01 | 2019-12-03 | 南京理工大学 | 用于高光谱图像分类的形状自适应卷积深度神经网络方法 |
CN111401452A (zh) * | 2020-03-17 | 2020-07-10 | 北京大学 | 一种基于偏微分算子的等变卷积网络模型的图像分类方法 |
CN112257753A (zh) * | 2020-09-23 | 2021-01-22 | 北京大学 | 基于偏微分算子的广义等变卷积网络模型的图像分类方法 |
-
2021
- 2021-03-17 CN CN202110288109.XA patent/CN112990315B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017142397A1 (en) * | 2016-02-19 | 2017-08-24 | Scyfer B.V. | Device and method for generating a group equivariant convolutional neural network |
WO2018010434A1 (zh) * | 2016-07-13 | 2018-01-18 | 华为技术有限公司 | 一种图像分类方法及装置 |
CN107239514A (zh) * | 2017-05-19 | 2017-10-10 | 邓昌顺 | 一种基于卷积神经网络的植物识别方法及系统 |
CN107527068A (zh) * | 2017-08-07 | 2017-12-29 | 南京信息工程大学 | 基于cnn和域自适应学习的车型识别方法 |
CN109726743A (zh) * | 2018-12-12 | 2019-05-07 | 苏州大学 | 一种基于三维卷积神经网络的视网膜oct图像分类方法 |
CN110533077A (zh) * | 2019-08-01 | 2019-12-03 | 南京理工大学 | 用于高光谱图像分类的形状自适应卷积深度神经网络方法 |
CN111401452A (zh) * | 2020-03-17 | 2020-07-10 | 北京大学 | 一种基于偏微分算子的等变卷积网络模型的图像分类方法 |
CN112257753A (zh) * | 2020-09-23 | 2021-01-22 | 北京大学 | 基于偏微分算子的广义等变卷积网络模型的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
基于可变形卷积神经网络的图像分类研究;欧阳针;陈玮;;软件导刊(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112990315A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990315B (zh) | 基于偏微分算子的等变3d卷积网络的3d形状图像分类方法 | |
Sun et al. | Pointgrow: Autoregressively learned point cloud generation with self-attention | |
US11593586B2 (en) | Object recognition with reduced neural network weight precision | |
Zhang et al. | Spectral mesh processing | |
WO2021184466A1 (zh) | 一种基于偏微分算子的等变卷积网络模型的图像分类方法 | |
Li et al. | Exploring compositional high order pattern potentials for structured output learning | |
CN108510058B (zh) | 神经网络中的权重存储方法以及基于该方法的处理器 | |
CN108710906B (zh) | 基于轻量级网络LightPointNet的实时点云模型分类方法 | |
CN109614874B (zh) | 一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统 | |
CN110309835B (zh) | 一种图像局部特征提取方法及装置 | |
CN109598732B (zh) | 一种基于三维空间加权的医学图像分割方法 | |
Tang et al. | Skeletonnet: A topology-preserving solution for learning mesh reconstruction of object surfaces from rgb images | |
CN110197255A (zh) | 一种基于深度学习的可变形卷积网络 | |
CN108229536A (zh) | 分类预测模型的优化方法、装置及终端设备 | |
Knigge et al. | Modelling Long Range Dependencies in $ N $ D: From Task-Specific to a General Purpose CNN | |
Mehr et al. | Manifold learning in quotient spaces | |
Sharma et al. | Prifit: Learning to fit primitives improves few shot point cloud segmentation | |
Lei et al. | Learning and meshing from deep implicit surface networks using an efficient implementation of analytic marching | |
CN113723472A (zh) | 一种基于动态滤波等变卷积网络模型的图像分类方法 | |
Reina Molina et al. | Cell complexes and membrane computing for thinning 2D and 3D images | |
CN116802646A (zh) | 数据处理的方法和装置 | |
AT&T | ||
Lee et al. | Qff: Quantized fourier features for neural field representations | |
Rezwan et al. | Mixcaps: capsules with iteration free routing | |
Jain et al. | GenIcoNet: Generative icosahedral mesh convolutional network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |