CN113537143A

CN113537143A - 一种基于图卷积神经网络的3d形状识别方法与设备

Info

Publication number: CN113537143A
Application number: CN202110886677.XA
Authority: CN
Inventors: 刘世超; 徐麟
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-10-22

Abstract

本申请的目的是提供一种基于图卷积神经网络的3D形状识别方案。具体地，先基于3D物体的多视角特征信息，构建所述3D物体的有向图；然后，基于图卷积神经网络，根据所述3D物体的有向图，训练得到3D形状识别模型，其中，在训练所述3D形状识别模型的过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态；最后，利用所述3D形状识别模型进行3D形状识别。与现有技术相比，本申请在训练模型的过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态，有利于模型选取最为合适的节点进行保留和下一步迭代。进一步地，本申请引入三元组损失辅助训练，可以深度挖掘并保留多视角有用信息，从而显著优化识别结果。

Description

一种基于图卷积神经网络的3D形状识别方法与设备

技术领域

本申请涉及信息技术领域，尤其涉及一种基于图卷积神经网络的3D形状识别技术。

背景技术

3D(Three Dimensional，3维)形状通常比从2D(Two Dimensional，2维)形状包含更加丰富的信息。3D形状识别在自动驾驶、虚拟现实和增强现实等领域有着广泛的应用。

近年来，出现了很多用于3D形状识别的算法，根据3D形状表示形式的不同，这些算法可以分为基于体素、基于点云、基于视角的3D形状识别方法。其中，基于体素的识别方法，将3D形状表示为一个3D欧式空间中的体素集合，然后基于该体素集构建神经网络，学习体素集特征进行识别，该方法虽然富有成效，但是囿于其对3D形状做表面体素化时产生的数据稀疏、体素分辨率不佳、运算消耗过大等问题；基于点云的识别方法，直接基于点云或3D网格结构，以其为输入定义网络，实现识别；基于视角的识别方法，首先从对3D形状各个不同角度获取多个视角特征，接着将获取到的多个视角特征通过一定手段进行融合，将问题转化为识别2D多视角图像类比识别。大量研究表明，基于视角的3D形状识别方法性能通常优于基于体素、基于点云的3D形状识别方法。

然而，现有的基于视角的3D形状识别方法对于一个三维空间目标提取多视角图像之后的处理方法鲁棒性不够好，大多不考虑视角彼此之间的存在的联系，缺乏多个视角之间的深入交互。

发明内容

本申请的一个目的是提供一种基于图卷积神经网络的3D形状识别方法与设备。

根据本申请的一个方面，提供了一种基于图卷积神经网络的3D形状识别方法，其中，所述方法包括：

基于3D物体的多视角特征信息，构建所述3D物体的有向图；

基于图卷积神经网络，根据所述3D物体的有向图，训练得到3D形状识别模型，其中，在训练所述3D形状识别模型的过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态；

利用所述3D形状识别模型进行3D形状识别。

根据本申请的另一个方面，还提供了一种基于图卷积神经网络的3D形状识别设备，其中，所述设备包括：

图构建模块，用于基于3D物体的多视角特征信息，构建所述3D物体的有向图；

模型训练模块，用于基于图卷积神经网络，根据所述3D物体的有向图，训练得到3D形状识别模型，其中，在训练所述3D形状识别模型的过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态；

模型识别模块，用于利用所述3D形状识别模型进行3D形状识别。

根据本申请的又一个方面，还提供了一种计算设备，其中，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行所述的基于图卷积神经网络的3D形状识别方法。

根据本申请的又一个方面，还提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机可读指令可被处理器执行以实现所述的基于图卷积神经网络的3D形状识别方法。

本申请提供的方案中，先基于3D物体的多视角特征信息，构建所述3D物体的有向图；然后，基于图卷积神经网络，根据所述3D物体的有向图，训练得到3D形状识别模型，其中，在训练所述3D形状识别模型的过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态；最后，利用所述3D形状识别模型进行3D形状识别。与现有技术相比，本申请在训练模型的过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态，有利于模型选取最为合适的节点进行保留和下一步迭代。进一步地，本申请引入三元组损失辅助训练，可以深度挖掘并保留多视角有用信息，使得图卷积神经网络可以同时保留视角间关系，尤其保留对最终识别有重要参考价值的相邻视角之间的关系，从而显著优化识别结果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其他特征、目的和优点将会变得更明显：

图1是根据本申请实施例的一种基于图卷积神经网络的3D形状识别方法流程图；

图2是根据本申请实施例的一种图卷积神经网络的结构示意图；

图3是根据本申请实施例的一种有向图的结构示意图；

图4是根据本申请实施例的一种基于图卷积神经网络的3D形状识别设备示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请实施例提供了基于图卷积神经网络的3D形状识别方法，利用图卷积神经网络进一步挖掘多视角特征，以获得更好的3D形状识别效果。

在实际场景中，实现该方法的设备可以是用户设备、网络设备或者用户设备与网络设备通过网络相集成所构成的设备。其中，所述用户设备包括但不限于智能手机、平板电脑、个人计算机(PC)等终端设备，所述网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此，云由基于云计算(CloudComputing)的大量主机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟计算机。

图1是根据本申请实施例的一种基于图卷积神经网络的3D形状识别方法，该方法包括步骤S101、步骤S102和步骤S103。

步骤S101，基于3D物体的多视角特征信息，构建所述3D物体的有向图。

例如，如图2所示，在所述步骤S101中，首先根据多视角(view)特征信息进行图构建(Graph Construction)。具体地，初始化一个多视角图，所构建图的每一个节点保存的是3D物体的某一视角下的图像特征。每个视角下的图像特征由主干网络(backbone)提取，例如，主干网络可以采用ResNet18网络结构。在此，最大程度保留多个视角的特征信息，挖掘视角之间的潜在联系，可以减少信息损失，增加信息交互，学习更好的特征表示。

例如，一个常规的有向图的结构如图3所示。假设构建一个具有i个节点的有向图，多视角特征信息基于相机坐标获取，临接矩阵S可以表示为：

S_ij＝Φ(g_ij；θ_s)

其中，g_ij表示两个视图的空间关系，Φ为具有LeakyReLU激活函数的三层MLP(Multi-Layer Perceptron，多层感知机)。

在一些实施例中，所述步骤S101还包括：利用最邻近结点(KNN，K-nearestneighbor)算法，计算所述有向图的每个节点的若干固定数量的相邻节点，并只保留邻近节点间的边，作为所述有向图的边。据此得到一个储存节点关系信息的稀疏邻接矩阵A：

A_ij＝S_ij·{v_j∈N(v_i)}

其中，通过二进制函数II(·)来衡量某节点v_j是否属于节点v_i的K近邻节点。最终通过节点和边的选取，实现初始化有向图的构建。

步骤S102，基于图卷积神经网络，根据所述3D物体的有向图，训练得到3D形状识别模型，其中，在训练所述3D形状识别模型的过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态。

例如，在所述步骤S102中，根据所述步骤S101中所构建的有向图，引入图卷积神经网络(CNN，Convolutional Neural Networks)，进行节点特征融合，即多视角特征融合。图网络中的每一个节点存放的是一张图片经过卷积神经网络特征提取步骤后的特征图。所述图卷积神经网络的结构如图2所示。关于相似节点和不相似节点，可以通过计算节点之间(即特征图之间)的欧氏距离，距离达到近距离范围的，则认为特征图距离较近，即是相似节点；反之，特征图之间距离远的，则认为是不相似节点。通过所述步骤S102可以学到一个最佳3D形状特征表示，为后续3D形状识别提供特征信息。在此，通过引入图卷积神经网络，利用图网络的“邻居聚集，信息传递”特性，将3D形状对应的多个视角特征自然融合，以端到端方式训练，训练快速轻量，可以改善计算复杂度。

例如，可以采用层级训练方式，采用KNN(K-nearest neighbor，最邻近结点)方法实现节点的最终选择，以及参考节点之间关系信息，对节点选择进行微调。在此，利用图卷积神经网络，可以达到增加感受野，保留多视图间关联性，学习全局形状特征的目的。

在一些实施例中，训练所述3D形状识别模型的过程，包括：定义局部图卷积层，根据所述有向图中节点的相邻节点之间的关系来更新该节点的特征；在局部图的卷积中积聚远处视图的信息，扩增局部邻近图的信息。例如，图卷积训练过程，可以分为两个阶段：(1)局部图卷积，定义局部图卷积层，根据所述有向图中节点的相邻节点之间的关系来更新该节点的特征；(2)非局部信息传递，在局部图的卷积中积聚远处视图的信息，扩增局部邻近图的信息。

在一些实施例中，定义局部图卷积层的公式为：

其中，输入的特征

先经过稀疏邻接矩阵A^l的扩散，然后由线性变换W^l更新每个节点，经过非线性变换Ψ得到更新后的特征。在此，定义局部图卷积层，通过考虑由摄像机坐标的KNN确定的相邻节点之间的关系，来更新节点特征。

在一些实施例中，在局部图的卷积中积聚远处视图的信息，扩增局部邻近图的信息，包括：通过非局部信息传递来捕获所述有向图中节点的远程关系：

其中，

表示节点v_i到v_j的节点对关系，Γ为关系函数；

为训练参数，旨在探索图中任意两个视图的关联性。在此，通过全图长距离关联性，来更新节点特征。

从所述有向图中所有节点收集节点i的信息，然后将累积的信息

与原始特征f_i ^l融合为：

其中，

Ω表示带参数

的融合函数，定义为1层MLP+BN，输出为第i个点。通过上式更新后的特征就可以在局部图的卷积中积聚远处视图的信息，扩增局部邻近图的信息。

在一些实施例中，所述步骤S102包括：引入三元组损失辅助训练所述3D形状识别模型，其中，所述三元组损失的计算公式是：

L＝max(d(a，p)-d(a，n)+margin，0)

其中，d表示节点间的距离，margin表示训练过程中所设置的阈值。a表示锚(anchor)，即选择一个特征图作为anchor image；p表示正(positive)样本，和anchorimage属于统一类别，二者构成正样本对；n表示负(negative)样本，和anchor image属于不同类别，二者构成负样本对。所述三元组损失，正是基于众多上述形式的三元组，在网络训练过程中，通过反向误差传播，反复迭代计算，得到最终训练模型。例如，margin可以设置为0.5。通过计算当前目标节点与其他节点的距离，对节点间相似度分布进行预测。

图网络结构虽然有助于通过“邻居聚集，信息传递”的方式，对相似节点进行划分，但是对于节点相似度大小缺乏严格的边界衡量。在此，引入三元组损失辅助训练，在训练过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态，有利于模型选取最为合适的节点进行保留和下一步迭代。结合三元组损失，可以深度挖掘并保留多视角有用信息，使得图卷积神经网络可以同时保留视角间关系，尤其保留对最终识别有重要参考价值的相邻视角之间的关系，从而显著优化识别结果。

步骤S103，利用所述3D形状识别模型进行3D形状识别。

在一些实施例中，所述步骤S103包括：根据全局形状损失函数L_shape和节点选择损失函数L_node加权求和，通过全连接层(FC Layer)和softmax层，输出3D形状识别结果。例如，所输出的3D形状识别结果可以包括：3D形状属于某一类别的概率。

其中，C是一个被赋予一定权重的含有全连接层的分类器。

图4是根据本申请实施例的一种基于图卷积神经网络的3D形状识别设备，该设备包括图构建模块401、模型训练模块402和模型识别模块403。

图构建模块401，基于3D物体的多视角特征信息，构建所述3D物体的有向图。

例如，如图2所示，在执行所述图构建模块401时，首先根据多视角(view)特征信息进行图构建(Graph Construction)。具体地，初始化一个多视角图，所构建图的每一个节点保存的是3D物体的某一视角下的图像特征。每个视角下的图像特征由主干网络(backbone)提取，例如，主干网络可以采用ResNet18网络结构。在此，最大程度保留多个视角的特征信息，挖掘视角之间的潜在联系，可以减少信息损失，增加信息交互，学习更好的特征表示。

S_ij＝Φ(g_ij；θ_s)

在一些实施例中，所述图构建模块401还用于：利用最邻近结点(KNN，K-nearestneighbor)算法，计算所述有向图的每个节点的若干固定数量的相邻节点，并只保留邻近节点间的边，作为所述有向图的边。据此得到一个储存节点关系信息的稀疏邻接矩阵A：

A_ij＝S_ij·{v_j∈N(v_i)}

模型训练模块402，基于图卷积神经网络，根据所述3D物体的有向图，训练得到3D形状识别模型，其中，在训练所述3D形状识别模型的过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态。

例如，在执行所述模型训练模块402时，根据所述图构建模块401所构建的有向图，引入图卷积神经网络(CNN，Convolutional Neural Networks)，进行节点特征融合，即多视角特征融合。图网络中的每一个节点存放的是一张图片经过卷积神经网络特征提取步骤后的特征图。所述图卷积神经网络的结构如图2所示。关于相似节点和不相似节点，可以通过计算节点之间(即特征图之间)的欧氏距离，距离达到近距离范围的，则认为特征图距离较近，即是相似节点；反之，特征图之间距离远的，则认为是不相似节点。通过所述模型训练模块402可以学到一个最佳3D形状特征表示，为后续3D形状识别提供特征信息。在此，通过引入图卷积神经网络，利用图网络的“邻居聚集，信息传递”特性，将3D形状对应的多个视角特征自然融合，以端到端方式训练，训练快速轻量，可以改善计算复杂度。

在一些实施例中，定义局部图卷积层的公式为：

其中，输入的特征

其中，

表示节点v_i到v_j的节点对关系，Γ为关系函数；

与原始特征f_i ^l融合为：

其中，

Ω表示带参数

在一些实施例中，所述模型训练模块402用于：引入三元组损失辅助训练所述3D形状识别模型，其中，所述三元组损失的计算公式是：

L＝max(d(a，p)-d(a，n)+margin，0)

模型识别模块403，利用所述3D形状识别模型进行3D形状识别。

在一些实施例中，所述模型识别模块403用于：根据全局形状损失函数L_shape和节点选择损失函数L_node加权求和，通过全连接层(FC Layer)和softmax层，输出3D形状识别结果。例如，所输出的3D形状识别结果可以包括：3D形状属于某一类别的概率。

其中，C是一个被赋予一定权重的含有全连接层的分类器。

综上所述，本申请实施例利用图卷积神经网络进一步挖掘多视角特征，在训练模型的过程中，使得相似节点在可控范围内保持聚集状态，不相似节点保持分离状态，有利于模型选取最为合适的节点进行保留和下一步迭代。本申请实施例引入三元组损失辅助训练，可以深度挖掘并保留多视角有用信息，使得图卷积神经网络可以同时保留视角间关系，尤其保留对最终识别有重要参考价值的相邻视角之间的关系，从而显著优化识别结果。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此，本申请的一些实施例提供了一种计算设备，该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发所述设备执行前述本申请的多个实施例的方法和/或技术方案。

此外，本申请的一些实施例还提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机可读指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，

例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。