CN115439722A

CN115439722A - 基于图像和属性图融合网络的三维cad模型检索方法

Info

Publication number: CN115439722A
Application number: CN202211129635.2A
Authority: CN
Inventors: 秦飞巍; 詹高扬; 邵艳利
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-12-06

Abstract

本发明提出了一种基于图像和属性图融合网络的三维CAD模型检索方法，不仅充分利用了三维CAD模型中图像的高级几何信息和属性图中包含的拓扑结构信息。而且还引入了多头注意力机制，通过视图中的几何信息来对属性图中的拓扑结构信息进行增强。最后还将两个模态的信息进行融合，充分利用各自模态信息的同时还其他模态信息进行指导增强，使得能够辨别模型的特性信息更加清晰。本发明广泛适用于各类CAD模型而不局限于特定数据集，能够实现对三维CAD模型的高效检索且检索准确率高于现有表现较佳的其他三维模型检索方法，同时进一步推广了注意力机制以及跨模态融合在三维模型检索问题上的应用。

Description

基于图像和属性图融合网络的三维CAD模型检索方法

技术领域

本发明属于深度学习技术领域，具体涉及一种基于神经网络以及注意力机制的三维模型检索方法，旨在使用该技术解决工业生产中三维CAD模型检索性能不高，模型重复利用率低的问题，达到能根据现有模型从模型库中检索出相似度最高的模型，提高了模型的复用率，降低模型设计成本，提高生产效率。

背景技术

随着三维CAD模型在数量及复杂性上的迅速增加，三维CAD模型复用与检索问题得到广泛的关注。三维CAD模型在工业制造中发挥着重要作用，因为它是整个产品生命周期的基础。据统计，三维CAD模型的重复使用率已接近75％。在实际应用中，模型设计者在现有模型库中挑选出与需求类似的模型，在其基础上稍加修改得到新模型。因此，一个高性能检索方法能够有效地对模型重用，在产品生命周期中扮演着关键作用，是提高企业核心竞争力的重要因素。针对此问题，学者们引入图论、计算机视觉和机器学习等技术，对大规模三维模型数据集进行自动识别和检索。例如几何结构分析法，函数投影视图法，拓扑关联分析法，语义特征识别法等。但是由于数据集规模日益增大以及传统计算机视觉和机器学习技术的限制，检索性能已不能满足工业生产中的需求。

近年来，随着计算机算力的提升，深度学习迎来了极大的发展，在三维模型检索领域也获得了成功的应用。深度学习面对通用三维模型利用卷积神经网络来提取三维模型的局部特征，并且通过卷积，池化等方法来逐步构建模型抽象特征，从而进行模型检索。但是，通用模型检索方法面临着如下问题。基于体素的方法，其计算量和内存消耗量随着分辨率呈3次方增长，因此网络结构在分辨率较高的三维模型数据集中表现较差。基于点云的方法，由于点云数据的不规则性和无序性，难以用传统的2D深度网络来处理三维点云数据。通常将无序的点云数据转换为三维网格中的规则化的体素来处理，但是这种方法降低了三维模型的分辨率并且忽略了很多几何结构信息。多视图方法中得益于深度学习在二维图像处理领域高度成熟的相关技术，以及二维图像庞大的带标签数据集可以对模型进行有效的预训练，基于视图的三维模型检索算法相较于基于体素和点云方法取得了更好效果。但是，由于二维图像是围绕模型顺序旋转一周拍摄而成，这会由于存在拍摄间隙而导致丢失部分局部信息。

因此，针对现有基于传统机器学习通过拓扑关系和语义特征检索的性能不高问题和基于深度学习方法受分辨率和拍摄角度影响的问题，导致不能有效地满足工业界检索需求的情况，有必要提出一种新的检索方法来满足工业生产需求。

发明内容

本发明针对现有技术的不足，提出了一种基于图像和属性图融合网络的三维CAD模型检索方法(VGNet)。

本发明提出的基于图像和属性图融合网络的三维CAD模型检索方法不仅充分利用了三维CAD模型中图像的高级几何信息和属性图中包含的拓扑结构信息。而且还引入了多头注意力机制，通过视图中的几何信息来对属性图中的拓扑结构信息进行增强。最后还将两个模态的信息进行融合，充分利用各自模态信息的同时还其他模态信息进行指导增强，使得能够辨别模型的特性信息更加清晰。本发明广泛适用于各类CAD模型而不局限于特定数据集，能够实现对三维CAD模型的高效检索且检索准确率高于现有表现较佳的其他三维模型检索方法，同时进一步推广了注意力机制以及跨模态融合在三维模型检索问题上的应用。

本发明方法具体包括以下步骤：

本发明方法具体包括以下三个步骤：数据集预处理、VGNet网络模型构建与训练、VGNet网络模型预测结果评估。

步骤1、VGNet网络模型数据预处理，具体操作如下：

为了得到网络指定输入的数据格式，需要在训练之前对原始数据集进行预处理。本发明中三维CAD模型采用.sldprt格式，在输入网络框架之前，需要将其转换为图像数据和图结构数据。其中本发明采用12张图像来描述一个模型。

步骤2、VGNet网络模型构建与训练，具体操作如下：

VGNet网络模型构建与训练分为两个步骤：神经网络模型的构建和网络模型的训练。

步骤2.1：神经网络模型构建

该神经网络模型由两部分组成，分别是特征提取器和注意力指导融合模块。

步骤2.1.1：特征提取器

在两个模态中分别利用各自模态的神经网络来对原始数据进行特征提取。在视图分支中，采用多层卷积层渐进式地来逐步提取特征，通过卷积通道为64，128，256，512的卷积层来提取视图的特征信息，最后得到每一张视图的特征信息。在属性图分支中，由于模型转换而成的属性图规模较小，使用单层网络不能很好表示所包含的信息，因此对于属性图分支，采用多层图神经网络加JK-Net网络来提取特征信息。

步骤2.1.2：注意力指导融合模块

注意力指导融合模块由三个子模块构成：Multi-head Attention(MHA)，残差增强以及跨模态融合。

步骤2.1.2.1：MHA

为了充分挖掘图像特征和属性图特征之间存在的潜在关系，本发明通过MHA来找到两者之间联系。输入两个模态的特征向量来进行彼此之间的交互学习，从而找出更值得关注的区域信息来提高特征的辨别度。

步骤2.1.2.2：残差增强

在上一步中通过两个模态之间的交互学习，最终得到一个注意力分数，分数在0-1之间。分数也代表着两个模态之间联系的紧密程度，也从侧面反映了分数越高，该区域越重要。反之，分数越低则相对说明重要程度较低。因此，分数高低反映了该区域的重要程度，可以根据注意力分数来对特征进行加强，使得重要的特征更加明显，边缘特征更加边缘。

步骤2.1.2.3：跨模态融合

在经过以上步骤后，模态特征信息中已经充分利用了图像特征的高级几何结构信息和属性图特征的拓扑语义信息。此时，将两个模态的特征信息进行融合来形成最终的模型特征表示。本发明使用多层感知机来实现两个模态的融合。

步骤2.2：网络模型训练

由于图像分支和属性图分支训练难以同步，因此先将两个分支的特征提取网络进行预训练。在预训练完成之后，进行整个网络框架的训练，在前10个阶段冻结提取特征网络的参数更新，只在注意力融合模块进行微调。在这之后，所有参数将一起参与更新以达到更好的性能。

模型训练采用Adam优化算法来调整参数，学习率为1e-4，权重衰减为1e-3，一阶指数衰减率为0.9，二阶指数衰减率为0.999，总共训练200轮。

步骤3、VGNet网络模型预测结果评估，具体操作如下：

为了能够对方法进行性能和泛化能力进行评估，需要选择合适的评价指标来进行对比分析。本发明中，采用的评价指标有精确率，召回率，F1分数以及mAP。在介绍评价指标之前，先阐述相关概念：

·TP(True Positive)：被模型预测为正类的正样本

·TN(True Negative)：被模型预测为负类的负样本

·FP(False Positive)：被模型预测为正类的负样本

·FN(False Negative)：被模型预测为负类的正样本

准确率(Accuracy)：预测正确的结果占总样本的占比，公式如下

精确率(Precision)：其含义是在被所有预测为正的样本中实际为正样本的概率。公式如下：

平均精确率(mAP)：其含义为精确率的平均值。公式如下：

召回率(Recall)：其含义为实际为正的样本中被预测为正样本的概率。公式如下：

F1分数：为了平衡精确率和召回率，引入了F1分数。公式如下：

由于是多分类问题，因此精确率和召回率的计算方式进行改变，首先计算各个类别的精确率和召回率，随后按照权重进行相加，计算平均的精确率和召回率。

模型得出四个指标之后，与当前的主流模型进行对比，证明其性能更加优秀。

本发明的有益结果：

1、该技术提出了将视图模态和属性图模态进行融合的方法。与传统的深度模型不同，VGNet网络利用多视图的高级几何特征来指导属性图特征的学习，并且将包含丰富全局信息的多视图特征与包含丰富拓扑信息及局部信息的属性图特征进行融合，形成优势互补。

2、该技术提出了注意力指导融合机制。从嵌入的视图特征中，可以自适应地获得注意力掩码以生成属性图模型的注意力感知特征，其使得在检索三维CAD模型时更有效。

附图说明

图1为数据集预处理流程图；

图2为VGNet网络框架图；

图3为特征提取细节图；

图4为多头注意力机制图。

具体实施方式

本发明包含三个步骤：数据集预处理、VGNet网络模型构建与训练、VGNet网络模型预测结果评估。

步骤1：数据集预处理

为了得到网络指定输入的数据格式，需要在训练之前对原始数据集进行预处理。主要工作分为将原始数据集转换为图像数据和转换为图结构数据，转换过程如图1所示。两种格式的数据转换都需要从STEP文件开始，STEP是用于交换产品模型数据的标准文件。STEP文件可以由SLDPRT的CAD模型文件格式通过SOLIDWORKS工具批量转换形成。在得到STEP文件之后，对于两个分支分别进行不同的转换。对于图像分支，首先需要将STEP文件转换为STL文件格式，STL文件由多个三角形面片的定义组成，每个三角形面片的定义包括三角形各个定点的三维坐标及三角形面片的法矢量。其次，通过VTK工具包将这由面片组成的模型按照顺序绕其一周记录对应图像形成图像数据。另一方面对于属性图分支而言，可以直接从STEP文件里面提取三维模型的信息，例如面数量，边数量，面类型，边类型等。提取之后可以将这些信息组织成属性图分支所需要的图结构。

步骤2：VGNet网络模型构建与训练

如图2所示，VGNet网络模型构建与训练分为两个步骤：神经网络模型的构建和网络模型的训练。

步骤2.1：神经网络模型构建

步骤2.1.1：特征提取器

在步骤1中得到两个模态的原始输入数据后，分别将其输入到各自模态的神经网络中提取特征。

视图分支：每个三维模型由一组由预定义相机阵列捕获的渲染视图表示。本发明采用12张视图来表示一个三维模型。每个CAD模型都有一组视图，如图3.a)所示，将其输入到卷积通道依次为64，128，256，512的卷积层中以得到每个视图的特征。其计算公式如下所示：

z＝Conv(BN(ReLU(x)))

其中x为输入的图像，

其中C表示的输出的通道数，S是输入图像的步长，ReLU为其激活函数，BN(batch Normalization)为批次归一化，Conv为卷积核3*3的卷积操作。

图分支：使用图神经网络中的经典网络GCN来提取特征。图中结点通过消息传递机制来不断地更新和聚合特征。由于属性图是图神经网络中小图范畴，单层网络层的特征信息不能很好表示所包含信息，因此采用图3.b)方式，通过多层图卷积层来充分提取特征信息并利用跳跃网络将前中后期特征进行拼接形成最终图特征。其计算公式如下所示：

其中

为结点在第l层的特征，σ为非线性变换，c_ij为归一化因子，N_i为结点i的所有邻居包括结点自身，w^(l)为第l层的权重，b^(l)为第l层的截距。

步骤2.1.2：注意力指导融合模块

如图4所示，注意力指导融合模块由三个子模块构成：Multi-head Attention(MHA)，残差增强以及跨模态融合。

步骤2.1.2.1：MHA

为了充分挖掘图像特征和属性图特征之间存在的潜在关系，本发明通过MHA来找到两者之间联系。输入两个模态的特征向量来进行彼此之间的交互学习，从而找出更值得关注的区域信息来提高特征的辨别度。MHA的计算方式如下所示：

F(Q,K,V)＝ξ(Concat(head₁,…,head_t)W⁰),

head_i反映了第i个视图与属性图之间的联系，head_i由softmax函数实现。其中，Q_i＝QWi_i ^Q，K_i＝KW_i ^K，V_i＝VW_i ^V。W为权重参数矩阵，Q表示属性图特征，K和V都表示为视图特征，

d_model表示为模型特征维度，ξ为归一化函数，在实验中由sigmoid函数实现，最终输出的指导分数P₁在0-1之间。

步骤2.1.2.2：残差增强

上一步骤得出的指导分数体现了不同视图和属性图之间的相关性强弱。分数值越高，说明相关性越强。反之，越弱。对于特征增强，与跨模态特征相关性更强的局部信息应当将被赋予更大的重要性。因此我们使用指导分数F(Q,K,V)通过残差连接来增强特征：

f_i ^′＝f_i*(1+F(Q,K,V))

其中f_i*F(Q,K,V)是通过指导分数来细化特征，然后添加到原始特征f_i以生成增强特征f_i ^′。增强图特征f_i ^′中包含视图信息，具有更高的模型辨别度。

步骤2.1.2.3：跨模态融合

在经过以上步骤后，模态特征信息中已经充分利用了图像特征的高级几何结构信息和属性图特征的拓扑语义信息。此时，将两个模态的特征信息进行融合来形成最终的模型特征表示。本发明使用多层感知机来实现两个模态的融合，其计算方式如下所示：

f_final＝MLP(Concat(f_g,f_v))

其中MLP为多层感知机，由两个全连接层组成。f_g为属性图特征，f_v为视图特征，f_final为三维CAD模型的最终特征。

步骤2.2：网络模型训练

步骤3：VGNet网络模型预测结果评估

如表1所示，本发明提出的VGNet方法在检索任务上mAP达到了34.4，P@N达到了95.8。相比较于点云中性能最优越的CurveNet，VGNet提高了准确率提高了3.9，mAP提高了0.8。相较于基于多视图的方法，VGNet框架仍然要表现的更好一些。比用GoogleNet实现的MVCNN准确率提高了1.3，mAP提高了0.5。说明本发明方法比其他经典的三维模型检索方法有更好的检索效果。

表1.先进模型检索性能对比

Claims

1.基于图像和属性图融合网络的三维CAD模型检索方法，其特征在于,该方法具体包括以下步骤：

步骤1、VGNet网络模型数据预处理；

步骤2、VGNet网络模型构建与训练，具体操作如下：

VGNet网络模型构建与训练分为两个步骤：神经网络模型的构建和网络模型的训练；

步骤2.1：神经网络模型构建；该神经网络模型由两部分组成，分别是特征提取器和注意力指导融合模块；

所述的注意力指导融合模块，由三个子模块构成：Multi-head Attention即MHA，残差增强以及跨模态融合；

步骤2.1.1：MHA

通过MHA来找到图像特征和属性图特征之间联系；输入两个模态的特征向量来进行彼此之间的交互学习，得到一个注意力分数；

步骤2.1.2：残差增强

根据注意力分数来对特征进行加强，使得重要的特征更加明显，边缘特征更加边缘；

步骤2.1.3：跨模态融合

将两个模态的特征信息进行融合来形成最终的模型特征表示；

步骤2.2：网络模型训练

将两个分支的特征提取网络进行预训练；在预训练完成之后，进行整个网络框架的训练，在前N个阶段冻结提取特征网络的参数更新，只在注意力融合模块进行微调；之后将所有参数将一起参与更新；

步骤3、VGNet网络模型预测结果评估。

2.根据权利要求1所述的基于图像和属性图融合网络的三维CAD模型检索方法，其特征在于：所述的VGNet网络模型数据预处理；具体步骤如下：

三维CAD模型采用.sldprt格式，在输入网络框架之前，将其转换为图像数据和图结构数据；采用12张图像来描述一个模型。

3.根据权利要求1所述的基于图像和属性图融合网络的三维CAD模型检索方法，其特征在于：所述的特征提取器，其在两个模态中分别利用各自模态的神经网络来对原始数据进行特征提取；视图分支：每个三维模型由一组由预定义相机阵列捕获的渲染视图表示；将其输入到卷积通道依次为64，128，256，512的卷积层中以得到每个视图的特征；其计算公式如下所示：

z＝Conv(BN(ReLU(x)))

其中x为输入的图像，