CN111179440A

CN111179440A - 一种面向自然场景的三维物体模型检索方法

Info

Publication number: CN111179440A
Application number: CN202010003676.1A
Authority: CN
Inventors: 王滨; 王栋; 陶隽源; 金明河; 刘宏
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-19
Anticipated expiration: 2040-01-02
Also published as: CN111179440B

Abstract

一种面向自然场景的三维物体模型检索方法，本发明属于图像处理技术领域。本发明为解决自然图像与多视角表达的三维模型存在的数据领域差异，实现自然图像对多视角三维物体的检索。技术要点：模型的多视角投影与渲染；构建跨领域检索网络；构建三元组立体损失训练数据；训练自然图像到多视角模型映射的网络；自然图像的模型检索。本发明所提出的面向自然场景的三维物体模型检索方法的检索正确率达到94.8％。该方法有效解决了自然图像检索三维物体模型问题，在增强现实和计算机辅助设计等领域，具有广泛的应用前景。

Description

一种面向自然场景的三维物体模型检索方法

技术领域

本发明属于图像处理技术领域，涉及一种面向自然场景的三维物体模型检索方法。

背景技术

用自然场景中拍摄的图像检索对应的多视角表达的三维CAD模型，在增强现实、计算机辅助设计等应用中具有重要的价值。与给定CAD模型检索CAD模型的数据形式不同，自然图像与三维模型的数据有明显的区别，自然图像受复杂光照、多样化背景以及不可控图像退化等因素影响呈现出复杂多变的数据形态，三维模型则是在人工设定环境下创造的单一、纯净，极大程度上排除了不可控因素干扰的数据形式。针对自然图像对三维模型的检索，现有的方法试图将自然图像和对应模型的视角特征映射到同一嵌入空间中。但实质上只考虑了对齐两个数据域的边缘分布，忽略了很多其他重要信息，并且缺少大规模高质量的包含自然图像与CAD模型对应的三维数据集。因此，在训练数据有限的情况下，提出一种面向自然场景的三维物体模型检索方法，对于提高三维模型的检索性能是非常必要的。

现有技术中，文献号为CN110070626A的专利文献提供了一种基于多视角分类的三维物体检索方法，包括：获取原始图像；对所述原始图像进行处理得到多视角图像；对所述多视角图像进行处理得到特征描述子；对所述特征描述子进行处理得到词汇树；将待检索图像在所述词汇树中检索得到所述原始图像的序列号。该文献采用多视角分类算法，得到全方位的三维物体在二维平面的多视角特征图像，并可以直接对三维物体进行检索，简单方便，易于实现，解决了三维图像检索中由于用户拍摄物体视角变化引起的检索性能下降的问题。该现有技术没有考虑自然场景中拍摄的图像检索，忽略了很多其他重要信息，影响三维模型的检索性能。

发明内容

本发明提出了一种面向自然场景的三维物体模型检索方法，以解决自然图像与多视角表达的三维模型存在的数据领域差异，实现自然图像对多视角三维物体的检索。

本发明为解决上述技术问题采取的技术方案是：

一种面向自然场景的三维物体模型检索方法，所述方法的实现过程为：

步骤一、模型的多视角投影与渲染

在三维场景中，利用虚拟相机，对三维物体模型进行多视角投影，并利用Blender工具合成出以自然图像为背景的视角图像；对三维物体模型数据集中每个模型做视角投影并做模型渲染；

步骤二、构建跨领域检索网络

利用最大池化层对三维模型的多视角特征进行融合，构建共享权值的跨领域检索网络；

步骤三、构建三元组立体损失训练数据

利用提出的新型三元组立体损失训练策略，构建三元组立体损失训练数据，对每个输入包(batch)中同时挖掘困难的正样本对和负样本对，使两个不同数据域的特征分布具有相似统计特性；

步骤四、训练跨领域检索网络

利用提出的三元组中心-分离损失函数方法，训练具有联合特征的构建跨领域检索网络，将自然图像域与模型多视角图像域的特征有效地映射到同一嵌入空间中；

步骤五、自然图像的模型检索

将自然图像和多视角表示的CAD模型输入到共享权值网络中，通过计算自然图像特征和模型特征库中各模型间的距离，检索自然图像。

进一步地，在步骤一中，模型的多视角投影与渲染的过程为：

为得到与自然场景物体相对应的多视角三维模型数据，需要根据数据集中模型的视角标注信息，方位角(φ)、高度角

和旋转角(ψ)，设定相机的拍摄位姿，将三维模型投影到自然图像坐标系中；假设初始状态下，世界坐标与模型坐标系以及相机坐标系重合，根据视角标注，可确定相机在世界坐标系中的空间位置C为：

其中d是相机与模型中心的距离，旋转相机光轴对齐世界坐标系原点；

定义相机自身坐标系，镜头光轴向后方向为k轴，相机向上方向为j轴；按照右手定则，由i轴到j轴可确定k轴，绕相机自身坐标的j轴旋转

度，再绕i轴

接着再绕k轴转动-ψ度，得到世界坐标系到相机坐标系的旋转矩阵R；

三维空间中基于世界坐标系的物理点P_w，变换到相机坐标系为P_c，其变换关系：

P_c＝R(P_w-C)＝[R-RC]P_w

其中：R为旋转矩阵，P_w为世界坐标，P_c为相机坐标，C为相机在世界坐标系中的空间位置；

在模型默认坐标系中，利用物体视角信息，按上述位姿变换，将虚拟相机摆放在预设的位置上，设定相机的姿态角；将相机光轴对准物体坐标中心，沿着该平面绕模型每隔30^o拍摄视角图像，共采集12张图像作为该模型的多视角表示；

按照以上步骤平移、旋转相机，得到不同位置上的投影视角；在投影视角的基础上做裁剪优化，按照图像中实际内容将多余的部分裁掉，再将修改后的图像放大到224x224的分辨率，得到投影视角；

将模型放入特定场景或者用自然图像作为背景，做模型渲染；通过选择与自然场景相近的背景，利用Blender软件与投影视角图像中包含的透明度信息α，控制前景图像与背景融合时的占比，合成图像I与纯净视角图像V和背景图像B的关系：

I＝αV+(1-α)B

合成出的以自然图像为背景的视角图像。

进一步地，在步骤二中，构建跨领域检索网络的具体过程为：

跨领域检索网络采用三元组网络结构，以Resnet18网络为基础，对其结构进行微调，构建跨领域检索网络，用来对自然图像和CAD模型进行特征提取；Resnet18网络由四个卷积块组成，每个块中含有两个卷积层以及一个直通连接；在第三个卷积块之后加入最大池化层以对多视角CAD模型数据进行特征融合，多视角图像经过最大池化层的融合特征后，再经过最后一个卷积块，可被编码成模型的单一嵌入特征；将原始网络中最后一层输出的1000个节点替换成相应数据集的类别数以适用数据集的分类。

进一步地，在步骤三中，构建三元组立体损失训练数据的具体过程为：

采用三元组立体损失训练策略构建训练数据，在构造三元组数据时，采用困难样本挖掘方法挖掘出更困难的负样本对；

在训练小包中，有M组来自不同类别的样本集，每组中含S个从该类中随机选择的不同样本，用公式表达为

满足

i≠j；其中S表示来自同类中的样本数量，M则是小包中的类别数，y_*为样本类别；对于任意两组来自不同类别的样本列

和

计算距离矩阵；那么对于样本列

来说，将其与其它S-1个样本列产生的距离矩阵堆叠成距离立方体；每个样本列都以相同方式计算后，总共可以得到S个距离立方体；对于模型

正样本距离

以及负样本距离

其中d(g)表示欧式距离，

表示由卷积神经网络计算的模型

的嵌入特征。

进一步地，在步骤四中，训练跨领域检索网络的具体过程为：

训练神经网络利用损失函数(网络学习收敛需要的损失函数)衡量实际输出与期望输出间的误差，通过不断迭代更新神经元中的权值而使网络能准确地模拟输入数据与样本标签间的映射关系，找到能使输出结果与期望值尽可能一致的权重参数，使提取到的图像特征和模型特征在同一嵌入空间中具有类似分布；

在三元组基础上引入中心-分离损失约束进行联合特征学习，以提高类内紧凑性和类间区分性，每个物体类别对应一个类别中心，与每类物体相关的自然图像和多视角表示的CAD模型都指向该中心；对于单个样本特征f_i和其对应的类别中心

来说，三元组-中心分离损失函数的形式：

其中：α为正负样本距离间的阈值，

为正样本距离，

为负样本距离，M为小包中的类别数，C是类别总数，β为类别中心之间的最小距离阈值，c_j为第j个类别中心向量，c_k为第k个类别中心向量；

用三元组-中心分离损失函数训练网络，使样本数据通过映射后与其同类样本的距离更小，使不同类的样本数据通过映射后彼此距离更远，并在测试集上评价网络性能。

进一步地，在步骤五中，自然图像的模型检索的过程为：

跨领域检索时，将自然图像和多视角表示的CAD模型分别输入到共享权值的网络中；作为查询对象的自然图像，经过卷积神经网络编码成图像特征映射在嵌入空间中；CAD模型的多视角图像则分别经过卷积神经网络得到对应的视角特征，再由池化层融合成模型特征；通过设计的三元组中心-分离损失函数，使图像特征和模型特征在同一嵌入空间中具有类似分布；计算自然图像特征与模型特征库中各模型之间的距离，按照距离远近排序得到返回的检索结果。

本发明具有以下有益效果：本发明提出了一种面向自然场景的三维物体模型检索方法，以解决自然图像检索多视角表达的三维物体模型问题。该方法针对自然图像与三维模型数据域的差异，采用新型三元组立体损失训练策略，挖掘困难正样本和负样本上的能力，利用提出的三元组-中心分离损失的联合特征学习法，使两个不同数据域的特征分布具有相似统计特性，显著增强了跨领域检索的性能。本发明所提出的面向自然场景的三维物体模型检索方法的检索正确率达到94.8％。该方法有效解决了自然图像检索三维物体模型问题，在增强现实和计算机辅助设计等领域，具有广泛的应用前景。

附图说明

图1面向自然图像检索三维模型的流程图；

图2三维模型多视角投影图；

图3三维模型渲染后的图，图中：上下图都是渲染后的图，白色的是三维模型，后面背景是渲染；

图4自然图像中检索CAD模型的基本结构示意图；

图5自然图像的检索结果图；

图6是相机坐标系及模型坐标系图(拍摄位姿与三维模型投影关系图)，图中：azimuth表示方位角(φ)、elevation表示高度角

rotationg表示旋转角(ψ)；

图7是相机自身坐标系的k轴、j轴、i轴的关系图。

具体实施方式

具体实施方式一：结合附图1至7对本发明的具体实施方式作进一步阐述。如图1所示，为本发明的一种面向自然场景的三维物体模型检索方法的流程图，主要由以下步骤完成：

步骤一、模型的多视角投影与渲染

现有的三维物体模型数据集，缺少与真实物体对应的模型数据，且规模比较小，不足以支撑面向自然场景的三维模型检索。由于数据集并未直接给出渲染之后的多视角三维物体图像，需要对每个模型做视角投影，从原始CAD模型中渲染多视角图像数据。

和旋转角(ψ)，设定相机的拍摄位姿，将三维模型投影到自然图像坐标系中。假设初始状态下，世界坐标与模型坐标系以及相机坐标系重合，根据视角标注，可以确定相机在世界坐标系中的空间位置C为：

其中d是相机与模型中心的距离。接下来，旋转相机光轴对齐世界坐标系原点。

定义相机自身坐标系，镜头光轴向后方向k轴正方向，相机向上方向为j轴正方向；按照右手定则，由i轴到j轴可确定k轴，绕相机自身坐标的j轴旋转

度，再绕i轴

接着再绕k轴转动-ψ度，得到世界坐标系到相机坐标系的旋转矩阵R

P_c＝R(P_w-C)＝[R-RC]P_w

其中：R为旋转矩阵，P_w为世界坐标，P_c为相机坐标，C为相机在世界坐标系中的空间位置。

在模型默认坐标系中，利用物体视角信息，按上述位姿变换，将虚拟相机摆放在预设的位置上，设定相机的姿态角。将相机光轴对准物体坐标中心，沿着该平面绕模型每隔30^o拍摄视角图像，共采集12张图像作为该模型的多视角表示。

按照以上步骤平移、旋转相机，得到不同位置上的投影视角。在投影视角的基础上做裁剪优化，按照图像中实际内容将多余的部分裁掉，再将修改后的图像放大到224x224的分辨率。以机械零件模型为例，得到的投影视角如图2所示。

默认条件下得到的三维模型的投影视角是空白背景，为缩小多视角模型数据与真实图像的差异，需将模型放入特定场景或者用自然图像作为背景，做模型渲染。通过选择与自然场景相近的背景，利用Blender软件与投影视角图像中包含的透明度信息α，控制前景图像与背景融合时的占比。合成图像I与纯净视角图像V和背景图像B的关系：

I＝αV+(1-α)B

图3为利用Blender工具合成出的以自然图像为背景的视角图像。

步骤二、构建跨领域检索网络

跨领域检索网络采用三元组网络结构，以Resnet18网络为基础，对其结构进行微调，构建跨领域检索网络，用来对自然图像和CAD模型进行特征提取。Resnet18网络由四个卷积块组成，每个块中含有两个卷积层以及一个直通连接。为了对多视角CAD模型数据进行特征融合，在第三个卷积块之后加入最大池化层。多视角图像经过最大池化层的融合特征后，再经过最后一个卷积块，可被编码成模型的单一嵌入特征。为了适用数据集的分类，将原始网络中最后一层输出的1000个节点替换成相应数据集的类别数。

步骤三、构建三元组立体损失训练数据

采用三元组立体损失训练策略构建训练数据。在构造三元组数据时，为了充分利用每个三元组的信息，采用一种有效的困难样本挖掘方法，该方法可以挖掘出更困难的负样本对，可使特征匹配的准确率得到明显提升。在训练小包中，有M组来自不同类别的样本集，每组中含S个从该类中随机选择的不同样本，用公式表达为

满足

如果i≠j；其中S表示来自同类中的样本数量，M则是小包中的类别数，y_*为样本类别。对于任意两组来自不同类别的样本列

和

计算距离矩阵。那么对于样本列

来说，将其与其它S-1个样本列产生的距离矩阵堆叠成距离立方体。每个样本列都以相同方式计算后，总共可以得到S个距离立方体。对于模型

正样本距离

以及负样本距离

其中d(g)表示欧式距离，

表示由卷积神经网络计算的模型

的嵌入特征。

步骤四、训练跨领域检索网络

训练神经网络，利用损失函数衡量实际输出与期望输出间的误差，通过不断迭代更新神经元中的权值而使网络能准确地模拟输入数据与样本标签间的映射关系，找到能使输出结果与期望值尽可能一致的权重参数，使提取到的图像特征和模型特征在同一嵌入空间中具有类似分布。

为提高类内紧凑性和类间区分性，在三元组基础上引入中心-分离损失约束，进行联合特征学习。具体来说，每个物体类别对应一个类别中心，与每类物体相关的自然图像和多视角表示的CAD模型都指向该中心。那么，对于单个样本特征f_i和其对应的类别中心

来说，三元组-中心分离损失函数的形式：

其中：α为正负样本距离间的阈值，

为正样本距离，

为负样本距离，M为小包中的类别数，C是类别总数，β为类别中心之间的最小距离阈值，c_j为第j个类别中心向量，c_k为第k个类别中心向量。

利用三元组-中心分离损失函数训练网络，使样本数据通过映射后与其同类样本的距离更小，使不同类的样本数据通过映射后彼此距离更远，并在测试集上评价网络性能。

步骤五、自然图像的模型检索

跨领域检索时，将自然图像和多视角表示的CAD模型分别输入到共享权值的网络中。作为查询对象的自然图像，经过卷积神经网络编码成图像特征映射在嵌入空间中；CAD模型的多视角图像则分别经过卷积神经网络得到对应的视角特征，再由池化层融合成模型特征。通过设计的三元组中心-分离损失函数，使图像特征和模型特征在同一嵌入空间中具有类似分布；计算自然图像特征与模型特征库中各模型之间的距离，按照距离远近排序得到返回的检索结果。

本发明的实施例

结合图2至图5说明本实施例，基于共享神经网络的可抓取物体识别方法步骤为：

步骤一：模型的多视角投影与渲染

在Pascal3D+数据集上进行，Pascal3D+包含12类物体，每类有不超过10个不同的CAD模型，图像集中大约有22000多张包含一个或多个物体的自然图像，每张图像的标注文件中包含了出现的物体视角信息。在模型默认坐标系中，将虚拟相机摆放在预设的位置上，相机与模型中心的距离d设为2.0。相机光轴对准模型坐标中心，利用物体视角信息设定相机的姿态角，绕模型每隔30^o拍摄视角图像，共采集12张图像作为该模型的多视角图像。利用blender软件，对视角图像进行背景渲染。

步骤二、构建跨领域检索网络

对Resnet18网络结构进行微调，在第三个卷积块之后加入最大池化层，将原始网络中最后一层输出的1000个节点替换成训练数据集类别数对应12个节点输出。

步骤三、构建三元组立体损失训练数据

按照三元组立体损失计算方式构造训练小包，每个模型与其它所有样本列中模型的距离形成距离矩阵，从中选择最困难的正样本距离和负样本距离，作为该模型产生的三元组约束，按照相同的计算方式从输入训练小包得到训练所需的三元组数据。

步骤四、训练跨领域检索网络

从采用的Pascal3D+数据集中，随机选择80％的样本作为训练数据，20％的样本用来测试。每个训练小包的样本数设为12，包含来自4组不同类别，组内各含3个同类的样本的模型。本阶段的学习率设为0.001，共训练了30轮。

步骤五、自然图像的模型检索

将多视角三维模型输入训练好的跨领域检索网络，得到模型特征库。输入查询的自然图像，经过卷积神经网络先得到对应的图像特征，通过度量图像特征与模型特征的距离，实现自然图像到多视角三维模型的检索。在现实场景中测试了多种物体检索模型的结果，如图5所示，展示了对瓶子、椅子和显示器的检索结果。从示例中可以看出，在目标物体占主体位置时，检索网络能够从自然图像准确地检索出三维模型。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施方式或实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同技术方案限定。