CN111179440A - 一种面向自然场景的三维物体模型检索方法 - Google Patents

一种面向自然场景的三维物体模型检索方法 Download PDF

Info

Publication number
CN111179440A
CN111179440A CN202010003676.1A CN202010003676A CN111179440A CN 111179440 A CN111179440 A CN 111179440A CN 202010003676 A CN202010003676 A CN 202010003676A CN 111179440 A CN111179440 A CN 111179440A
Authority
CN
China
Prior art keywords
model
image
network
sample
natural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010003676.1A
Other languages
English (en)
Other versions
CN111179440B (zh
Inventor
王滨
王栋
陶隽源
金明河
刘宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010003676.1A priority Critical patent/CN111179440B/zh
Publication of CN111179440A publication Critical patent/CN111179440A/zh
Application granted granted Critical
Publication of CN111179440B publication Critical patent/CN111179440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2016Rotation, translation, scaling

Abstract

一种面向自然场景的三维物体模型检索方法,本发明属于图像处理技术领域。本发明为解决自然图像与多视角表达的三维模型存在的数据领域差异,实现自然图像对多视角三维物体的检索。技术要点:模型的多视角投影与渲染;构建跨领域检索网络;构建三元组立体损失训练数据;训练自然图像到多视角模型映射的网络;自然图像的模型检索。本发明所提出的面向自然场景的三维物体模型检索方法的检索正确率达到94.8%。该方法有效解决了自然图像检索三维物体模型问题,在增强现实和计算机辅助设计等领域,具有广泛的应用前景。

Description

一种面向自然场景的三维物体模型检索方法
技术领域
本发明属于图像处理技术领域,涉及一种面向自然场景的三维物体模型检索方法。
背景技术
用自然场景中拍摄的图像检索对应的多视角表达的三维CAD模型,在增强现实、计算机辅助设计等应用中具有重要的价值。与给定CAD模型检索CAD模型的数据形式不同,自然图像与三维模型的数据有明显的区别,自然图像受复杂光照、多样化背景以及不可控图像退化等因素影响呈现出复杂多变的数据形态,三维模型则是在人工设定环境下创造的单一、纯净,极大程度上排除了不可控因素干扰的数据形式。针对自然图像对三维模型的检索,现有的方法试图将自然图像和对应模型的视角特征映射到同一嵌入空间中。但实质上只考虑了对齐两个数据域的边缘分布,忽略了很多其他重要信息,并且缺少大规模高质量的包含自然图像与CAD模型对应的三维数据集。因此,在训练数据有限的情况下,提出一种面向自然场景的三维物体模型检索方法,对于提高三维模型的检索性能是非常必要的。
现有技术中,文献号为CN110070626A的专利文献提供了一种基于多视角分类的三维物体检索方法,包括:获取原始图像;对所述原始图像进行处理得到多视角图像;对所述多视角图像进行处理得到特征描述子;对所述特征描述子进行处理得到词汇树;将待检索图像在所述词汇树中检索得到所述原始图像的序列号。该文献采用多视角分类算法,得到全方位的三维物体在二维平面的多视角特征图像,并可以直接对三维物体进行检索,简单方便,易于实现,解决了三维图像检索中由于用户拍摄物体视角变化引起的检索性能下降的问题。该现有技术没有考虑自然场景中拍摄的图像检索,忽略了很多其他重要信息,影响三维模型的检索性能。
发明内容
本发明提出了一种面向自然场景的三维物体模型检索方法,以解决自然图像与多视角表达的三维模型存在的数据领域差异,实现自然图像对多视角三维物体的检索。
本发明为解决上述技术问题采取的技术方案是:
一种面向自然场景的三维物体模型检索方法,所述方法的实现过程为:
步骤一、模型的多视角投影与渲染
在三维场景中,利用虚拟相机,对三维物体模型进行多视角投影,并利用Blender工具合成出以自然图像为背景的视角图像;对三维物体模型数据集中每个模型做视角投影并做模型渲染;
步骤二、构建跨领域检索网络
利用最大池化层对三维模型的多视角特征进行融合,构建共享权值的跨领域检索网络;
步骤三、构建三元组立体损失训练数据
利用提出的新型三元组立体损失训练策略,构建三元组立体损失训练数据,对每个输入包(batch)中同时挖掘困难的正样本对和负样本对,使两个不同数据域的特征分布具有相似统计特性;
步骤四、训练跨领域检索网络
利用提出的三元组中心-分离损失函数方法,训练具有联合特征的构建跨领域检索网络,将自然图像域与模型多视角图像域的特征有效地映射到同一嵌入空间中;
步骤五、自然图像的模型检索
将自然图像和多视角表示的CAD模型输入到共享权值网络中,通过计算自然图像特征和模型特征库中各模型间的距离,检索自然图像。
进一步地,在步骤一中,模型的多视角投影与渲染的过程为:
为得到与自然场景物体相对应的多视角三维模型数据,需要根据数据集中模型的视角标注信息,方位角(φ)、高度角
Figure BDA0002353702990000021
和旋转角(ψ),设定相机的拍摄位姿,将三维模型投影到自然图像坐标系中;假设初始状态下,世界坐标与模型坐标系以及相机坐标系重合,根据视角标注,可确定相机在世界坐标系中的空间位置C为:
Figure BDA0002353702990000022
其中d是相机与模型中心的距离,旋转相机光轴对齐世界坐标系原点;
定义相机自身坐标系,镜头光轴向后方向为k轴,相机向上方向为j轴;按照右手定则,由i轴到j轴可确定k轴,绕相机自身坐标的j轴旋转
Figure BDA0002353702990000023
度,再绕i轴
Figure BDA0002353702990000024
接着再绕k轴转动-ψ度,得到世界坐标系到相机坐标系的旋转矩阵R;
三维空间中基于世界坐标系的物理点Pw,变换到相机坐标系为Pc,其变换关系:
Pc=R(Pw-C)=[R-RC]Pw
其中:R为旋转矩阵,Pw为世界坐标,Pc为相机坐标,C为相机在世界坐标系中的空间位置;
在模型默认坐标系中,利用物体视角信息,按上述位姿变换,将虚拟相机摆放在预设的位置上,设定相机的姿态角;将相机光轴对准物体坐标中心,沿着该平面绕模型每隔30o拍摄视角图像,共采集12张图像作为该模型的多视角表示;
按照以上步骤平移、旋转相机,得到不同位置上的投影视角;在投影视角的基础上做裁剪优化,按照图像中实际内容将多余的部分裁掉,再将修改后的图像放大到224x224的分辨率,得到投影视角;
将模型放入特定场景或者用自然图像作为背景,做模型渲染;通过选择与自然场景相近的背景,利用Blender软件与投影视角图像中包含的透明度信息α,控制前景图像与背景融合时的占比,合成图像I与纯净视角图像V和背景图像B的关系:
I=αV+(1-α)B
合成出的以自然图像为背景的视角图像。
进一步地,在步骤二中,构建跨领域检索网络的具体过程为:
跨领域检索网络采用三元组网络结构,以Resnet18网络为基础,对其结构进行微调,构建跨领域检索网络,用来对自然图像和CAD模型进行特征提取;Resnet18网络由四个卷积块组成,每个块中含有两个卷积层以及一个直通连接;在第三个卷积块之后加入最大池化层以对多视角CAD模型数据进行特征融合,多视角图像经过最大池化层的融合特征后,再经过最后一个卷积块,可被编码成模型的单一嵌入特征;将原始网络中最后一层输出的1000个节点替换成相应数据集的类别数以适用数据集的分类。
进一步地,在步骤三中,构建三元组立体损失训练数据的具体过程为:
采用三元组立体损失训练策略构建训练数据,在构造三元组数据时,采用困难样本挖掘方法挖掘出更困难的负样本对;
在训练小包中,有M组来自不同类别的样本集,每组中含S个从该类中随机选择的不同样本,用公式表达为
Figure BDA0002353702990000031
满足
Figure BDA0002353702990000032
i≠j;其中S表示来自同类中的样本数量,M则是小包中的类别数,y*为样本类别;对于任意两组来自不同类别的样本列
Figure BDA0002353702990000033
Figure BDA0002353702990000034
计算距离矩阵;那么对于样本列
Figure BDA0002353702990000035
来说,将其与其它S-1个样本列产生的距离矩阵堆叠成距离立方体;每个样本列都以相同方式计算后,总共可以得到S个距离立方体;对于模型
Figure BDA0002353702990000036
正样本距离
Figure BDA0002353702990000037
以及负样本距离
Figure BDA0002353702990000041
其中d(g)表示欧式距离,
Figure BDA0002353702990000042
表示由卷积神经网络计算的模型
Figure BDA0002353702990000043
的嵌入特征。
进一步地,在步骤四中,训练跨领域检索网络的具体过程为:
训练神经网络利用损失函数(网络学习收敛需要的损失函数)衡量实际输出与期望输出间的误差,通过不断迭代更新神经元中的权值而使网络能准确地模拟输入数据与样本标签间的映射关系,找到能使输出结果与期望值尽可能一致的权重参数,使提取到的图像特征和模型特征在同一嵌入空间中具有类似分布;
在三元组基础上引入中心-分离损失约束进行联合特征学习,以提高类内紧凑性和类间区分性,每个物体类别对应一个类别中心,与每类物体相关的自然图像和多视角表示的CAD模型都指向该中心;对于单个样本特征fi和其对应的类别中心
Figure BDA0002353702990000044
来说,三元组-中心分离损失函数的形式:
Figure BDA0002353702990000045
其中:α为正负样本距离间的阈值,
Figure BDA0002353702990000046
为正样本距离,
Figure BDA0002353702990000047
为负样本距离,M为小包中的类别数,C是类别总数,β为类别中心之间的最小距离阈值,cj为第j个类别中心向量,ck为第k个类别中心向量;
用三元组-中心分离损失函数训练网络,使样本数据通过映射后与其同类样本的距离更小,使不同类的样本数据通过映射后彼此距离更远,并在测试集上评价网络性能。
进一步地,在步骤五中,自然图像的模型检索的过程为:
跨领域检索时,将自然图像和多视角表示的CAD模型分别输入到共享权值的网络中;作为查询对象的自然图像,经过卷积神经网络编码成图像特征映射在嵌入空间中;CAD模型的多视角图像则分别经过卷积神经网络得到对应的视角特征,再由池化层融合成模型特征;通过设计的三元组中心-分离损失函数,使图像特征和模型特征在同一嵌入空间中具有类似分布;计算自然图像特征与模型特征库中各模型之间的距离,按照距离远近排序得到返回的检索结果。
本发明具有以下有益效果:本发明提出了一种面向自然场景的三维物体模型检索方法,以解决自然图像检索多视角表达的三维物体模型问题。该方法针对自然图像与三维模型数据域的差异,采用新型三元组立体损失训练策略,挖掘困难正样本和负样本上的能力,利用提出的三元组-中心分离损失的联合特征学习法,使两个不同数据域的特征分布具有相似统计特性,显著增强了跨领域检索的性能。本发明所提出的面向自然场景的三维物体模型检索方法的检索正确率达到94.8%。该方法有效解决了自然图像检索三维物体模型问题,在增强现实和计算机辅助设计等领域,具有广泛的应用前景。
附图说明
图1面向自然图像检索三维模型的流程图;
图2三维模型多视角投影图;
图3三维模型渲染后的图,图中:上下图都是渲染后的图,白色的是三维模型,后面背景是渲染;
图4自然图像中检索CAD模型的基本结构示意图;
图5自然图像的检索结果图;
图6是相机坐标系及模型坐标系图(拍摄位姿与三维模型投影关系图),图中:azimuth表示方位角(φ)、elevation表示高度角
Figure BDA0002353702990000053
rotationg表示旋转角(ψ);
图7是相机自身坐标系的k轴、j轴、i轴的关系图。
具体实施方式
具体实施方式一:结合附图1至7对本发明的具体实施方式作进一步阐述。如图1所示,为本发明的一种面向自然场景的三维物体模型检索方法的流程图,主要由以下步骤完成:
步骤一、模型的多视角投影与渲染
现有的三维物体模型数据集,缺少与真实物体对应的模型数据,且规模比较小,不足以支撑面向自然场景的三维模型检索。由于数据集并未直接给出渲染之后的多视角三维物体图像,需要对每个模型做视角投影,从原始CAD模型中渲染多视角图像数据。
为得到与自然场景物体相对应的多视角三维模型数据,需要根据数据集中模型的视角标注信息,方位角(φ)、高度角
Figure BDA0002353702990000051
和旋转角(ψ),设定相机的拍摄位姿,将三维模型投影到自然图像坐标系中。假设初始状态下,世界坐标与模型坐标系以及相机坐标系重合,根据视角标注,可以确定相机在世界坐标系中的空间位置C为:
Figure BDA0002353702990000052
其中d是相机与模型中心的距离。接下来,旋转相机光轴对齐世界坐标系原点。
定义相机自身坐标系,镜头光轴向后方向k轴正方向,相机向上方向为j轴正方向;按照右手定则,由i轴到j轴可确定k轴,绕相机自身坐标的j轴旋转
Figure BDA0002353702990000061
度,再绕i轴
Figure BDA0002353702990000062
接着再绕k轴转动-ψ度,得到世界坐标系到相机坐标系的旋转矩阵R
三维空间中基于世界坐标系的物理点Pw,变换到相机坐标系为Pc,其变换关系:
Pc=R(Pw-C)=[R-RC]Pw
其中:R为旋转矩阵,Pw为世界坐标,Pc为相机坐标,C为相机在世界坐标系中的空间位置。
在模型默认坐标系中,利用物体视角信息,按上述位姿变换,将虚拟相机摆放在预设的位置上,设定相机的姿态角。将相机光轴对准物体坐标中心,沿着该平面绕模型每隔30o拍摄视角图像,共采集12张图像作为该模型的多视角表示。
按照以上步骤平移、旋转相机,得到不同位置上的投影视角。在投影视角的基础上做裁剪优化,按照图像中实际内容将多余的部分裁掉,再将修改后的图像放大到224x224的分辨率。以机械零件模型为例,得到的投影视角如图2所示。
默认条件下得到的三维模型的投影视角是空白背景,为缩小多视角模型数据与真实图像的差异,需将模型放入特定场景或者用自然图像作为背景,做模型渲染。通过选择与自然场景相近的背景,利用Blender软件与投影视角图像中包含的透明度信息α,控制前景图像与背景融合时的占比。合成图像I与纯净视角图像V和背景图像B的关系:
I=αV+(1-α)B
图3为利用Blender工具合成出的以自然图像为背景的视角图像。
步骤二、构建跨领域检索网络
跨领域检索网络采用三元组网络结构,以Resnet18网络为基础,对其结构进行微调,构建跨领域检索网络,用来对自然图像和CAD模型进行特征提取。Resnet18网络由四个卷积块组成,每个块中含有两个卷积层以及一个直通连接。为了对多视角CAD模型数据进行特征融合,在第三个卷积块之后加入最大池化层。多视角图像经过最大池化层的融合特征后,再经过最后一个卷积块,可被编码成模型的单一嵌入特征。为了适用数据集的分类,将原始网络中最后一层输出的1000个节点替换成相应数据集的类别数。
步骤三、构建三元组立体损失训练数据
采用三元组立体损失训练策略构建训练数据。在构造三元组数据时,为了充分利用每个三元组的信息,采用一种有效的困难样本挖掘方法,该方法可以挖掘出更困难的负样本对,可使特征匹配的准确率得到明显提升。在训练小包中,有M组来自不同类别的样本集,每组中含S个从该类中随机选择的不同样本,用公式表达为
Figure BDA0002353702990000071
满足
Figure BDA0002353702990000072
如果i≠j;其中S表示来自同类中的样本数量,M则是小包中的类别数,y*为样本类别。对于任意两组来自不同类别的样本列
Figure BDA0002353702990000073
Figure BDA0002353702990000074
计算距离矩阵。那么对于样本列
Figure BDA0002353702990000075
来说,将其与其它S-1个样本列产生的距离矩阵堆叠成距离立方体。每个样本列都以相同方式计算后,总共可以得到S个距离立方体。对于模型
Figure BDA0002353702990000076
正样本距离
Figure BDA0002353702990000077
以及负样本距离
Figure BDA0002353702990000078
其中d(g)表示欧式距离,
Figure BDA0002353702990000079
表示由卷积神经网络计算的模型
Figure BDA00023537029900000710
的嵌入特征。
步骤四、训练跨领域检索网络
训练神经网络,利用损失函数衡量实际输出与期望输出间的误差,通过不断迭代更新神经元中的权值而使网络能准确地模拟输入数据与样本标签间的映射关系,找到能使输出结果与期望值尽可能一致的权重参数,使提取到的图像特征和模型特征在同一嵌入空间中具有类似分布。
为提高类内紧凑性和类间区分性,在三元组基础上引入中心-分离损失约束,进行联合特征学习。具体来说,每个物体类别对应一个类别中心,与每类物体相关的自然图像和多视角表示的CAD模型都指向该中心。那么,对于单个样本特征fi和其对应的类别中心
Figure BDA00023537029900000711
来说,三元组-中心分离损失函数的形式:
Figure BDA00023537029900000712
其中:α为正负样本距离间的阈值,
Figure BDA00023537029900000713
为正样本距离,
Figure BDA00023537029900000714
为负样本距离,M为小包中的类别数,C是类别总数,β为类别中心之间的最小距离阈值,cj为第j个类别中心向量,ck为第k个类别中心向量。
利用三元组-中心分离损失函数训练网络,使样本数据通过映射后与其同类样本的距离更小,使不同类的样本数据通过映射后彼此距离更远,并在测试集上评价网络性能。
步骤五、自然图像的模型检索
跨领域检索时,将自然图像和多视角表示的CAD模型分别输入到共享权值的网络中。作为查询对象的自然图像,经过卷积神经网络编码成图像特征映射在嵌入空间中;CAD模型的多视角图像则分别经过卷积神经网络得到对应的视角特征,再由池化层融合成模型特征。通过设计的三元组中心-分离损失函数,使图像特征和模型特征在同一嵌入空间中具有类似分布;计算自然图像特征与模型特征库中各模型之间的距离,按照距离远近排序得到返回的检索结果。
本发明的实施例
结合图2至图5说明本实施例,基于共享神经网络的可抓取物体识别方法步骤为:
步骤一:模型的多视角投影与渲染
在Pascal3D+数据集上进行,Pascal3D+包含12类物体,每类有不超过10个不同的CAD模型,图像集中大约有22000多张包含一个或多个物体的自然图像,每张图像的标注文件中包含了出现的物体视角信息。在模型默认坐标系中,将虚拟相机摆放在预设的位置上,相机与模型中心的距离d设为2.0。相机光轴对准模型坐标中心,利用物体视角信息设定相机的姿态角,绕模型每隔30o拍摄视角图像,共采集12张图像作为该模型的多视角图像。利用blender软件,对视角图像进行背景渲染。
步骤二、构建跨领域检索网络
对Resnet18网络结构进行微调,在第三个卷积块之后加入最大池化层,将原始网络中最后一层输出的1000个节点替换成训练数据集类别数对应12个节点输出。
步骤三、构建三元组立体损失训练数据
按照三元组立体损失计算方式构造训练小包,每个模型与其它所有样本列中模型的距离形成距离矩阵,从中选择最困难的正样本距离和负样本距离,作为该模型产生的三元组约束,按照相同的计算方式从输入训练小包得到训练所需的三元组数据。
步骤四、训练跨领域检索网络
从采用的Pascal3D+数据集中,随机选择80%的样本作为训练数据,20%的样本用来测试。每个训练小包的样本数设为12,包含来自4组不同类别,组内各含3个同类的样本的模型。本阶段的学习率设为0.001,共训练了30轮。
步骤五、自然图像的模型检索
将多视角三维模型输入训练好的跨领域检索网络,得到模型特征库。输入查询的自然图像,经过卷积神经网络先得到对应的图像特征,通过度量图像特征与模型特征的距离,实现自然图像到多视角三维模型的检索。在现实场景中测试了多种物体检索模型的结果,如图5所示,展示了对瓶子、椅子和显示器的检索结果。从示例中可以看出,在目标物体占主体位置时,检索网络能够从自然图像准确地检索出三维模型。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施方式或实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同技术方案限定。

Claims (6)

1.一种面向自然场景的三维物体模型检索方法,其特征在于,所述方法的实现过程为:
步骤一、模型的多视角投影与渲染:在三维场景中,利用虚拟相机对三维物体模型进行多视角投影,并利用Blender工具合成出以自然图像为背景的视角图像;
步骤二、构建跨领域检索网络:利用最大池化层对三维模型的多视角特征进行融合,构建共享权值的跨领域检索网络;
步骤三、构建三元组立体损失训练数据:利用三元组立体损失训练策略,构建三元组立体损失训练数据,对每个输入包(batch)中同时挖掘困难的正样本对和负样本对,使两个不同数据域的特征分布具有相似统计特性;
步骤四、训练跨领域检索网络:利用提出的三元组中心-分离损失函数方法,训练具有联合特征的构建跨领域检索网络,将自然图像域与模型多视角图像域的特征有效地映射到同一嵌入空间中;
步骤五、自然图像的模型检索:将自然图像和多视角表示的CAD模型输入到共享权值网络中,通过计算自然图像特征和模型特征库中各模型间的距离,检索自然图像。
2.根据权利要求1所述的一种面向自然场景的三维物体模型检索方法,其特征在于:在步骤一中,模型的多视角投影与渲染的过程为:
为得到与自然场景物体相对应的多视角三维模型数据,需要根据数据集中模型的视角标注信息,方位角(φ)、高度角
Figure FDA0002353702980000015
和旋转角(ψ),设定相机的拍摄位姿,将三维模型投影到自然图像坐标系中;假设初始状态下,世界坐标与模型坐标系以及相机坐标系重合,根据视角标注,可确定相机在世界坐标系中的空间位置C为:
Figure FDA0002353702980000011
Figure FDA0002353702980000012
Figure FDA0002353702980000013
其中d是相机与模型中心的距离,旋转相机光轴对齐世界坐标系原点;
定义相机自身坐标系,镜头光轴向后方向为k轴,相机向上方向为j轴;按照右手定则,由i轴到j轴可确定k轴,绕相机自身坐标的j轴旋转
Figure FDA0002353702980000016
度,再绕i轴
Figure FDA0002353702980000014
接着再绕k轴转动-ψ度,得到世界坐标系到相机坐标系的旋转矩阵R;
三维空间中基于世界坐标系的物理点Pw,变换到相机坐标系为Pc,其变换关系:
Pc=R(Pw-C)=[R-RC]Pw
其中:R为旋转矩阵,Pw为世界坐标,Pc为相机坐标,C为相机在世界坐标系中的空间位置;
在模型默认坐标系中,利用物体视角信息,按上述位姿变换,将虚拟相机摆放在预设的位置上,设定相机的姿态角;将相机光轴对准物体坐标中心,沿着该平面绕模型每隔30o拍摄视角图像,共采集12张图像作为该模型的多视角表示;
按照以上步骤平移、旋转相机,得到不同位置上的投影视角;在投影视角的基础上做裁剪优化,按照图像中实际内容将多余的部分裁掉,再将修改后的图像放大到224x224的分辨率,得到投影视角;
将模型放入特定场景或者用自然图像作为背景,做模型渲染;通过选择与自然场景相近的背景,利用Blender软件与投影视角图像中包含的透明度信息α,控制前景图像与背景融合时的占比,合成图像I与纯净视角图像V和背景图像B的关系:
I=αV+(1-α)B
合成出的以自然图像为背景的视角图像。
3.根据权利要求2所述的一种面向自然场景的三维物体模型检索方法,其特征在于:在步骤二中,构建跨领域检索网络的具体过程为:
跨领域检索网络采用三元组网络结构,以Resnet18网络为基础,对其结构进行微调,构建跨领域检索网络,用来对自然图像和CAD模型进行特征提取;Resnet18网络由四个卷积块组成,每个块中含有两个卷积层以及一个直通连接;在第三个卷积块之后加入最大池化层以对多视角CAD模型数据进行特征融合,多视角图像经过最大池化层的融合特征后,再经过最后一个卷积块,可被编码成模型的单一嵌入特征;将原始网络中最后一层输出的1000个节点替换成相应数据集的类别数以适用数据集的分类。
4.根据权利要求3所述的一种面向自然场景的三维物体模型检索方法,其特征在于:在步骤三中,构建三元组立体损失训练数据的具体过程为:
采用三元组立体损失训练策略构建训练数据,在构造三元组数据时,采用困难样本挖掘方法挖掘出更困难的负样本对;
在训练小包中,有M组来自不同类别的样本集,每组中含S个从该类中随机选择的不同样本,用公式表达为
Figure FDA0002353702980000034
满足
Figure FDA0002353702980000033
i≠j;其中S表示来自同类中的样本数量,M则是小包中的类别数,y*为样本类别;对于任意两组来自不同类别的样本列
Figure FDA00023537029800000311
Figure FDA00023537029800000312
计算距离矩阵;那么对于样本列
Figure FDA0002353702980000035
来说,将其与其它S-1个样本列产生的距离矩阵堆叠成距离立方体;每个样本列都以相同方式计算后,总共可以得到S个距离立方体;对于模型
Figure FDA0002353702980000037
正样本距离
Figure FDA0002353702980000036
以及负样本距离
Figure FDA00023537029800000310
其中d(g)表示欧式距离,
Figure FDA0002353702980000038
表示由卷积神经网络计算的模型
Figure FDA0002353702980000039
的嵌入特征。
5.根据权利要求4所述的一种面向自然场景的三维物体模型检索方法,其特征在于:在步骤四中,训练跨领域检索网络的具体过程为:
训练神经网络利用损失函数(网络学习收敛需要的损失函数)衡量实际输出与期望输出间的误差,通过不断迭代更新神经元中的权值而使网络能准确地模拟输入数据与样本标签间的映射关系,找到能使输出结果与期望值尽可能一致的权重参数,使提取到的图像特征和模型特征在同一嵌入空间中具有类似分布;
在三元组基础上引入中心-分离损失约束进行联合特征学习,以提高类内紧凑性和类间区分性,每个物体类别对应一个类别中心,与每类物体相关的自然图像和多视角表示的CAD模型都指向该中心;对于单个样本特征fi和其对应的类别中心
Figure FDA00023537029800000315
来说,三元组-中心分离损失函数的形式:
Figure FDA0002353702980000031
其中:α为正负样本距离间的阈值,
Figure FDA00023537029800000313
为正样本距离,
Figure FDA00023537029800000314
为负样本距离,M为小包中的类别数,C是类别总数,β为类别中心之间的最小距离阈值,cj为第j个类别中心向量,ck为第k个类别中心向量;
用三元组-中心分离损失函数训练网络,使样本数据通过映射后与其同类样本的距离更小,使不同类的样本数据通过映射后彼此距离更远,并在测试集上评价网络性能。
6.根据权利要求5所述的一种面向自然场景的三维物体模型检索方法,其特征在于:
在步骤五中,自然图像的模型检索的过程为:
跨领域检索时,将自然图像和多视角表示的CAD模型分别输入到共享权值的网络中;作为查询对象的自然图像,经过卷积神经网络编码成图像特征映射在嵌入空间中;CAD模型的多视角图像则分别经过卷积神经网络得到对应的视角特征,再由池化层融合成模型特征;通过设计的三元组中心-分离损失函数,使图像特征和模型特征在同一嵌入空间中具有类似分布;计算自然图像特征与模型特征库中各模型之间的距离,按照距离远近排序得到返回的检索结果。
CN202010003676.1A 2020-01-02 2020-01-02 一种面向自然场景的三维物体模型检索方法 Active CN111179440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010003676.1A CN111179440B (zh) 2020-01-02 2020-01-02 一种面向自然场景的三维物体模型检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010003676.1A CN111179440B (zh) 2020-01-02 2020-01-02 一种面向自然场景的三维物体模型检索方法

Publications (2)

Publication Number Publication Date
CN111179440A true CN111179440A (zh) 2020-05-19
CN111179440B CN111179440B (zh) 2023-04-14

Family

ID=70654391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010003676.1A Active CN111179440B (zh) 2020-01-02 2020-01-02 一种面向自然场景的三维物体模型检索方法

Country Status (1)

Country Link
CN (1) CN111179440B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797269A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于多级视图关联卷积网络的多视图三维模型检索方法
CN113158901A (zh) * 2021-04-22 2021-07-23 天津大学 一种域自适应行人重识别方法
CN113191400A (zh) * 2021-04-14 2021-07-30 中国海洋大学 基于二维图像检索对应三维模型的方法及装置
CN113487747A (zh) * 2021-06-25 2021-10-08 山东齐鲁数通科技有限公司 一种模型处理方法、装置、终端及存储介质
WO2022052052A1 (en) * 2020-09-11 2022-03-17 Siemens Aktiengesellschaft Method and system for identifying objects
CN117893692A (zh) * 2024-03-12 2024-04-16 之江实验室 一种基于对称视图的三维重建方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107658145A (zh) * 2017-09-29 2018-02-02 山东大学 一种三维“纳米珠帘状”复合金属氮/氧化物及其制备方法与应用
CN109389671A (zh) * 2018-09-25 2019-02-26 南京大学 一种基于多阶段神经网络的单图像三维重建方法
DE102017216821A1 (de) * 2017-09-22 2019-03-28 Siemens Aktiengesellschaft Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
US20190147221A1 (en) * 2017-11-15 2019-05-16 Qualcomm Technologies Inc. Pose estimation and model retrieval for objects in images
CN110070626A (zh) * 2019-03-15 2019-07-30 西安电子科技大学 一种基于多视角分类的三维物体检索方法
US20210117648A1 (en) * 2018-05-09 2021-04-22 Hewlett-Packard Development Company, L.P. 3-dimensional model identification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017216821A1 (de) * 2017-09-22 2019-03-28 Siemens Aktiengesellschaft Verfahren zur Erkennung einer Objektinstanz und/oder Orientierung eines Objekts
US20200211220A1 (en) * 2017-09-22 2020-07-02 Siemens Aktiengesellschaft Method for Identifying an Object Instance and/or Orientation of an Object
CN107658145A (zh) * 2017-09-29 2018-02-02 山东大学 一种三维“纳米珠帘状”复合金属氮/氧化物及其制备方法与应用
US20190147221A1 (en) * 2017-11-15 2019-05-16 Qualcomm Technologies Inc. Pose estimation and model retrieval for objects in images
US20210117648A1 (en) * 2018-05-09 2021-04-22 Hewlett-Packard Development Company, L.P. 3-dimensional model identification
CN109389671A (zh) * 2018-09-25 2019-02-26 南京大学 一种基于多阶段神经网络的单图像三维重建方法
CN110070626A (zh) * 2019-03-15 2019-07-30 西安电子科技大学 一种基于多视角分类的三维物体检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
D. WANG: "Learning Descriptors With Cube Loss for View-Based 3-D Object Retrieval" *
周子钦;严华;: "基于多任务学习的有限样本多视角三维形状识别算法" *
杜雨佳;李海生;姚春莲;蔡强;: "基于三元组网络的单图三维模型检索" *
韦伟: "基于神经网络的三维模型视觉特征分析" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797269A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于多级视图关联卷积网络的多视图三维模型检索方法
WO2022052052A1 (en) * 2020-09-11 2022-03-17 Siemens Aktiengesellschaft Method and system for identifying objects
CN113191400A (zh) * 2021-04-14 2021-07-30 中国海洋大学 基于二维图像检索对应三维模型的方法及装置
CN113158901A (zh) * 2021-04-22 2021-07-23 天津大学 一种域自适应行人重识别方法
CN113487747A (zh) * 2021-06-25 2021-10-08 山东齐鲁数通科技有限公司 一种模型处理方法、装置、终端及存储介质
CN113487747B (zh) * 2021-06-25 2024-03-29 山东齐鲁数通科技有限公司 一种模型处理方法、装置、终端及存储介质
CN117893692A (zh) * 2024-03-12 2024-04-16 之江实验室 一种基于对称视图的三维重建方法、装置及存储介质

Also Published As

Publication number Publication date
CN111179440B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN111179440B (zh) 一种面向自然场景的三维物体模型检索方法
CN108230337B (zh) 一种基于移动端的语义slam系统实现的方法
CN109658445A (zh) 网络训练方法、增量建图方法、定位方法、装置及设备
CN111652934B (zh) 定位方法及地图构建方法、装置、设备、存储介质
CN109034077B (zh) 一种基于多尺度特征学习的三维点云标记方法和装置
CN109165680B (zh) 基于视觉slam的室内场景下单一目标物体字典模型改进方法
CN110322511A (zh) 一种基于物体和平面特征的语义slam方法和系统
EP3274964B1 (en) Automatic connection of images using visual features
CN106599053B (zh) 一种三维模型检索方法
CN110543581A (zh) 基于非局部图卷积网络的多视图三维模型检索方法
CN112598775B (zh) 一种基于对比学习的多视图生成方法
CN109447170A (zh) 移动机器人同步定位与地图构建系统的字典优化方法
CN109886297A (zh) 一种用于从二维图像识别三维模型对象的方法
CN112115291A (zh) 一种基于深度学习的三维室内模型检索方法
JP7075654B2 (ja) 3次元cadモデル部分検索方法及び3次元cadモデル検索方法
Lai et al. 2D3D-MVPNet: Learning cross-domain feature descriptors for 2D-3D matching based on multi-view projections of point clouds
CN111597367B (zh) 基于视图和哈希算法的三维模型检索方法
CN113628329A (zh) 一种零样本草图三维点云检索方法
CN117456136A (zh) 一种基于多模态视觉识别的数字孪生场景智能生成方法
Liu et al. Ground camera image and large-scale 3-D image-based point cloud registration based on learning domain invariant feature descriptors
Zhang et al. Dense 3d mapping for indoor environment based on feature-point slam method
Liu et al. Deep learning of directional truncated signed distance function for robust 3D object recognition
CN107341151B (zh) 图像检索数据库生成方法、增强现实的方法及装置
CN114255328A (zh) 一种基于单视图与深度学习的古文物三维重建方法
Wang et al. Map matching navigation method based on scene information fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant