CN112115291B

CN112115291B - 一种基于深度学习的三维室内模型检索方法

Info

Publication number: CN112115291B
Application number: CN202010809510.9A
Authority: CN
Inventors: 苏亮亮; 刘凯; 王庆利; 万倩倩
Original assignee: Nanjing Weilijia Intelligent Technology Co ltd; Nanjing Zhishan Intelligent Science And Technology Research Institute Co ltd
Current assignee: Nanjing Weilijia Intelligent Technology Co ltd; Nanjing Zhishan Intelligent Science And Technology Research Institute Co ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2024-02-27
Anticipated expiration: 2040-08-12
Also published as: CN112115291A

Abstract

本发明公开了一种基于深度学习的三维室内模型检索方法，步骤包括：建立模型特征数据库；对输入的二维图像进行主体检测，分割出主体图像；使用特征提取网络对分割出的各个主体图像进行特征向量提取；通过计算特征向量的相似度大小在模型特征数据库中进行室内模型标准渲染图检索，获取各个相似的室内模型标准渲染图；按照相似度的大小顺序对各个相似的室内模型标准渲染图进行排序，并选取相似度较大的室内模型标准渲染图作为检索结果输出显示。该基于深度学习的三维室内模型检索方法对同类模型个体具有良好的区分能力，同时降低了检索输入源的获取难度，能够高效准确地实现对三维室内模型的检索。

Description

一种基于深度学习的三维室内模型检索方法

技术领域

本发明涉及一种三维室内模型检索方法，尤其是一种基于深度学习的三维室内模型检索方法。

背景技术

随着计算机图形领域的快速发展和相关软硬件技术的日益成熟，三维模型在各领域得到了广泛的应用，而室内设计行业则是其中的一个典型代表。通过使用三维设计软件，设计师只需简单地拖放和替换三维室内模型就能对室内空间进行设计和修改，大大提升了方案的设计效率。为了满足消费者对设计方案的个性化需求，三维室内模型的数量急剧增长，而采用传统的关键字检索方式难以对海量的模型资源进行高效准确的检索，这已经成为了制约该行业发展的关键性因素。

目前，针对三维模型检索领域的研究主要集中于基于内容的检索，此类检索方法主要是通过对三维模型所包含的内容进行特征提取，并在特征空间中对待检模型与目标模型进行相似度度量以实现模型检索。基于内容的三维模型检索其核心部分是对三维模型的特征进行提取，主要分为以下四类：基于统计的特征提取、基于拓扑关系的特征提取、基于几何结构的特征提取和基于投影的特征提取。其中，上述前三类方法是直接对三维模型进行特征提取，普遍存在着计算过程较为复杂并对模型的完整性要求较高等问题，实际使用时具有一定的难度。而基于投影的特征提取方法则是从各个不同的视角对三维模型进行投影，将其转换为二维图像之后再进行特征提取。此类方法具有特征计算的复杂度低并且提取到的特征易于索引等优点，但是由于提取的图像特征多是由人工设计的底层特征，忽略了高层语义，并不能对三维模型进行全面的描述，具有一定的局限性。

由于模型渲染图能够充分反映三维室内模型的颜色、轮廓、纹理、形状等特征，因此三维室内模型多以渲染图的形式进行展示。基于此，有必要设计出一种利用卷积神经网络对三维室内模型对应渲染图的特征进行提取，并将其用于模型检索。

发明内容

发明目的在于：提供一种基于深度学习的三维室内模型检索方法，具有良好的区分能力，同时降低了检索输入源的获取难度，能够高效准确地实现对三维室内模型的检索。

技术方案：本发明所述的基于深度学习的三维室内模型检索方法，包括如下步骤：

步骤1，构建特征提取网络，并利用特征提取网络对室内模型数据库中保存的各个室内模型标准渲染图进行特征向量提取，并利用提取到的特征向量建立模型特征数据库；

步骤2，利用图像主体检测网络对输入的二维图像进行主体检测，并从二维图像中分割出包含目标物体在内的主体图像；

步骤3，利用特征提取网络对分割出的各个主体图像进行特征向量提取；

步骤4，计算主体图像的特征向量与模型特征数据库中各个室内模型标准渲染图的特征向量的相似度；

步骤5，按照相似度的大小顺序对各个室内模型标准渲染图进行排序，并选取前N个相似度较大的的室内模型标准渲染图作为检索结果输出显示。

进一步的，在步骤1中，构建特征提取网络的具体步骤为：

步骤1.1，建立模型检索数据集：从室内模型数据库中选取不同模型大类的各个室内模型，每个室内模型均设置有五张效果图以及对应的五张室内实物图，再将包含该室内模型的模型区域从效果图以及室内实物图中截取出来建立模型检索数据集；

步骤1.2，构建特征提取网络：特征提取网络包括三个输入、三个对应的卷积神经网络分支以及一个三元组损失函数，三个卷积神经网络分支用于分别将三个输入转化为对应的特征向量，三元组损失函数用于计算各个特征向量之间的距离，三个卷积神经网络分支之间参数共享；

步骤1.3，训练特征提取网络，具体步骤为：

首先，对模型检索数据集中各个图像的尺寸进行调整，将图像的长边统一调整至224，短边则在保持原图长宽比的前提下进行缩放；

其次，使用经过ImageNet预训练的VGG-16网络权重对特征提取网络进行初始化，特征提取网络中的全连接层使用均值为0以及标准差为0.05的截断正态分布随机数进行初始化；

再次，使用Adam优化算法对初始化后的特征提取网络进行微调，优化算法的学习率为10^-4，一阶矩估计的指数衰减率β₁为0.9，二阶矩估计的指数衰减率β₂为0.999，微调时设置Batch Size为32；

最后，利用图像尺寸调整后的模型检索数据集对构建特征提取网络进行训练，并在三元组损失函数值不再减小时停止训练，三元组损失函数为：

式中，以及/>分别为三个输入样本通过哈希映射层压缩后输出的k维二值哈希码，m为阈值参数，用于控制正负样本对之间的相对距离，l为一个所有元素均等于1且维度为k的向量，λ为用于控制二值约束项约束力度的权重参数，取值为0.1。

进一步的，在步骤1.1中，在截取模型区域时，从不同角度进行截取，并将各个效果图以及对应的室内实物图水平翻转后扩充至模型检索数据集，再裁剪效果图以及对应的室内实物图的四个顶角缩减至原图的85％后扩充至模型检索数据集。

进一步的，在步骤1.2中，三个输入分别为参考样本、正样本以及负样本，将室内实物图作为参考样本，将包含家居用品对应的室内模型标准渲染图作为正样本，将同一模型大类中的一个室内模型标准渲染图作为参考样本；

三个卷积神经网络分支均包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、四个最大池化层、多尺度池化层、特征融合层、全连接层以及哈希映射层；四个最大池化层分别设置在第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层的相邻卷积层之间；多尺度池化层设置有4×4、2×2以及1×1三种池化尺度，用于对第五卷积层输出的特征图进行池化；特征融合层用于将多尺度池化层输出的多尺度特征图进行融合，获得一个维度为10752的特征向量；全连接层是一个维度为4096的特征向量，用于对10752维度的特征向量进行融合优化；哈希映射层用于对全连接层融合优化后的4096维度向量进行压缩，输出128维的特征向量。

进一步的，在步骤1中，在利用特征提取网络进行特征向量提取时，对输出层输出连续实值的近似哈希码进行阈值化处理，获得离散的二值哈希码作为提取的特征向量，通过阈值化处理生成的二值哈希码b_i为：

式中，s_i是以0为阈值的近似哈希码。

进一步的，在步骤2中，对输入的二维图像进行主体检测的具体步骤为：

步骤2.1，构建一个图像主体检测数据集：选取包含各类常见室内家居用品的室内模型标准渲染图以及对应的实物图，再利用LabelImg软件对室内模型标准渲染图以及对应的实物图进行标注，并将标注的标签信息存储为XML文件以构成图像主体检测数据集；

步骤2.2，构建一个图像主体检测网络：图像主体检测网络由卷积层、区域建议网络层、兴趣区域池化层以及分类层构成，卷积层用于提取图像主体检测数据集中各个室内模型标准渲染图以及实物图的特征图，区域建议网络层用于在各个特征图上生成建议检测区域，兴趣区域池化层用于将建议检测区域映射到卷积层输出的特征图上，并进行最大值池化处理得到建议区域特征图，分类层用于对各个建议区域特征图进行全连接层FC和softmax损失函数计算；

步骤2.3，训练图像主体检测网络：使用经ImageNet预训练的权重对图像主体检测网络进行初始化，再利用Adam优化算法对图像主体检测网络进行微调，设置Adam优化算法的学习率为10^-5，一阶矩估计的指数衰减率β₁为0.9，二阶矩估计的指数衰减率β₂为0.999，图像主体检测网络进行训练时的Batch Size设置为1，并利用Adam优化算法不断地更新网络的权重参数，当分类层的softmax损失函数值不再减小时图像主体检测网络训练完成；

步骤2.4，利用训练好的图像主体检测网络对输入的二维图像进行主体检测，从输入的二维图像中分割出主体图像。

进一步的，在步骤2.2中，图像主体检测网络为改进型Faster R-CNN网络，具体是利用残差网络-101作为Faster R-CNN网络的骨干网络，并通过特征金字塔网络来提升网络对多尺度的目标的定位能力。

进一步的，在步骤2.2中，利用训练好的改进型Faster R-CNN网络对输入的二维图像进行主体检测的具体步骤为：

在对输入的二维图像进行卷积层处理时，选用残差网络-101中的卷积层2至卷积层5输出的顶层特征图{C2，C3，C4，C5}作为待融合的特征图，对特征图{C2，C3，C4，C5}进行融合处理获得对应的特征图分别为{P2，P3，P4，P5}，再对融合后的特征图{P2，P3，P4，P5}分别进行一次3×3的卷积操作以消除采样带来的混叠效应；

对卷积操作后的特征图P5进行了一次最大池化，生成一个尺寸为P5的一半的特征图P6，于是在经过特征金字塔网络处理后可得到尺寸依次为原图的1/4、1/8、1/16、1/32以及1/64且通道数均为256的一系列特征图{P2，P3,P4，P5，P6}，并将这些特征图将作为区域建议网络层的输入；

在对特征图{P2，P3，P4，P5，P6}进行区域建议网络层处理时，特征图{P2，P3，P4，P5，P6}所对应的候选框大小分别为{32²，64²，128²，256²，512²}，并且每一种候选框都有三种长宽比分别为{1:2，1:1，2:1}，从而使得区域建议网络层总共生成15种不同尺寸的建议检测区域；

在兴趣区域池化层处理时，依据建议检测区域的尺寸将其映射到对应层次的特征图上，待映射的特征图层次编号k的具体计算方式如下：

式中，224是ImageNet预训练输入图像的标准尺寸，k₀是高为h、宽为w且w×h＝224²的建议检测区域所对应的特征图的层次编号，最后输出的k会做取整处理，再对映射后的每一个建议检测区域在水平和竖直方向上都分成7等分，并对每一等份均进行最大值池化处理，得到尺寸为7×7的建议区域特征图；

在进行分类层处理时，全连接层FC为1024维全连接层，softmax损失函数为：

式中，i为一个样本批次中各个建议检测区域的索引，p_i为对应建议检测区域为前景目标的预测概率，为建议检测区域是否为前景的真实标签，t_i为预测建议框的4个坐标变化参数，/>为真实区域包围盒的坐标变化参数，L_cls和L_reg分别为分类损失和回归损失，分别通过N_cls和N_reg这两个归一化参数进行归一化，并通过平衡参数λ对两类损失的权重进行平衡。

进一步的，步骤4中，通过计算特征向量的相似度大小进行室内模型标准渲染图检索时，将主体图像的特征向量与模型特征数据库中同一模型大类的室内模型标准渲染图的特征向量进行相似度计算，相似度计算公式为：

式中，X＝(x₁，x₂，…，x_n)和Y＝(y₁，y₂，…，y_n)均维度是128的哈希码，H越小则表示哈希码X和Y越相似。

进一步的，步骤5中，选取前二十个相似度较大的的室内模型标准渲染图作为检索结果输出显示。

本发明与现有技术相比，其有益效果是：利用图像特征来描述三维模型，将模型检索的问题转化为了图像检索的问题，该方法以自然图像为检索输入源，相比于其他方法降低了输入源的获取难度，更易于使用。

附图说明

图1为本发明的方法流程图；

图2为本发明的图像主体检测网络结构示意图；

图3为本发明的特征提取网络结构示意图；

图4为本发明的卷积神经网络分支结构示意图；

图5为本发明的哈希映射层结构示意图。

具体实施方式

下面结合附图对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：

如图1所示，本发明所述的本发明所述的基于深度学习的三维室内模型检索方法，包括如下步骤：

步骤1，构建特征提取网络，并利用特征提取网络对室内模型数据库中保存的各个室内模型标准渲染图进行特征向量提取，特征向量为128维的二值哈希码，并利用提取到的特征向量建立模型特征数据库；

进一步的，在步骤1中，构建特征提取网络的具体步骤为：

步骤1.1，建立模型检索数据集：从室内模型数据库中选取6个模型大类的6000个室内模型，每个室内模型均设置有五张效果图以及对应的五张室内实物图，再将包含该室内模型的模型区域从效果图以及室内实物图中截取出来建立模型检索数据集；

步骤1.2，构建特征提取网络：如图3所示，特征提取网络包括三个输入、三个对应的卷积神经网络分支以及一个三元组损失函数，三个卷积神经网络分支用于分别将三个输入转化为对应的特征向量，三元组损失函数用于计算各个特征向量之间的距离，三个卷积神经网络分支之间参数共享，因而在检索阶段可从中任选一个卷积神经网络分支进行特征向量的提取；

步骤1.3，训练特征提取网络，具体步骤为：

式中，以及/>分别为三个输入样本通过哈希映射层压缩后输出的k维二值哈希码，m为阈值参数，用于控制正负样本对之间的相对距离，，这里取值为k，l为一个所有元素均等于1且维度为k的向量，λ为用于控制二值约束项约束力度的权重参数，取值为0.1。

进一步的，在步骤1.1中，在截取模型区域时，从不同角度进行截取，并将各个效果图以及对应的室内实物图水平翻转后扩充至模型检索数据集，再裁剪效果图以及对应的室内实物图的四个顶角缩减至原图的85％后扩充至模型检索数据集，扩充后模型检索数据集规模扩大至原来的6倍。

进一步的，在步骤1.2中，三个输入分别为参考样本、正样本以及负样本，将室内实物图作为参考样本，将包含家居用品对应的室内模型标准渲染图作为正样本，将同一模型大类中的一个室内模型标准渲染图作为参考样本；设以及/>分别代表第i个三元组中的参考样本、正样本以及负样本，/>以及/>分别代表三元组样本通过特征提取网络后输出的特征向量，则经过训练后的特征提取网络将对任意的三元组输入/>都满足：

式中，D(·，·)代表两个样本之间的距离，T代表所有三元组构成的集合，α代表阈值参数，且α>0，上式可以保证网络输出的特征向量在不同类样本之间的距离至少比同类样本之间的距离要大α，这样不但能够有效地将不同类别的样本区分开来，还能使得同类样本在特征空间中形成聚类；

如图4所示，三个卷积神经网络分支均包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、四个最大池化层、多尺度池化层、特征融合层、全连接层以及哈希映射层；四个最大池化层分别设置在第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层的相邻卷积层之间；多尺度池化层设置有4×4、2×2以及1×1三种池化尺度，用于对第五卷积层输出的特征图进行池化；特征融合层用于将多尺度池化层输出的多尺度特征图进行融合，获得一个维度为10752的特征向量；全连接层是一个维度为4096的特征向量，用于对10752维度的特征向量进行融合优化；如图5所示，哈希映射层由分段层、部分连接层以及输出层构成，用于对全连接层融合优化后的4096维度向量进行压缩，输出128维的特征向量，并使用二值约束项f(x)＝||x|-1|来约束网络的输出。

式中，s_i是以0为阈值的近似哈希码。

步骤2.2，构建一个图像主体检测网络：如图2所示，图像主体检测网络由卷积层、区域建议网络层、兴趣区域池化层以及分类层构成，卷积层用于提取图像主体检测数据集中各个室内模型标准渲染图以及实物图的特征图，区域建议网络层用于在各个特征图上生成建议检测区域，兴趣区域池化层用于将建议检测区域映射到卷积层输出的特征图上，然后对每一个建议检测区域在水平和竖直方向上都分成7等分，并对每一份都进行最大值池化处理，得到尺寸为7×7的建议区域特征图，分类层用于对各个建议区域特征图进行全连接层FC和softmax损失函数计算，计算出每个建议检测区域具体属于哪个类别并输出对应的类别概率向量，同时再次利用边界框回归获取每个建议区域相对于真实区域的偏移量，用于回归更加精确的目标检测框；

为了进一步提升特征的尺度多样化也为了增加后续RPN中建议框的尺寸丰富程度，对卷积操作后的特征图P5进行了一次最大池化，生成一个尺寸为P5的一半的特征图P6，于是在经过特征金字塔网络处理后可得到尺寸依次为原图的1/4、1/8、1/16、1/32以及1/64且通道数均为256的一系列特征图{P2,P3,P4,P5,P6}，并将这些特征图将作为区域建议网络层的输入；

在对特征图{P2,P3,P4，P5，P6}进行区域建议网络层处理时，特征图{P2，P3，P4，P5，P6}所对应的候选框大小分别为{32²,64²，128²，256²,512²}，并且每一种候选框都有三种长宽比分别为{1:2，1:1,2:1}，从而使得区域建议网络层总共生成15种不同尺寸的建议检测区域；

式中，224是ImageNet预训练输入图像的标准尺寸，k₀是高为h、宽为w且w×h＝224²的建议检测区域所对应的特征图的层次编号，本申请实施例将k₀设置为4，代表该尺寸的建议框应该映射到特征图P4上，最后输出的k会做取整处理，再对映射后的每一个建议检测区域在水平和竖直方向上都分成7等分，并对每一等份均进行最大值池化处理，得到尺寸为7×7的建议区域特征图；

在进行分类层处理时，由于残差网络-101中原本作为全连接层使用的卷积层5已经用于构建FPN，所以本发明在此处增加了两个1024维的轻量级全连接层FC进行替代，全连接层FC为1024维全连接层，softmax损失函数为：

进一步的，步骤4中，通过计算特征向量的相似度大小进行室内模型标准渲染图检索时，将主体图像的特征向量与模型特征数据库中同一模型大类的室内模型标准渲染图的特征向量进行相似度计算，特征向量均为128维的二值哈希码，相似度计算公式为：

式中，X＝(x₁，x₂，…，x_n)和Y＝(y₁,y₂,…,y_n)均为维度是128的二值哈希码，H越小则表示哈希码X和Y越相似；由于哈希码的二值性，相似度计算可以通过按位异或来实现，位运算在计算机中的运算速度最快，因此进行哈希码间的相似度度量能够极大地提升检索效率。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.一种基于深度学习的三维室内模型检索方法，其特征在于，包括如下步骤：

步骤5，按照相似度的大小顺序对各个室内模型标准渲染图进行排序，并选取前N个相似度较大的的室内模型标准渲染图作为检索结果输出显示；

在步骤1中，构建特征提取网络的具体步骤为：

步骤1.3，训练特征提取网络，具体步骤为：

式中，以及/>分别为三个输入样本通过哈希映射层压缩后输出的k维二值哈希码，m为阈值参数，用于控制正负样本对之间的相对距离，l为一个所有元素均等于1且维度为k的向量，λ为用于控制二值约束项约束力度的权重参数，取值为0.1；

在步骤2中，对输入的二维图像进行主体检测的具体步骤为：

2.根据权利要求1所述的基于深度学习的三维室内模型检索方法，其特征在于，在步骤1.1中，在截取模型区域时，从不同角度进行截取，并将各个效果图以及对应的室内实物图水平翻转后扩充至模型检索数据集，再裁剪效果图以及对应的室内实物图的四个顶角缩减至原图的85％后扩充至模型检索数据集。

3.根据权利要求1所述的基于深度学习的三维室内模型检索方法，其特征在于，在步骤1.2中，三个输入分别为参考样本、正样本以及负样本，将室内实物图作为参考样本，将包含家居用品对应的室内模型标准渲染图作为正样本，将同一模型大类中的一个室内模型标准渲染图作为参考样本；

4.根据权利要求1所述的基于深度学习的三维室内模型检索方法，其特征在于，在步骤1中，在利用特征提取网络进行特征向量提取时，对输出层输出连续实值的近似哈希码进行阈值化处理，获得离散的二值哈希码作为提取的特征向量，通过阈值化处理生成的二值哈希码b_i为：

s.t.i∈{1,2,…,k}

式中，s_i是以0为阈值的近似哈希码。

5.根据权利要求1所述的基于深度学习的三维室内模型检索方法，其特征在于，在步骤2.2中，图像主体检测网络为改进型Faster R-CNN网络，具体是利用残差网络-101作为Faster R-CNN网络的骨干网络，并通过特征金字塔网络来提升网络对多尺度的目标的定位能力。

6.根据权利要求1所述的基于深度学习的三维室内模型检索方法，其特征在于，在步骤2.2中，利用训练好的改进型Faster R-CNN网络对输入的二维图像进行主体检测的具体步骤为：

在对输入的二维图像进行卷积层处理时，选用残差网络-101中的卷积层2至卷积层5输出的顶层特征图{C2,C3,C4,C5}作为待融合的特征图，对特征图{C2,C3,C4,C5}进行融合处理获得对应的特征图分别为{P2,P3,P4,P5}，再对融合后的特征图{P2,P3,P4,P5}分别进行一次3×3的卷积操作以消除采样带来的混叠效应；

对卷积操作后的特征图P5进行了一次最大池化，生成一个尺寸为P5的一半的特征图P6，于是在经过特征金字塔网络处理后可得到尺寸依次为原图的1/4、1/8、1/16、1/32以及1/64且通道数均为256的一系列特征图{P2,P3,P4,P5,P6}，并将这些特征图将作为区域建议网络层的输入；

在对特征图{P2,P3,P4,P5,P6}进行区域建议网络层处理时，特征图{P2,P3,P4,P5,P6}所对应的候选框大小分别为{32²,64²,128²,256²,512²}，并且每一种候选框都有三种长宽比分别为{1:2,1:1,2:1}，从而使得区域建议网络层总共生成15种不同尺寸的建议检测区域；

7.根据权利要求1所述的基于深度学习的三维室内模型检索方法，其特征在于，步骤4中，通过计算特征向量的相似度大小进行室内模型标准渲染图检索时，将主体图像的特征向量与模型特征数据库中同一模型大类的室内模型标准渲染图的特征向量进行相似度计算，相似度计算公式为：

式中，X＝(x₁,x₂,…,x_n)和Y＝(y₁,y₂,…,y_n)均为维度是128的哈希码，H越小则表示哈希码X和Y越相似。

8.根据权利要求1所述的基于深度学习的三维室内模型检索方法，其特征在于，步骤5中，选取前二十个相似度较大的的室内模型标准渲染图作为检索结果输出显示。