CN112115291A - 一种基于深度学习的三维室内模型检索方法 - Google Patents

一种基于深度学习的三维室内模型检索方法 Download PDF

Info

Publication number
CN112115291A
CN112115291A CN202010809510.9A CN202010809510A CN112115291A CN 112115291 A CN112115291 A CN 112115291A CN 202010809510 A CN202010809510 A CN 202010809510A CN 112115291 A CN112115291 A CN 112115291A
Authority
CN
China
Prior art keywords
network
feature
layer
model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010809510.9A
Other languages
English (en)
Other versions
CN112115291B (zh
Inventor
苏亮亮
刘凯
王庆利
万倩倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Weilijia Intelligent Technology Co ltd
Nanjing Zhishan Intelligent Science And Technology Research Institute Co ltd
Original Assignee
Nanjing Weilijia Intelligent Technology Co ltd
Nanjing Zhishan Intelligent Science And Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Weilijia Intelligent Technology Co ltd, Nanjing Zhishan Intelligent Science And Technology Research Institute Co ltd filed Critical Nanjing Weilijia Intelligent Technology Co ltd
Priority to CN202010809510.9A priority Critical patent/CN112115291B/zh
Publication of CN112115291A publication Critical patent/CN112115291A/zh
Application granted granted Critical
Publication of CN112115291B publication Critical patent/CN112115291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的三维室内模型检索方法,步骤包括:建立模型特征数据库;对输入的二维图像进行主体检测,分割出主体图像;使用特征提取网络对分割出的各个主体图像进行特征向量提取;通过计算特征向量的相似度大小在模型特征数据库中进行室内模型标准渲染图检索,获取各个相似的室内模型标准渲染图;按照相似度的大小顺序对各个相似的室内模型标准渲染图进行排序,并选取相似度较大的室内模型标准渲染图作为检索结果输出显示。该基于深度学习的三维室内模型检索方法对同类模型个体具有良好的区分能力,同时降低了检索输入源的获取难度,能够高效准确地实现对三维室内模型的检索。

Description

一种基于深度学习的三维室内模型检索方法
技术领域
本发明涉及一种三维室内模型检索方法,尤其是一种基于深度学习的三维室内模型检索方法。
背景技术
随着计算机图形领域的快速发展和相关软硬件技术的日益成熟,三维模型在各领域得到了广泛的应用,而室内设计行业则是其中的一个典型代表。通过使用三维设计软件,设计师只需简单地拖放和替换三维室内模型就能对室内空间进行设计和修改,大大提升了方案的设计效率。为了满足消费者对设计方案的个性化需求,三维室内模型的数量急剧增长,而采用传统的关键字检索方式难以对海量的模型资源进行高效准确的检索,这已经成为了制约该行业发展的关键性因素。
目前,针对三维模型检索领域的研究主要集中于基于内容的检索,此类检索方法主要是通过对三维模型所包含的内容进行特征提取,并在特征空间中对待检模型与目标模型进行相似度度量以实现模型检索。基于内容的三维模型检索其核心部分是对三维模型的特征进行提取,主要分为以下四类:基于统计的特征提取、基于拓扑关系的特征提取、基于几何结构的特征提取和基于投影的特征提取。其中,上述前三类方法是直接对三维模型进行特征提取,普遍存在着计算过程较为复杂并对模型的完整性要求较高等问题,实际使用时具有一定的难度。而基于投影的特征提取方法则是从各个不同的视角对三维模型进行投影,将其转换为二维图像之后再进行特征提取。此类方法具有特征计算的复杂度低并且提取到的特征易于索引等优点,但是由于提取的图像特征多是由人工设计的底层特征,忽略了高层语义,并不能对三维模型进行全面的描述,具有一定的局限性。
由于模型渲染图能够充分反映三维室内模型的颜色、轮廓、纹理、形状等特征,因此三维室内模型多以渲染图的形式进行展示。基于此,有必要设计出一种利用卷积神经网络对三维室内模型对应渲染图的特征进行提取,并将其用于模型检索。
发明内容
发明目的在于:提供一种基于深度学习的三维室内模型检索方法,具有良好的区分能力,同时降低了检索输入源的获取难度,能够高效准确地实现对三维室内模型的检索。
技术方案:本发明所述的基于深度学习的三维室内模型检索方法,包括如下步骤:
步骤1,构建特征提取网络,并利用特征提取网络对室内模型数据库中保存的各个室内模型标准渲染图进行特征向量提取,并利用提取到的特征向量建立模型特征数据库;
步骤2,利用图像主体检测网络对输入的二维图像进行主体检测,并从二维图像中分割出包含目标物体在内的主体图像;
步骤3,利用特征提取网络对分割出的各个主体图像进行特征向量提取;
步骤4,计算主体图像的特征向量与模型特征数据库中各个室内模型标准渲染图的特征向量的相似度;
步骤5,按照相似度的大小顺序对各个室内模型标准渲染图进行排序,并选取前N个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
进一步的,在步骤1中,构建特征提取网络的具体步骤为:
步骤1.1,建立模型检索数据集:从室内模型数据库中选取不同模型大类的各个室内模型,每个室内模型均设置有五张效果图以及对应的五张室内实物图,再将包含该室内模型的模型区域从效果图以及室内实物图中截取出来建立模型检索数据集;
步骤1.2,构建特征提取网络:特征提取网络包括三个输入、三个对应的卷积神经网络分支以及一个三元组损失函数,三个卷积神经网络分支用于分别将三个输入转化为对应的特征向量,三元组损失函数用于计算各个特征向量之间的距离,三个卷积神经网络分支之间参数共享;
步骤1.3,训练特征提取网络,具体步骤为:
首先,对模型检索数据集中各个图像的尺寸进行调整,将图像的长边统一调整至224,短边则在保持原图长宽比的前提下进行缩放;
其次,使用经过ImageNet预训练的VGG-16网络权重对特征提取网络进行初始化,特征提取网络中的全连接层使用均值为0以及标准差为0.05的截断正态分布随机数进行初始化;
再次,使用Adam优化算法对初始化后的特征提取网络进行微调,优化算法的学习率为10-4,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,微调时设置Batch Size为32;
最后,利用图像尺寸调整后的模型检索数据集对构建特征提取网络进行训练,并在三元组损失函数值不再减小时停止训练,三元组损失函数为:
Figure BDA0002630415380000021
式中,
Figure BDA0002630415380000022
以及
Figure BDA0002630415380000023
分别为三个输入样本通过哈希映射层压缩后输出的k维二值哈希码,m为阈值参数,用于控制正负样本对之间的相对距离,l为一个所有元素均等于1且维度为k的向量,λ为用于控制二值约束项约束力度的权重参数,取值为0.1。
进一步的,在步骤1.1中,在截取模型区域时,从不同角度进行截取,并将各个效果图以及对应的室内实物图水平翻转后扩充至模型检索数据集,再裁剪效果图以及对应的室内实物图的四个顶角缩减至原图的85%后扩充至模型检索数据集。
进一步的,在步骤1.2中,三个输入分别为参考样本、正样本以及负样本,将室内实物图作为参考样本,将包含家居用品对应的室内模型标准渲染图作为正样本,将同一模型大类中的一个室内模型标准渲染图作为参考样本;
三个卷积神经网络分支均包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、四个最大池化层、多尺度池化层、特征融合层、全连接层以及哈希映射层;四个最大池化层分别设置在第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层的相邻卷积层之间;多尺度池化层设置有4×4、2×2以及1×1三种池化尺度,用于对第五卷积层输出的特征图进行池化;特征融合层用于将多尺度池化层输出的多尺度特征图进行融合,获得一个维度为10752的特征向量;全连接层是一个维度为4096的特征向量,用于对10752维度的特征向量进行融合优化;哈希映射层用于对全连接层融合优化后的4096维度向量进行压缩,输出128维的特征向量。
进一步的,在步骤1中,在利用特征提取网络进行特征向量提取时,对输出层输出连续实值的近似哈希码进行阈值化处理,获得离散的二值哈希码作为提取的特征向量,通过阈值化处理生成的二值哈希码bi为:
Figure BDA0002630415380000031
式中,si是以0为阈值的近似哈希码。
进一步的,在步骤2中,对输入的二维图像进行主体检测的具体步骤为:
步骤2.1,构建一个图像主体检测数据集:选取包含各类常见室内家居用品的室内模型标准渲染图以及对应的实物图,再利用LabelImg软件对室内模型标准渲染图以及对应的实物图进行标注,并将标注的标签信息存储为XML文件以构成图像主体检测数据集;
步骤2.2,构建一个图像主体检测网络:图像主体检测网络由卷积层、区域建议网络层、兴趣区域池化层以及分类层构成,卷积层用于提取图像主体检测数据集中各个室内模型标准渲染图以及实物图的特征图,区域建议网络层用于在各个特征图上生成建议检测区域,兴趣区域池化层用于将建议检测区域映射到卷积层输出的特征图上,并进行最大值池化处理得到建议区域特征图,分类层用于对各个建议区域特征图进行全连接层FC和softmax损失函数计算;
步骤2.3,训练图像主体检测网络:使用经ImageNet预训练的权重对图像主体检测网络进行初始化,再利用Adam优化算法对图像主体检测网络进行微调,设置Adam优化算法的学习率为10-5,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,图像主体检测网络进行训练时的Batch Size设置为1,并利用Adam优化算法不断地更新网络的权重参数,当分类层的softmax损失函数值不再减小时图像主体检测网络训练完成;
步骤2.4,利用训练好的图像主体检测网络对输入的二维图像进行主体检测,从输入的二维图像中分割出主体图像。
进一步的,在步骤2.2中,图像主体检测网络为改进型Faster R-CNN网络,具体是利用残差网络-101作为Faster R-CNN网络的骨干网络,并通过特征金字塔网络来提升网络对多尺度的目标的定位能力。
进一步的,在步骤2.2中,利用训练好的改进型Faster R-CNN网络对输入的二维图像进行主体检测的具体步骤为:
在对输入的二维图像进行卷积层处理时,选用残差网络-101中的卷积层2至卷积层5输出的顶层特征图{C2,C3,C4,C5}作为待融合的特征图,对特征图{C2,C3,C4,C5}进行融合处理获得对应的特征图分别为{P2,P3,P4,P5},再对融合后的特征图{P2,P3,P4,P5}分别进行一次3×3的卷积操作以消除采样带来的混叠效应;
对卷积操作后的特征图P5进行了一次最大池化,生成一个尺寸为P5的一半的特征图P6,于是在经过特征金字塔网络处理后可得到尺寸依次为原图的1/4、1/8、1/16、1/32以及1/64且通道数均为256的一系列特征图{P2,P3,P4,P5,P6},并将这些特征图将作为区域建议网络层的输入;
在对特征图{P2,P3,P4,P5,P6}进行区域建议网络层处理时,特征图{P2,P3,P4,P5,P6}所对应的候选框大小分别为{322,642,1282,2562,5122},并且每一种候选框都有三种长宽比分别为{1:2,1:1,2:1},从而使得区域建议网络层总共生成15种不同尺寸的建议检测区域;
在兴趣区域池化层处理时,依据建议检测区域的尺寸将其映射到对应层次的特征图上,待映射的特征图层次编号k的具体计算方式如下:
Figure BDA0002630415380000041
式中,224是ImageNet预训练输入图像的标准尺寸,k0是高为h、宽为w且w×h=2242的建议检测区域所对应的特征图的层次编号,最后输出的k会做取整处理,再对映射后的每一个建议检测区域在水平和竖直方向上都分成7等分,并对每一等份均进行最大值池化处理,得到尺寸为7×7的建议区域特征图;
在进行分类层处理时,全连接层FC为1024维全连接层,softmax损失函数为:
Figure BDA0002630415380000051
式中,i为一个样本批次中各个建议检测区域的索引,pi为对应建议检测区域为前景目标的预测概率,
Figure BDA0002630415380000052
为建议检测区域是否为前景的真实标签,ti为预测建议框的4个坐标变化参数,
Figure BDA0002630415380000053
为真实区域包围盒的坐标变化参数,Lcls和Lreg分别为分类损失和回归损失,分别通过Ncls和Nreg这两个归一化参数进行归一化,并通过平衡参数λ对两类损失的权重进行平衡。
进一步的,步骤4中,通过计算特征向量的相似度大小进行室内模型标准渲染图检索时,将主体图像的特征向量与模型特征数据库中同一模型大类的室内模型标准渲染图的特征向量进行相似度计算,相似度计算公式为:
Figure BDA0002630415380000054
式中,X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)均维度是128的哈希码,H越小则表示哈希码X和Y越相似。
进一步的,步骤5中,选取前二十个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
本发明与现有技术相比,其有益效果是:利用图像特征来描述三维模型,将模型检索的问题转化为了图像检索的问题,该方法以自然图像为检索输入源,相比于其他方法降低了输入源的获取难度,更易于使用。
附图说明
图1为本发明的方法流程图;
图2为本发明的图像主体检测网络结构示意图;
图3为本发明的特征提取网络结构示意图;
图4为本发明的卷积神经网络分支结构示意图;
图5为本发明的哈希映射层结构示意图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:
如图1所示,本发明所述的本发明所述的基于深度学习的三维室内模型检索方法,包括如下步骤:
步骤1,构建特征提取网络,并利用特征提取网络对室内模型数据库中保存的各个室内模型标准渲染图进行特征向量提取,特征向量为128维的二值哈希码,并利用提取到的特征向量建立模型特征数据库;
步骤2,利用图像主体检测网络对输入的二维图像进行主体检测,并从二维图像中分割出包含目标物体在内的主体图像;
步骤3,利用特征提取网络对分割出的各个主体图像进行特征向量提取;
步骤4,计算主体图像的特征向量与模型特征数据库中各个室内模型标准渲染图的特征向量的相似度;
步骤5,按照相似度的大小顺序对各个室内模型标准渲染图进行排序,并选取前N个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
进一步的,在步骤1中,构建特征提取网络的具体步骤为:
步骤1.1,建立模型检索数据集:从室内模型数据库中选取6个模型大类的6000个室内模型,每个室内模型均设置有五张效果图以及对应的五张室内实物图,再将包含该室内模型的模型区域从效果图以及室内实物图中截取出来建立模型检索数据集;
步骤1.2,构建特征提取网络:如图3所示,特征提取网络包括三个输入、三个对应的卷积神经网络分支以及一个三元组损失函数,三个卷积神经网络分支用于分别将三个输入转化为对应的特征向量,三元组损失函数用于计算各个特征向量之间的距离,三个卷积神经网络分支之间参数共享,因而在检索阶段可从中任选一个卷积神经网络分支进行特征向量的提取;
步骤1.3,训练特征提取网络,具体步骤为:
首先,对模型检索数据集中各个图像的尺寸进行调整,将图像的长边统一调整至224,短边则在保持原图长宽比的前提下进行缩放;
其次,使用经过ImageNet预训练的VGG-16网络权重对特征提取网络进行初始化,特征提取网络中的全连接层使用均值为0以及标准差为0.05的截断正态分布随机数进行初始化;
再次,使用Adam优化算法对初始化后的特征提取网络进行微调,优化算法的学习率为10-4,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,微调时设置Batch Size为32;
最后,利用图像尺寸调整后的模型检索数据集对构建特征提取网络进行训练,并在三元组损失函数值不再减小时停止训练,三元组损失函数为:
Figure BDA0002630415380000071
式中,
Figure BDA0002630415380000072
以及
Figure BDA0002630415380000073
分别为三个输入样本通过哈希映射层压缩后输出的k维二值哈希码,m为阈值参数,用于控制正负样本对之间的相对距离,,这里取值为k,l为一个所有元素均等于1且维度为k的向量,λ为用于控制二值约束项约束力度的权重参数,取值为0.1。
进一步的,在步骤1.1中,在截取模型区域时,从不同角度进行截取,并将各个效果图以及对应的室内实物图水平翻转后扩充至模型检索数据集,再裁剪效果图以及对应的室内实物图的四个顶角缩减至原图的85%后扩充至模型检索数据集,扩充后模型检索数据集规模扩大至原来的6倍。
进一步的,在步骤1.2中,三个输入分别为参考样本、正样本以及负样本,将室内实物图作为参考样本,将包含家居用品对应的室内模型标准渲染图作为正样本,将同一模型大类中的一个室内模型标准渲染图作为参考样本;设
Figure BDA0002630415380000074
以及
Figure BDA0002630415380000075
分别代表第i个三元组中的参考样本、正样本以及负样本,
Figure BDA0002630415380000076
以及
Figure BDA0002630415380000077
分别代表三元组样本通过特征提取网络后输出的特征向量,则经过训练后的特征提取网络将对任意的三元组输入
Figure BDA0002630415380000078
都满足:
Figure BDA0002630415380000079
式中,D(·,·)代表两个样本之间的距离,T代表所有三元组构成的集合,α代表阈值参数,且α>0,上式可以保证网络输出的特征向量在不同类样本之间的距离至少比同类样本之间的距离要大α,这样不但能够有效地将不同类别的样本区分开来,还能使得同类样本在特征空间中形成聚类;
如图4所示,三个卷积神经网络分支均包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、四个最大池化层、多尺度池化层、特征融合层、全连接层以及哈希映射层;四个最大池化层分别设置在第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层的相邻卷积层之间;多尺度池化层设置有4×4、2×2以及1×1三种池化尺度,用于对第五卷积层输出的特征图进行池化;特征融合层用于将多尺度池化层输出的多尺度特征图进行融合,获得一个维度为10752的特征向量;全连接层是一个维度为4096的特征向量,用于对10752维度的特征向量进行融合优化;如图5所示,哈希映射层由分段层、部分连接层以及输出层构成,用于对全连接层融合优化后的4096维度向量进行压缩,输出128维的特征向量,并使用二值约束项f(x)=||x|-1|来约束网络的输出。
进一步的,在步骤1中,在利用特征提取网络进行特征向量提取时,对输出层输出连续实值的近似哈希码进行阈值化处理,获得离散的二值哈希码作为提取的特征向量,通过阈值化处理生成的二值哈希码bi为:
Figure BDA0002630415380000081
式中,si是以0为阈值的近似哈希码。
进一步的,在步骤2中,对输入的二维图像进行主体检测的具体步骤为:
步骤2.1,构建一个图像主体检测数据集:选取包含各类常见室内家居用品的室内模型标准渲染图以及对应的实物图,再利用LabelImg软件对室内模型标准渲染图以及对应的实物图进行标注,并将标注的标签信息存储为XML文件以构成图像主体检测数据集;
步骤2.2,构建一个图像主体检测网络:如图2所示,图像主体检测网络由卷积层、区域建议网络层、兴趣区域池化层以及分类层构成,卷积层用于提取图像主体检测数据集中各个室内模型标准渲染图以及实物图的特征图,区域建议网络层用于在各个特征图上生成建议检测区域,兴趣区域池化层用于将建议检测区域映射到卷积层输出的特征图上,然后对每一个建议检测区域在水平和竖直方向上都分成7等分,并对每一份都进行最大值池化处理,得到尺寸为7×7的建议区域特征图,分类层用于对各个建议区域特征图进行全连接层FC和softmax损失函数计算,计算出每个建议检测区域具体属于哪个类别并输出对应的类别概率向量,同时再次利用边界框回归获取每个建议区域相对于真实区域的偏移量,用于回归更加精确的目标检测框;
步骤2.3,训练图像主体检测网络:使用经ImageNet预训练的权重对图像主体检测网络进行初始化,再利用Adam优化算法对图像主体检测网络进行微调,设置Adam优化算法的学习率为10-5,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,图像主体检测网络进行训练时的Batch Size设置为1,并利用Adam优化算法不断地更新网络的权重参数,当分类层的softmax损失函数值不再减小时图像主体检测网络训练完成;
步骤2.4,利用训练好的图像主体检测网络对输入的二维图像进行主体检测,从输入的二维图像中分割出主体图像。
进一步的,在步骤2.2中,图像主体检测网络为改进型Faster R-CNN网络,具体是利用残差网络-101作为Faster R-CNN网络的骨干网络,并通过特征金字塔网络来提升网络对多尺度的目标的定位能力。
进一步的,在步骤2.2中,利用训练好的改进型Faster R-CNN网络对输入的二维图像进行主体检测的具体步骤为:
在对输入的二维图像进行卷积层处理时,选用残差网络-101中的卷积层2至卷积层5输出的顶层特征图{C2,C3,C4,C5}作为待融合的特征图,对特征图{C2,C3,C4,C5}进行融合处理获得对应的特征图分别为{P2,P3,P4,P5},再对融合后的特征图{P2,P3,P4,P5}分别进行一次3×3的卷积操作以消除采样带来的混叠效应;
为了进一步提升特征的尺度多样化也为了增加后续RPN中建议框的尺寸丰富程度,对卷积操作后的特征图P5进行了一次最大池化,生成一个尺寸为P5的一半的特征图P6,于是在经过特征金字塔网络处理后可得到尺寸依次为原图的1/4、1/8、1/16、1/32以及1/64且通道数均为256的一系列特征图{P2,P3,P4,P5,P6},并将这些特征图将作为区域建议网络层的输入;
在对特征图{P2,P3,P4,P5,P6}进行区域建议网络层处理时,特征图{P2,P3,P4,P5,P6}所对应的候选框大小分别为{322,642,1282,2562,5122},并且每一种候选框都有三种长宽比分别为{1:2,1:1,2:1},从而使得区域建议网络层总共生成15种不同尺寸的建议检测区域;
在兴趣区域池化层处理时,依据建议检测区域的尺寸将其映射到对应层次的特征图上,待映射的特征图层次编号k的具体计算方式如下:
Figure BDA0002630415380000091
式中,224是ImageNet预训练输入图像的标准尺寸,k0是高为h、宽为w且w×h=2242的建议检测区域所对应的特征图的层次编号,本申请实施例将k0设置为4,代表该尺寸的建议框应该映射到特征图P4上,最后输出的k会做取整处理,再对映射后的每一个建议检测区域在水平和竖直方向上都分成7等分,并对每一等份均进行最大值池化处理,得到尺寸为7×7的建议区域特征图;
在进行分类层处理时,由于残差网络-101中原本作为全连接层使用的卷积层5已经用于构建FPN,所以本发明在此处增加了两个1024维的轻量级全连接层FC进行替代,全连接层FC为1024维全连接层,softmax损失函数为:
Figure BDA0002630415380000101
式中,i为一个样本批次中各个建议检测区域的索引,pi为对应建议检测区域为前景目标的预测概率,
Figure BDA0002630415380000102
为建议检测区域是否为前景的真实标签,ti为预测建议框的4个坐标变化参数,
Figure BDA0002630415380000103
为真实区域包围盒的坐标变化参数,Lcls和Lreg分别为分类损失和回归损失,分别通过Ncls和Nreg这两个归一化参数进行归一化,并通过平衡参数λ对两类损失的权重进行平衡。
进一步的,步骤4中,通过计算特征向量的相似度大小进行室内模型标准渲染图检索时,将主体图像的特征向量与模型特征数据库中同一模型大类的室内模型标准渲染图的特征向量进行相似度计算,特征向量均为128维的二值哈希码,相似度计算公式为:
Figure BDA0002630415380000104
式中,X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)均为维度是128的二值哈希码,H越小则表示哈希码X和Y越相似;由于哈希码的二值性,相似度计算可以通过按位异或来实现,位运算在计算机中的运算速度最快,因此进行哈希码间的相似度度量能够极大地提升检索效率。
进一步的,步骤5中,选取前二十个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

Claims (10)

1.一种基于深度学习的三维室内模型检索方法,其特征在于,包括如下步骤:
步骤1,构建特征提取网络,并利用特征提取网络对室内模型数据库中保存的各个室内模型标准渲染图进行特征向量提取,并利用提取到的特征向量建立模型特征数据库;
步骤2,利用图像主体检测网络对输入的二维图像进行主体检测,并从二维图像中分割出包含目标物体在内的主体图像;
步骤3,利用特征提取网络对分割出的各个主体图像进行特征向量提取;
步骤4,计算主体图像的特征向量与模型特征数据库中各个室内模型标准渲染图的特征向量的相似度;
步骤5,按照相似度的大小顺序对各个室内模型标准渲染图进行排序,并选取前N个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
2.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤1中,构建特征提取网络的具体步骤为:
步骤1.1,建立模型检索数据集:从室内模型数据库中选取不同模型大类的各个室内模型,每个室内模型均设置有五张效果图以及对应的五张室内实物图,再将包含该室内模型的模型区域从效果图以及室内实物图中截取出来建立模型检索数据集;
步骤1.2,构建特征提取网络:特征提取网络包括三个输入、三个对应的卷积神经网络分支以及一个三元组损失函数,三个卷积神经网络分支用于分别将三个输入转化为对应的特征向量,三元组损失函数用于计算各个特征向量之间的距离,三个卷积神经网络分支之间参数共享;
步骤1.3,训练特征提取网络,具体步骤为:
首先,对模型检索数据集中各个图像的尺寸进行调整,将图像的长边统一调整至224,短边则在保持原图长宽比的前提下进行缩放;
其次,使用经过ImageNet预训练的VGG-16网络权重对特征提取网络进行初始化,特征提取网络中的全连接层使用均值为0以及标准差为0.05的截断正态分布随机数进行初始化;
再次,使用Adam优化算法对初始化后的特征提取网络进行微调,优化算法的学习率为10-4,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,微调时设置Batch Size为32;
最后,利用图像尺寸调整后的模型检索数据集对构建特征提取网络进行训练,并在三元组损失函数值不再减小时停止训练,三元组损失函数为:
Figure FDA0002630415370000021
Figure FDA0002630415370000022
式中,
Figure FDA0002630415370000023
以及
Figure FDA0002630415370000025
分别为三个输入样本通过哈希映射层压缩后输出的k维二值哈希码,m为阈值参数,用于控制正负样本对之间的相对距离,l为一个所有元素均等于1且维度为k的向量,λ为用于控制二值约束项约束力度的权重参数,取值为0.1。
3.根据权利要求2所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤1.1中,在截取模型区域时,从不同角度进行截取,并将各个效果图以及对应的室内实物图水平翻转后扩充至模型检索数据集,再裁剪效果图以及对应的室内实物图的四个顶角缩减至原图的85%后扩充至模型检索数据集。
4.根据权利要求2所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤1.2中,三个输入分别为参考样本、正样本以及负样本,将室内实物图作为参考样本,将包含家居用品对应的室内模型标准渲染图作为正样本,将同一模型大类中的一个室内模型标准渲染图作为参考样本;
三个卷积神经网络分支均包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、四个最大池化层、多尺度池化层、特征融合层、全连接层以及哈希映射层;四个最大池化层分别设置在第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层的相邻卷积层之间;多尺度池化层设置有4×4、2×2以及1×1三种池化尺度,用于对第五卷积层输出的特征图进行池化;特征融合层用于将多尺度池化层输出的多尺度特征图进行融合,获得一个维度为10752的特征向量;全连接层是一个维度为4096的特征向量,用于对10752维度的特征向量进行融合优化;哈希映射层用于对全连接层融合优化后的4096维度向量进行压缩,输出128维的特征向量。
5.根据权利要求2所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤1中,在利用特征提取网络进行特征向量提取时,对输出层输出连续实值的近似哈希码进行阈值化处理,获得离散的二值哈希码作为提取的特征向量,通过阈值化处理生成的二值哈希码bi为:
Figure FDA0002630415370000024
s.t.i∈{1,2,…,k}
式中,si是以0为阈值的近似哈希码。
6.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤2中,对输入的二维图像进行主体检测的具体步骤为:
步骤2.1,构建一个图像主体检测数据集:选取包含各类常见室内家居用品的室内模型标准渲染图以及对应的实物图,再利用LabelImg软件对室内模型标准渲染图以及对应的实物图进行标注,并将标注的标签信息存储为XML文件以构成图像主体检测数据集;
步骤2.2,构建一个图像主体检测网络:图像主体检测网络由卷积层、区域建议网络层、兴趣区域池化层以及分类层构成,卷积层用于提取图像主体检测数据集中各个室内模型标准渲染图以及实物图的特征图,区域建议网络层用于在各个特征图上生成建议检测区域,兴趣区域池化层用于将建议检测区域映射到卷积层输出的特征图上,并进行最大值池化处理得到建议区域特征图,分类层用于对各个建议区域特征图进行全连接层FC和softmax损失函数计算;
步骤2.3,训练图像主体检测网络:使用经ImageNet预训练的权重对图像主体检测网络进行初始化,再利用Adam优化算法对图像主体检测网络进行微调,设置Adam优化算法的学习率为10-5,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,图像主体检测网络进行训练时的Batch Size设置为1,并利用Adam优化算法不断地更新网络的权重参数,当分类层的softmax损失函数值不再减小时图像主体检测网络训练完成;
步骤2.4,利用训练好的图像主体检测网络对输入的二维图像进行主体检测,从输入的二维图像中分割出主体图像。
7.根据权利要求6所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤2.2中,图像主体检测网络为改进型Faster R-CNN网络,具体是利用残差网络-101作为Faster R-CNN网络的骨干网络,并通过特征金字塔网络来提升网络对多尺度的目标的定位能力。
8.根据权利要求6所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤2.2中,利用训练好的改进型Faster R-CNN网络对输入的二维图像进行主体检测的具体步骤为:
在对输入的二维图像进行卷积层处理时,选用残差网络-101中的卷积层2至卷积层5输出的顶层特征图{C2,C3,C4,C5}作为待融合的特征图,对特征图{C2,C3,C4,C5}进行融合处理获得对应的特征图分别为{P2,P3,P4,P5},再对融合后的特征图{P2,P3,P4,P5}分别进行一次3×3的卷积操作以消除采样带来的混叠效应;
对卷积操作后的特征图P5进行了一次最大池化,生成一个尺寸为P5的一半的特征图P6,于是在经过特征金字塔网络处理后可得到尺寸依次为原图的1/4、1/8、1/16、1/32以及1/64且通道数均为256的一系列特征图{P2,P3,P4,P5,P6},并将这些特征图将作为区域建议网络层的输入;
在对特征图{P2,P3,P4,P5,P6}进行区域建议网络层处理时,特征图{P2,P3,P4,P5,P6}所对应的候选框大小分别为{322,642,1282,2562,5122},并且每一种候选框都有三种长宽比分别为{1:2,1:1,2:1},从而使得区域建议网络层总共生成15种不同尺寸的建议检测区域;
在兴趣区域池化层处理时,依据建议检测区域的尺寸将其映射到对应层次的特征图上,待映射的特征图层次编号k的具体计算方式如下:
Figure FDA0002630415370000041
式中,224是ImageNet预训练输入图像的标准尺寸,k0是高为h、宽为w且w×h=2242的建议检测区域所对应的特征图的层次编号,最后输出的k会做取整处理,再对映射后的每一个建议检测区域在水平和竖直方向上都分成7等分,并对每一等份均进行最大值池化处理,得到尺寸为7×7的建议区域特征图;
在进行分类层处理时,全连接层FC为1024维全连接层,softmax损失函数为:
Figure FDA0002630415370000042
式中,i为一个样本批次中各个建议检测区域的索引,pi为对应建议检测区域为前景目标的预测概率,
Figure FDA0002630415370000043
为建议检测区域是否为前景的真实标签,ti为预测建议框的4个坐标变化参数,
Figure FDA0002630415370000044
为真实区域包围盒的坐标变化参数,Lcls和Lreg分别为分类损失和回归损失,分别通过Ncls和Nreg这两个归一化参数进行归一化,并通过平衡参数λ对两类损失的权重进行平衡。
9.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,步骤4中,通过计算特征向量的相似度大小进行室内模型标准渲染图检索时,将主体图像的特征向量与模型特征数据库中同一模型大类的室内模型标准渲染图的特征向量进行相似度计算,相似度计算公式为:
Figure FDA0002630415370000045
式中,X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)均为维度是128的哈希码,H越小则表示哈希码X和Y越相似。
10.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,步骤5中,选取前二十个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
CN202010809510.9A 2020-08-12 2020-08-12 一种基于深度学习的三维室内模型检索方法 Active CN112115291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010809510.9A CN112115291B (zh) 2020-08-12 2020-08-12 一种基于深度学习的三维室内模型检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010809510.9A CN112115291B (zh) 2020-08-12 2020-08-12 一种基于深度学习的三维室内模型检索方法

Publications (2)

Publication Number Publication Date
CN112115291A true CN112115291A (zh) 2020-12-22
CN112115291B CN112115291B (zh) 2024-02-27

Family

ID=73804115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010809510.9A Active CN112115291B (zh) 2020-08-12 2020-08-12 一种基于深度学习的三维室内模型检索方法

Country Status (1)

Country Link
CN (1) CN112115291B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052983A (zh) * 2021-04-14 2021-06-29 杭州群核信息技术有限公司 一种可自定义的室内三维场景编辑方法、装置、系统和存储介质
CN115187705A (zh) * 2022-09-13 2022-10-14 之江实验室 一种语音驱动人脸关键点序列生成方法及装置
CN116127587A (zh) * 2023-04-17 2023-05-16 矩阵纵横设计股份有限公司 室内设计中的渲染方法和系统
CN117078868A (zh) * 2023-10-17 2023-11-17 北京太极信息系统技术有限公司 基于信创软硬件的虚拟现实引擎及其建模和渲染方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885764A (zh) * 2017-09-21 2018-04-06 银江股份有限公司 基于多任务深度学习快速哈希车辆检索方法
US20190228267A1 (en) * 2018-01-23 2019-07-25 Insurance Services Office, Inc. Computer Vision Systems and Methods for Machine Learning Using Image Hallucinations
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885764A (zh) * 2017-09-21 2018-04-06 银江股份有限公司 基于多任务深度学习快速哈希车辆检索方法
US20190228267A1 (en) * 2018-01-23 2019-07-25 Insurance Services Office, Inc. Computer Vision Systems and Methods for Machine Learning Using Image Hallucinations
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周书仁;谢盈;蔡碧野;: "融合多尺度特征的深度哈希图像检索方法", 计算机科学与探索, no. 12 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052983A (zh) * 2021-04-14 2021-06-29 杭州群核信息技术有限公司 一种可自定义的室内三维场景编辑方法、装置、系统和存储介质
CN115187705A (zh) * 2022-09-13 2022-10-14 之江实验室 一种语音驱动人脸关键点序列生成方法及装置
CN116127587A (zh) * 2023-04-17 2023-05-16 矩阵纵横设计股份有限公司 室内设计中的渲染方法和系统
CN117078868A (zh) * 2023-10-17 2023-11-17 北京太极信息系统技术有限公司 基于信创软硬件的虚拟现实引擎及其建模和渲染方法
CN117078868B (zh) * 2023-10-17 2023-12-15 北京太极信息系统技术有限公司 基于信创软硬件的虚拟现实引擎及其建模和渲染方法

Also Published As

Publication number Publication date
CN112115291B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN112115291B (zh) 一种基于深度学习的三维室内模型检索方法
CN112101430B (zh) 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法
CN111191583B (zh) 基于卷积神经网络的空间目标识别系统及方法
CN108875813B (zh) 一种基于几何图像的三维网格模型检索方法
CN111462120B (zh) 一种基于语义分割模型缺陷检测方法、装置、介质及设备
CN110032925B (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
CN110210431B (zh) 一种基于点云语义标注和优化的点云分类方法
CN112287839A (zh) 一种基于迁移学习的ssd红外图像行人检测方法
CN106844620B (zh) 一种基于视图的特征匹配三维模型检索方法
CN111814874A (zh) 一种用于点云深度学习的多尺度特征提取增强方法及模块
CN111524140B (zh) 基于cnn和随机森林法的医学图像语义分割方法
CN112434586A (zh) 一种基于域自适应学习的多复杂场景目标检测方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN112396655B (zh) 一种基于点云数据的船舶目标6d位姿估计方法
CN111125397A (zh) 一种基于卷积神经网络的布料图像检索方法
CN115147599A (zh) 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
Qian et al. Classification of rice seed variety using point cloud data combined with deep learning
CN111354076A (zh) 一种基于嵌入空间的单幅图像三维零件组合式建模方法
Wang et al. Da-net: Density-aware 3d object detection network for point clouds
CN114067128A (zh) 一种基于语义特征的slam回环检测方法
Fan et al. Hcpvf: Hierarchical cascaded point-voxel fusion for 3d object detection
CN107423771B (zh) 一种两时相遥感图像变化检测方法
CN111597367B (zh) 基于视图和哈希算法的三维模型检索方法
Li et al. 3D large-scale point cloud semantic segmentation using optimal feature description vector network: OFDV-Net
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant