CN112115291B - 一种基于深度学习的三维室内模型检索方法 - Google Patents
一种基于深度学习的三维室内模型检索方法 Download PDFInfo
- Publication number
- CN112115291B CN112115291B CN202010809510.9A CN202010809510A CN112115291B CN 112115291 B CN112115291 B CN 112115291B CN 202010809510 A CN202010809510 A CN 202010809510A CN 112115291 B CN112115291 B CN 112115291B
- Authority
- CN
- China
- Prior art keywords
- feature
- layer
- network
- image
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 77
- 239000013598 vector Substances 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 47
- 238000009877 rendering Methods 0.000 claims abstract description 43
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 38
- 238000010586 diagram Methods 0.000 claims description 26
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 238000005457 optimization Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 18
- 239000000523 sample Substances 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 239000013074 reference sample Substances 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的三维室内模型检索方法,步骤包括:建立模型特征数据库;对输入的二维图像进行主体检测,分割出主体图像;使用特征提取网络对分割出的各个主体图像进行特征向量提取;通过计算特征向量的相似度大小在模型特征数据库中进行室内模型标准渲染图检索,获取各个相似的室内模型标准渲染图;按照相似度的大小顺序对各个相似的室内模型标准渲染图进行排序,并选取相似度较大的室内模型标准渲染图作为检索结果输出显示。该基于深度学习的三维室内模型检索方法对同类模型个体具有良好的区分能力,同时降低了检索输入源的获取难度,能够高效准确地实现对三维室内模型的检索。
Description
技术领域
本发明涉及一种三维室内模型检索方法,尤其是一种基于深度学习的三维室内模型检索方法。
背景技术
随着计算机图形领域的快速发展和相关软硬件技术的日益成熟,三维模型在各领域得到了广泛的应用,而室内设计行业则是其中的一个典型代表。通过使用三维设计软件,设计师只需简单地拖放和替换三维室内模型就能对室内空间进行设计和修改,大大提升了方案的设计效率。为了满足消费者对设计方案的个性化需求,三维室内模型的数量急剧增长,而采用传统的关键字检索方式难以对海量的模型资源进行高效准确的检索,这已经成为了制约该行业发展的关键性因素。
目前,针对三维模型检索领域的研究主要集中于基于内容的检索,此类检索方法主要是通过对三维模型所包含的内容进行特征提取,并在特征空间中对待检模型与目标模型进行相似度度量以实现模型检索。基于内容的三维模型检索其核心部分是对三维模型的特征进行提取,主要分为以下四类:基于统计的特征提取、基于拓扑关系的特征提取、基于几何结构的特征提取和基于投影的特征提取。其中,上述前三类方法是直接对三维模型进行特征提取,普遍存在着计算过程较为复杂并对模型的完整性要求较高等问题,实际使用时具有一定的难度。而基于投影的特征提取方法则是从各个不同的视角对三维模型进行投影,将其转换为二维图像之后再进行特征提取。此类方法具有特征计算的复杂度低并且提取到的特征易于索引等优点,但是由于提取的图像特征多是由人工设计的底层特征,忽略了高层语义,并不能对三维模型进行全面的描述,具有一定的局限性。
由于模型渲染图能够充分反映三维室内模型的颜色、轮廓、纹理、形状等特征,因此三维室内模型多以渲染图的形式进行展示。基于此,有必要设计出一种利用卷积神经网络对三维室内模型对应渲染图的特征进行提取,并将其用于模型检索。
发明内容
发明目的在于:提供一种基于深度学习的三维室内模型检索方法,具有良好的区分能力,同时降低了检索输入源的获取难度,能够高效准确地实现对三维室内模型的检索。
技术方案:本发明所述的基于深度学习的三维室内模型检索方法,包括如下步骤:
步骤1,构建特征提取网络,并利用特征提取网络对室内模型数据库中保存的各个室内模型标准渲染图进行特征向量提取,并利用提取到的特征向量建立模型特征数据库;
步骤2,利用图像主体检测网络对输入的二维图像进行主体检测,并从二维图像中分割出包含目标物体在内的主体图像;
步骤3,利用特征提取网络对分割出的各个主体图像进行特征向量提取;
步骤4,计算主体图像的特征向量与模型特征数据库中各个室内模型标准渲染图的特征向量的相似度;
步骤5,按照相似度的大小顺序对各个室内模型标准渲染图进行排序,并选取前N个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
进一步的,在步骤1中,构建特征提取网络的具体步骤为:
步骤1.1,建立模型检索数据集:从室内模型数据库中选取不同模型大类的各个室内模型,每个室内模型均设置有五张效果图以及对应的五张室内实物图,再将包含该室内模型的模型区域从效果图以及室内实物图中截取出来建立模型检索数据集;
步骤1.2,构建特征提取网络:特征提取网络包括三个输入、三个对应的卷积神经网络分支以及一个三元组损失函数,三个卷积神经网络分支用于分别将三个输入转化为对应的特征向量,三元组损失函数用于计算各个特征向量之间的距离,三个卷积神经网络分支之间参数共享;
步骤1.3,训练特征提取网络,具体步骤为:
首先,对模型检索数据集中各个图像的尺寸进行调整,将图像的长边统一调整至224,短边则在保持原图长宽比的前提下进行缩放;
其次,使用经过ImageNet预训练的VGG-16网络权重对特征提取网络进行初始化,特征提取网络中的全连接层使用均值为0以及标准差为0.05的截断正态分布随机数进行初始化;
再次,使用Adam优化算法对初始化后的特征提取网络进行微调,优化算法的学习率为10-4,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,微调时设置Batch Size为32;
最后,利用图像尺寸调整后的模型检索数据集对构建特征提取网络进行训练,并在三元组损失函数值不再减小时停止训练,三元组损失函数为:
式中,以及/>分别为三个输入样本通过哈希映射层压缩后输出的k维二值哈希码,m为阈值参数,用于控制正负样本对之间的相对距离,l为一个所有元素均等于1且维度为k的向量,λ为用于控制二值约束项约束力度的权重参数,取值为0.1。
进一步的,在步骤1.1中,在截取模型区域时,从不同角度进行截取,并将各个效果图以及对应的室内实物图水平翻转后扩充至模型检索数据集,再裁剪效果图以及对应的室内实物图的四个顶角缩减至原图的85%后扩充至模型检索数据集。
进一步的,在步骤1.2中,三个输入分别为参考样本、正样本以及负样本,将室内实物图作为参考样本,将包含家居用品对应的室内模型标准渲染图作为正样本,将同一模型大类中的一个室内模型标准渲染图作为参考样本;
三个卷积神经网络分支均包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、四个最大池化层、多尺度池化层、特征融合层、全连接层以及哈希映射层;四个最大池化层分别设置在第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层的相邻卷积层之间;多尺度池化层设置有4×4、2×2以及1×1三种池化尺度,用于对第五卷积层输出的特征图进行池化;特征融合层用于将多尺度池化层输出的多尺度特征图进行融合,获得一个维度为10752的特征向量;全连接层是一个维度为4096的特征向量,用于对10752维度的特征向量进行融合优化;哈希映射层用于对全连接层融合优化后的4096维度向量进行压缩,输出128维的特征向量。
进一步的,在步骤1中,在利用特征提取网络进行特征向量提取时,对输出层输出连续实值的近似哈希码进行阈值化处理,获得离散的二值哈希码作为提取的特征向量,通过阈值化处理生成的二值哈希码bi为:
式中,si是以0为阈值的近似哈希码。
进一步的,在步骤2中,对输入的二维图像进行主体检测的具体步骤为:
步骤2.1,构建一个图像主体检测数据集:选取包含各类常见室内家居用品的室内模型标准渲染图以及对应的实物图,再利用LabelImg软件对室内模型标准渲染图以及对应的实物图进行标注,并将标注的标签信息存储为XML文件以构成图像主体检测数据集;
步骤2.2,构建一个图像主体检测网络:图像主体检测网络由卷积层、区域建议网络层、兴趣区域池化层以及分类层构成,卷积层用于提取图像主体检测数据集中各个室内模型标准渲染图以及实物图的特征图,区域建议网络层用于在各个特征图上生成建议检测区域,兴趣区域池化层用于将建议检测区域映射到卷积层输出的特征图上,并进行最大值池化处理得到建议区域特征图,分类层用于对各个建议区域特征图进行全连接层FC和softmax损失函数计算;
步骤2.3,训练图像主体检测网络:使用经ImageNet预训练的权重对图像主体检测网络进行初始化,再利用Adam优化算法对图像主体检测网络进行微调,设置Adam优化算法的学习率为10-5,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,图像主体检测网络进行训练时的Batch Size设置为1,并利用Adam优化算法不断地更新网络的权重参数,当分类层的softmax损失函数值不再减小时图像主体检测网络训练完成;
步骤2.4,利用训练好的图像主体检测网络对输入的二维图像进行主体检测,从输入的二维图像中分割出主体图像。
进一步的,在步骤2.2中,图像主体检测网络为改进型Faster R-CNN网络,具体是利用残差网络-101作为Faster R-CNN网络的骨干网络,并通过特征金字塔网络来提升网络对多尺度的目标的定位能力。
进一步的,在步骤2.2中,利用训练好的改进型Faster R-CNN网络对输入的二维图像进行主体检测的具体步骤为:
在对输入的二维图像进行卷积层处理时,选用残差网络-101中的卷积层2至卷积层5输出的顶层特征图{C2,C3,C4,C5}作为待融合的特征图,对特征图{C2,C3,C4,C5}进行融合处理获得对应的特征图分别为{P2,P3,P4,P5},再对融合后的特征图{P2,P3,P4,P5}分别进行一次3×3的卷积操作以消除采样带来的混叠效应;
对卷积操作后的特征图P5进行了一次最大池化,生成一个尺寸为P5的一半的特征图P6,于是在经过特征金字塔网络处理后可得到尺寸依次为原图的1/4、1/8、1/16、1/32以及1/64且通道数均为256的一系列特征图{P2,P3,P4,P5,P6},并将这些特征图将作为区域建议网络层的输入;
在对特征图{P2,P3,P4,P5,P6}进行区域建议网络层处理时,特征图{P2,P3,P4,P5,P6}所对应的候选框大小分别为{322,642,1282,2562,5122},并且每一种候选框都有三种长宽比分别为{1:2,1:1,2:1},从而使得区域建议网络层总共生成15种不同尺寸的建议检测区域;
在兴趣区域池化层处理时,依据建议检测区域的尺寸将其映射到对应层次的特征图上,待映射的特征图层次编号k的具体计算方式如下:
式中,224是ImageNet预训练输入图像的标准尺寸,k0是高为h、宽为w且w×h=2242的建议检测区域所对应的特征图的层次编号,最后输出的k会做取整处理,再对映射后的每一个建议检测区域在水平和竖直方向上都分成7等分,并对每一等份均进行最大值池化处理,得到尺寸为7×7的建议区域特征图;
在进行分类层处理时,全连接层FC为1024维全连接层,softmax损失函数为:
式中,i为一个样本批次中各个建议检测区域的索引,pi为对应建议检测区域为前景目标的预测概率,为建议检测区域是否为前景的真实标签,ti为预测建议框的4个坐标变化参数,/>为真实区域包围盒的坐标变化参数,Lcls和Lreg分别为分类损失和回归损失,分别通过Ncls和Nreg这两个归一化参数进行归一化,并通过平衡参数λ对两类损失的权重进行平衡。
进一步的,步骤4中,通过计算特征向量的相似度大小进行室内模型标准渲染图检索时,将主体图像的特征向量与模型特征数据库中同一模型大类的室内模型标准渲染图的特征向量进行相似度计算,相似度计算公式为:
式中,X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)均维度是128的哈希码,H越小则表示哈希码X和Y越相似。
进一步的,步骤5中,选取前二十个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
本发明与现有技术相比,其有益效果是:利用图像特征来描述三维模型,将模型检索的问题转化为了图像检索的问题,该方法以自然图像为检索输入源,相比于其他方法降低了输入源的获取难度,更易于使用。
附图说明
图1为本发明的方法流程图;
图2为本发明的图像主体检测网络结构示意图;
图3为本发明的特征提取网络结构示意图;
图4为本发明的卷积神经网络分支结构示意图;
图5为本发明的哈希映射层结构示意图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:
如图1所示,本发明所述的本发明所述的基于深度学习的三维室内模型检索方法,包括如下步骤:
步骤1,构建特征提取网络,并利用特征提取网络对室内模型数据库中保存的各个室内模型标准渲染图进行特征向量提取,特征向量为128维的二值哈希码,并利用提取到的特征向量建立模型特征数据库;
步骤2,利用图像主体检测网络对输入的二维图像进行主体检测,并从二维图像中分割出包含目标物体在内的主体图像;
步骤3,利用特征提取网络对分割出的各个主体图像进行特征向量提取;
步骤4,计算主体图像的特征向量与模型特征数据库中各个室内模型标准渲染图的特征向量的相似度;
步骤5,按照相似度的大小顺序对各个室内模型标准渲染图进行排序,并选取前N个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
进一步的,在步骤1中,构建特征提取网络的具体步骤为:
步骤1.1,建立模型检索数据集:从室内模型数据库中选取6个模型大类的6000个室内模型,每个室内模型均设置有五张效果图以及对应的五张室内实物图,再将包含该室内模型的模型区域从效果图以及室内实物图中截取出来建立模型检索数据集;
步骤1.2,构建特征提取网络:如图3所示,特征提取网络包括三个输入、三个对应的卷积神经网络分支以及一个三元组损失函数,三个卷积神经网络分支用于分别将三个输入转化为对应的特征向量,三元组损失函数用于计算各个特征向量之间的距离,三个卷积神经网络分支之间参数共享,因而在检索阶段可从中任选一个卷积神经网络分支进行特征向量的提取;
步骤1.3,训练特征提取网络,具体步骤为:
首先,对模型检索数据集中各个图像的尺寸进行调整,将图像的长边统一调整至224,短边则在保持原图长宽比的前提下进行缩放;
其次,使用经过ImageNet预训练的VGG-16网络权重对特征提取网络进行初始化,特征提取网络中的全连接层使用均值为0以及标准差为0.05的截断正态分布随机数进行初始化;
再次,使用Adam优化算法对初始化后的特征提取网络进行微调,优化算法的学习率为10-4,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,微调时设置Batch Size为32;
最后,利用图像尺寸调整后的模型检索数据集对构建特征提取网络进行训练,并在三元组损失函数值不再减小时停止训练,三元组损失函数为:
式中,以及/>分别为三个输入样本通过哈希映射层压缩后输出的k维二值哈希码,m为阈值参数,用于控制正负样本对之间的相对距离,,这里取值为k,l为一个所有元素均等于1且维度为k的向量,λ为用于控制二值约束项约束力度的权重参数,取值为0.1。
进一步的,在步骤1.1中,在截取模型区域时,从不同角度进行截取,并将各个效果图以及对应的室内实物图水平翻转后扩充至模型检索数据集,再裁剪效果图以及对应的室内实物图的四个顶角缩减至原图的85%后扩充至模型检索数据集,扩充后模型检索数据集规模扩大至原来的6倍。
进一步的,在步骤1.2中,三个输入分别为参考样本、正样本以及负样本,将室内实物图作为参考样本,将包含家居用品对应的室内模型标准渲染图作为正样本,将同一模型大类中的一个室内模型标准渲染图作为参考样本;设以及/>分别代表第i个三元组中的参考样本、正样本以及负样本,/>以及/>分别代表三元组样本通过特征提取网络后输出的特征向量,则经过训练后的特征提取网络将对任意的三元组输入/>都满足:
式中,D(·,·)代表两个样本之间的距离,T代表所有三元组构成的集合,α代表阈值参数,且α>0,上式可以保证网络输出的特征向量在不同类样本之间的距离至少比同类样本之间的距离要大α,这样不但能够有效地将不同类别的样本区分开来,还能使得同类样本在特征空间中形成聚类;
如图4所示,三个卷积神经网络分支均包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、四个最大池化层、多尺度池化层、特征融合层、全连接层以及哈希映射层;四个最大池化层分别设置在第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层的相邻卷积层之间;多尺度池化层设置有4×4、2×2以及1×1三种池化尺度,用于对第五卷积层输出的特征图进行池化;特征融合层用于将多尺度池化层输出的多尺度特征图进行融合,获得一个维度为10752的特征向量;全连接层是一个维度为4096的特征向量,用于对10752维度的特征向量进行融合优化;如图5所示,哈希映射层由分段层、部分连接层以及输出层构成,用于对全连接层融合优化后的4096维度向量进行压缩,输出128维的特征向量,并使用二值约束项f(x)=||x|-1|来约束网络的输出。
进一步的,在步骤1中,在利用特征提取网络进行特征向量提取时,对输出层输出连续实值的近似哈希码进行阈值化处理,获得离散的二值哈希码作为提取的特征向量,通过阈值化处理生成的二值哈希码bi为:
式中,si是以0为阈值的近似哈希码。
进一步的,在步骤2中,对输入的二维图像进行主体检测的具体步骤为:
步骤2.1,构建一个图像主体检测数据集:选取包含各类常见室内家居用品的室内模型标准渲染图以及对应的实物图,再利用LabelImg软件对室内模型标准渲染图以及对应的实物图进行标注,并将标注的标签信息存储为XML文件以构成图像主体检测数据集;
步骤2.2,构建一个图像主体检测网络:如图2所示,图像主体检测网络由卷积层、区域建议网络层、兴趣区域池化层以及分类层构成,卷积层用于提取图像主体检测数据集中各个室内模型标准渲染图以及实物图的特征图,区域建议网络层用于在各个特征图上生成建议检测区域,兴趣区域池化层用于将建议检测区域映射到卷积层输出的特征图上,然后对每一个建议检测区域在水平和竖直方向上都分成7等分,并对每一份都进行最大值池化处理,得到尺寸为7×7的建议区域特征图,分类层用于对各个建议区域特征图进行全连接层FC和softmax损失函数计算,计算出每个建议检测区域具体属于哪个类别并输出对应的类别概率向量,同时再次利用边界框回归获取每个建议区域相对于真实区域的偏移量,用于回归更加精确的目标检测框;
步骤2.3,训练图像主体检测网络:使用经ImageNet预训练的权重对图像主体检测网络进行初始化,再利用Adam优化算法对图像主体检测网络进行微调,设置Adam优化算法的学习率为10-5,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,图像主体检测网络进行训练时的Batch Size设置为1,并利用Adam优化算法不断地更新网络的权重参数,当分类层的softmax损失函数值不再减小时图像主体检测网络训练完成;
步骤2.4,利用训练好的图像主体检测网络对输入的二维图像进行主体检测,从输入的二维图像中分割出主体图像。
进一步的,在步骤2.2中,图像主体检测网络为改进型Faster R-CNN网络,具体是利用残差网络-101作为Faster R-CNN网络的骨干网络,并通过特征金字塔网络来提升网络对多尺度的目标的定位能力。
进一步的,在步骤2.2中,利用训练好的改进型Faster R-CNN网络对输入的二维图像进行主体检测的具体步骤为:
在对输入的二维图像进行卷积层处理时,选用残差网络-101中的卷积层2至卷积层5输出的顶层特征图{C2,C3,C4,C5}作为待融合的特征图,对特征图{C2,C3,C4,C5}进行融合处理获得对应的特征图分别为{P2,P3,P4,P5},再对融合后的特征图{P2,P3,P4,P5}分别进行一次3×3的卷积操作以消除采样带来的混叠效应;
为了进一步提升特征的尺度多样化也为了增加后续RPN中建议框的尺寸丰富程度,对卷积操作后的特征图P5进行了一次最大池化,生成一个尺寸为P5的一半的特征图P6,于是在经过特征金字塔网络处理后可得到尺寸依次为原图的1/4、1/8、1/16、1/32以及1/64且通道数均为256的一系列特征图{P2,P3,P4,P5,P6},并将这些特征图将作为区域建议网络层的输入;
在对特征图{P2,P3,P4,P5,P6}进行区域建议网络层处理时,特征图{P2,P3,P4,P5,P6}所对应的候选框大小分别为{322,642,1282,2562,5122},并且每一种候选框都有三种长宽比分别为{1:2,1:1,2:1},从而使得区域建议网络层总共生成15种不同尺寸的建议检测区域;
在兴趣区域池化层处理时,依据建议检测区域的尺寸将其映射到对应层次的特征图上,待映射的特征图层次编号k的具体计算方式如下:
式中,224是ImageNet预训练输入图像的标准尺寸,k0是高为h、宽为w且w×h=2242的建议检测区域所对应的特征图的层次编号,本申请实施例将k0设置为4,代表该尺寸的建议框应该映射到特征图P4上,最后输出的k会做取整处理,再对映射后的每一个建议检测区域在水平和竖直方向上都分成7等分,并对每一等份均进行最大值池化处理,得到尺寸为7×7的建议区域特征图;
在进行分类层处理时,由于残差网络-101中原本作为全连接层使用的卷积层5已经用于构建FPN,所以本发明在此处增加了两个1024维的轻量级全连接层FC进行替代,全连接层FC为1024维全连接层,softmax损失函数为:
式中,i为一个样本批次中各个建议检测区域的索引,pi为对应建议检测区域为前景目标的预测概率,为建议检测区域是否为前景的真实标签,ti为预测建议框的4个坐标变化参数,/>为真实区域包围盒的坐标变化参数,Lcls和Lreg分别为分类损失和回归损失,分别通过Ncls和Nreg这两个归一化参数进行归一化,并通过平衡参数λ对两类损失的权重进行平衡。
进一步的,步骤4中,通过计算特征向量的相似度大小进行室内模型标准渲染图检索时,将主体图像的特征向量与模型特征数据库中同一模型大类的室内模型标准渲染图的特征向量进行相似度计算,特征向量均为128维的二值哈希码,相似度计算公式为:
式中,X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)均为维度是128的二值哈希码,H越小则表示哈希码X和Y越相似;由于哈希码的二值性,相似度计算可以通过按位异或来实现,位运算在计算机中的运算速度最快,因此进行哈希码间的相似度度量能够极大地提升检索效率。
进一步的,步骤5中,选取前二十个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。
Claims (8)
1.一种基于深度学习的三维室内模型检索方法,其特征在于,包括如下步骤:
步骤1,构建特征提取网络,并利用特征提取网络对室内模型数据库中保存的各个室内模型标准渲染图进行特征向量提取,并利用提取到的特征向量建立模型特征数据库;
步骤2,利用图像主体检测网络对输入的二维图像进行主体检测,并从二维图像中分割出包含目标物体在内的主体图像;
步骤3,利用特征提取网络对分割出的各个主体图像进行特征向量提取;
步骤4,计算主体图像的特征向量与模型特征数据库中各个室内模型标准渲染图的特征向量的相似度;
步骤5,按照相似度的大小顺序对各个室内模型标准渲染图进行排序,并选取前N个相似度较大的的室内模型标准渲染图作为检索结果输出显示;
在步骤1中,构建特征提取网络的具体步骤为:
步骤1.1,建立模型检索数据集:从室内模型数据库中选取不同模型大类的各个室内模型,每个室内模型均设置有五张效果图以及对应的五张室内实物图,再将包含该室内模型的模型区域从效果图以及室内实物图中截取出来建立模型检索数据集;
步骤1.2,构建特征提取网络:特征提取网络包括三个输入、三个对应的卷积神经网络分支以及一个三元组损失函数,三个卷积神经网络分支用于分别将三个输入转化为对应的特征向量,三元组损失函数用于计算各个特征向量之间的距离,三个卷积神经网络分支之间参数共享;
步骤1.3,训练特征提取网络,具体步骤为:
首先,对模型检索数据集中各个图像的尺寸进行调整,将图像的长边统一调整至224,短边则在保持原图长宽比的前提下进行缩放;
其次,使用经过ImageNet预训练的VGG-16网络权重对特征提取网络进行初始化,特征提取网络中的全连接层使用均值为0以及标准差为0.05的截断正态分布随机数进行初始化;
再次,使用Adam优化算法对初始化后的特征提取网络进行微调,优化算法的学习率为10-4,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,微调时设置Batch Size为32;
最后,利用图像尺寸调整后的模型检索数据集对构建特征提取网络进行训练,并在三元组损失函数值不再减小时停止训练,三元组损失函数为:
式中,以及/>分别为三个输入样本通过哈希映射层压缩后输出的k维二值哈希码,m为阈值参数,用于控制正负样本对之间的相对距离,l为一个所有元素均等于1且维度为k的向量,λ为用于控制二值约束项约束力度的权重参数,取值为0.1;
在步骤2中,对输入的二维图像进行主体检测的具体步骤为:
步骤2.1,构建一个图像主体检测数据集:选取包含各类常见室内家居用品的室内模型标准渲染图以及对应的实物图,再利用LabelImg软件对室内模型标准渲染图以及对应的实物图进行标注,并将标注的标签信息存储为XML文件以构成图像主体检测数据集;
步骤2.2,构建一个图像主体检测网络:图像主体检测网络由卷积层、区域建议网络层、兴趣区域池化层以及分类层构成,卷积层用于提取图像主体检测数据集中各个室内模型标准渲染图以及实物图的特征图,区域建议网络层用于在各个特征图上生成建议检测区域,兴趣区域池化层用于将建议检测区域映射到卷积层输出的特征图上,并进行最大值池化处理得到建议区域特征图,分类层用于对各个建议区域特征图进行全连接层FC和softmax损失函数计算;
步骤2.3,训练图像主体检测网络:使用经ImageNet预训练的权重对图像主体检测网络进行初始化,再利用Adam优化算法对图像主体检测网络进行微调,设置Adam优化算法的学习率为10-5,一阶矩估计的指数衰减率β1为0.9,二阶矩估计的指数衰减率β2为0.999,图像主体检测网络进行训练时的Batch Size设置为1,并利用Adam优化算法不断地更新网络的权重参数,当分类层的softmax损失函数值不再减小时图像主体检测网络训练完成;
步骤2.4,利用训练好的图像主体检测网络对输入的二维图像进行主体检测,从输入的二维图像中分割出主体图像。
2.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤1.1中,在截取模型区域时,从不同角度进行截取,并将各个效果图以及对应的室内实物图水平翻转后扩充至模型检索数据集,再裁剪效果图以及对应的室内实物图的四个顶角缩减至原图的85%后扩充至模型检索数据集。
3.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤1.2中,三个输入分别为参考样本、正样本以及负样本,将室内实物图作为参考样本,将包含家居用品对应的室内模型标准渲染图作为正样本,将同一模型大类中的一个室内模型标准渲染图作为参考样本;
三个卷积神经网络分支均包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、四个最大池化层、多尺度池化层、特征融合层、全连接层以及哈希映射层;四个最大池化层分别设置在第一卷积层、第二卷积层、第三卷积层、第四卷积层以及第五卷积层的相邻卷积层之间;多尺度池化层设置有4×4、2×2以及1×1三种池化尺度,用于对第五卷积层输出的特征图进行池化;特征融合层用于将多尺度池化层输出的多尺度特征图进行融合,获得一个维度为10752的特征向量;全连接层是一个维度为4096的特征向量,用于对10752维度的特征向量进行融合优化;哈希映射层用于对全连接层融合优化后的4096维度向量进行压缩,输出128维的特征向量。
4.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤1中,在利用特征提取网络进行特征向量提取时,对输出层输出连续实值的近似哈希码进行阈值化处理,获得离散的二值哈希码作为提取的特征向量,通过阈值化处理生成的二值哈希码bi为:
s.t.i∈{1,2,…,k}
式中,si是以0为阈值的近似哈希码。
5.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤2.2中,图像主体检测网络为改进型Faster R-CNN网络,具体是利用残差网络-101作为Faster R-CNN网络的骨干网络,并通过特征金字塔网络来提升网络对多尺度的目标的定位能力。
6.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,在步骤2.2中,利用训练好的改进型Faster R-CNN网络对输入的二维图像进行主体检测的具体步骤为:
在对输入的二维图像进行卷积层处理时,选用残差网络-101中的卷积层2至卷积层5输出的顶层特征图{C2,C3,C4,C5}作为待融合的特征图,对特征图{C2,C3,C4,C5}进行融合处理获得对应的特征图分别为{P2,P3,P4,P5},再对融合后的特征图{P2,P3,P4,P5}分别进行一次3×3的卷积操作以消除采样带来的混叠效应;
对卷积操作后的特征图P5进行了一次最大池化,生成一个尺寸为P5的一半的特征图P6,于是在经过特征金字塔网络处理后可得到尺寸依次为原图的1/4、1/8、1/16、1/32以及1/64且通道数均为256的一系列特征图{P2,P3,P4,P5,P6},并将这些特征图将作为区域建议网络层的输入;
在对特征图{P2,P3,P4,P5,P6}进行区域建议网络层处理时,特征图{P2,P3,P4,P5,P6}所对应的候选框大小分别为{322,642,1282,2562,5122},并且每一种候选框都有三种长宽比分别为{1:2,1:1,2:1},从而使得区域建议网络层总共生成15种不同尺寸的建议检测区域;
在兴趣区域池化层处理时,依据建议检测区域的尺寸将其映射到对应层次的特征图上,待映射的特征图层次编号k的具体计算方式如下:
式中,224是ImageNet预训练输入图像的标准尺寸,k0是高为h、宽为w且w×h=2242的建议检测区域所对应的特征图的层次编号,最后输出的k会做取整处理,再对映射后的每一个建议检测区域在水平和竖直方向上都分成7等分,并对每一等份均进行最大值池化处理,得到尺寸为7×7的建议区域特征图;
在进行分类层处理时,全连接层FC为1024维全连接层,softmax损失函数为:
式中,i为一个样本批次中各个建议检测区域的索引,pi为对应建议检测区域为前景目标的预测概率,为建议检测区域是否为前景的真实标签,ti为预测建议框的4个坐标变化参数,/>为真实区域包围盒的坐标变化参数,Lcls和Lreg分别为分类损失和回归损失,分别通过Ncls和Nreg这两个归一化参数进行归一化,并通过平衡参数λ对两类损失的权重进行平衡。
7.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,步骤4中,通过计算特征向量的相似度大小进行室内模型标准渲染图检索时,将主体图像的特征向量与模型特征数据库中同一模型大类的室内模型标准渲染图的特征向量进行相似度计算,相似度计算公式为:
式中,X=(x1,x2,…,xn)和Y=(y1,y2,…,yn)均为维度是128的哈希码,H越小则表示哈希码X和Y越相似。
8.根据权利要求1所述的基于深度学习的三维室内模型检索方法,其特征在于,步骤5中,选取前二十个相似度较大的的室内模型标准渲染图作为检索结果输出显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010809510.9A CN112115291B (zh) | 2020-08-12 | 2020-08-12 | 一种基于深度学习的三维室内模型检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010809510.9A CN112115291B (zh) | 2020-08-12 | 2020-08-12 | 一种基于深度学习的三维室内模型检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115291A CN112115291A (zh) | 2020-12-22 |
CN112115291B true CN112115291B (zh) | 2024-02-27 |
Family
ID=73804115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010809510.9A Active CN112115291B (zh) | 2020-08-12 | 2020-08-12 | 一种基于深度学习的三维室内模型检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115291B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052983A (zh) * | 2021-04-14 | 2021-06-29 | 杭州群核信息技术有限公司 | 一种可自定义的室内三维场景编辑方法、装置、系统和存储介质 |
CN115187705B (zh) * | 2022-09-13 | 2023-01-24 | 之江实验室 | 一种语音驱动人脸关键点序列生成方法及装置 |
CN116127587B (zh) * | 2023-04-17 | 2023-06-16 | 矩阵纵横设计股份有限公司 | 室内设计中的渲染方法和系统 |
CN117078868B (zh) * | 2023-10-17 | 2023-12-15 | 北京太极信息系统技术有限公司 | 基于信创软硬件的虚拟现实引擎及其建模和渲染方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885764A (zh) * | 2017-09-21 | 2018-04-06 | 银江股份有限公司 | 基于多任务深度学习快速哈希车辆检索方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019147693A1 (en) * | 2018-01-23 | 2019-08-01 | Insurance Services Office, Inc. | Computer vision systems and methods for machine learning using image hallucinations |
-
2020
- 2020-08-12 CN CN202010809510.9A patent/CN112115291B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885764A (zh) * | 2017-09-21 | 2018-04-06 | 银江股份有限公司 | 基于多任务深度学习快速哈希车辆检索方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
融合多尺度特征的深度哈希图像检索方法;周书仁;谢盈;蔡碧野;;计算机科学与探索(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112115291A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115291B (zh) | 一种基于深度学习的三维室内模型检索方法 | |
CN107679250B (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
Wu et al. | 3d shapenets for 2.5 d object recognition and next-best-view prediction | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN111462120B (zh) | 一种基于语义分割模型缺陷检测方法、装置、介质及设备 | |
CN111275082A (zh) | 一种基于改进端到端神经网络的室内物体目标检测方法 | |
CN108256450A (zh) | 一种基于深度学习的人脸识别和人脸验证的监督学习方法 | |
CN111914107B (zh) | 一种基于多通道注意力区域扩展的实例检索方法 | |
CN112668579A (zh) | 基于自适应亲和力和类别分配的弱监督语义分割方法 | |
CN110210431B (zh) | 一种基于点云语义标注和优化的点云分类方法 | |
CN112287839A (zh) | 一种基于迁移学习的ssd红外图像行人检测方法 | |
CN108170823B (zh) | 一种基于高层语义属性理解的手绘交互式三维模型检索方法 | |
CN108734200B (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN111125397A (zh) | 一种基于卷积神经网络的布料图像检索方法 | |
CN114821022A (zh) | 融合主观逻辑和不确定性分布建模的可信目标检测方法 | |
CN110287369B (zh) | 一种基于语义的视频检索方法及系统 | |
CN115344733A (zh) | 基于深度哈希的数字藏品检索方法及系统 | |
CN111354076A (zh) | 一种基于嵌入空间的单幅图像三维零件组合式建模方法 | |
CN108428234B (zh) | 基于图像分割结果评价的交互式分割性能优化方法 | |
Kaur et al. | Comparative analysis of image classification techniques using statistical features in CBIR systems | |
CN112800927A (zh) | 一种基于AM-Softmax损失的蝴蝶图像细粒度识别方法 | |
Li et al. | 3D large-scale point cloud semantic segmentation using optimal feature description vector network: OFDV-Net | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |