CN112836710B - 一种基于特征金字塔网络的房间布局估计获取方法与系统 - Google Patents

一种基于特征金字塔网络的房间布局估计获取方法与系统 Download PDF

Info

Publication number
CN112836710B
CN112836710B CN202110200203.5A CN202110200203A CN112836710B CN 112836710 B CN112836710 B CN 112836710B CN 202110200203 A CN202110200203 A CN 202110200203A CN 112836710 B CN112836710 B CN 112836710B
Authority
CN
China
Prior art keywords
pyramid
layer
acquiring
resolution
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110200203.5A
Other languages
English (en)
Other versions
CN112836710A (zh
Inventor
王傲鹏
文世挺
庞超逸
高云君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Science and Technology ZUST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Science and Technology ZUST filed Critical Zhejiang University of Science and Technology ZUST
Priority to CN202110200203.5A priority Critical patent/CN112836710B/zh
Publication of CN112836710A publication Critical patent/CN112836710A/zh
Application granted granted Critical
Publication of CN112836710B publication Critical patent/CN112836710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征金字塔网络的房间布局估计获取方法与系统,涉及室内场景理解领域,其通过各层卷积模块数据利用卷积计算与上采样获取的多路数据侧连接融合得到多层金字塔特征,通过多层金字塔特征及其分辨率重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征,将图像特征逐像素相加并卷积计算后获取预设通道数的热图张量,通过热图张量以及房间类型的关键点及其连接关系获取室内房间布局估计。该方法高效地整合利用了多尺度特征提升了小目标检测的精度,并对相同的尺寸图片特征逐像素相加,节省了大量时间,最后网络的输出无需后处理就可得到最终的房间布局估计,省去了大量计算和内存成本。

Description

一种基于特征金字塔网络的房间布局估计获取方法与系统
技术领域
本发明涉及室内场景理解领域,尤其涉及一种基于特征金字塔网络的房间布局估计获取方法与系统。
背景技术
对于室内布局估计任务来说,使用深度学习技术加后处理方法来解决室内布局估计任务的方法较为常见,目前利用DRN网络结构获取室内布局估计任务的方法是目前最新的且在指标上达到了顶尖水平的方法,首先在网络结构方面,DRN的网络结构来自doublerefinement net,这个网络提取了多尺度的特征并将这些不同尺度的特征从小到大依次上采样后进行合并,由于该网络是对不同尺度特征进行的处理,且网络输出结果不能直接得到最终的房间布局,还需要一个单独的程序对网络输出做处理,因此耗费了较多时间和内存成本。
由此,我们可以看到基于DRN网络结构使用深度学习获取室内布局估计任务的这种方法需要大量的计算颇为耗时且优化方法的设计也因具体任务而异需要付出大量精力。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于特征金字塔网络的房间布局估计获取方法,包括步骤:
S1:利用卷积神经网络获取待识别图像的图像特征,并利用分类器根据图像特征获取房间类型,所述卷积神经网络具有多层卷积模块,各层卷积模块依次关联,所述房间类型由若干个有序关键点连接组成;
S2:通过图像特征得到特征金字塔,所述特征金字塔由多层金字塔特征组成,所述各层金字塔特征依次通过各层卷积模块数据利用卷积计算与上采样获取的多路数据侧连接融合得到;
S3:根据多层金字塔特征分别获取与金字塔层数对应的多个预设分辨率的图片特征;
S4:通过对多个预设分辨率的图片特征逐像素相加并卷积计算后获取预设通道数的热图张量,所述预设通道数的热图张量包含有预设通道数的关键点,每一个关键点对应一张通道关键点热图,每一个通道输出一张通道关键点热图;
S5:通过预设通道数的热图张量以及房间类型的关键点及其连接关系获取室内房间布局估计。
进一步地,所述多层卷积模块包括:首层卷积模块,中层卷积模块,尾层卷积模块;所述多层金字塔特征包括:首层金字塔特征,中层金字塔特征,尾层金字塔特征;所述预设分辨率的图片特征包括:首层图片特征,中层图片特征,尾层图片特征,所述首层、中层、尾层图片特征的分辨率相同;
所述多路数据包括:
通过尾层卷积模块利用卷积计算获取的第一路数据;
通过中层卷积模块利用卷积计算获取的第二路数据;
所述步骤S2中侧连接融合的具体步骤包括:
S21:通过第一路数据获取首层金字塔特征;
S22:通过第二路数据与首层金字塔特征上采样后侧连接融合获取中层金字塔特征;
S23:通过第二路数据与中层金字塔特征上采样后侧连接融合获取尾层金字塔特征。
进一步地,所述步骤S3中获取预设分辨率的图片特征其方法为:
根据多层金字塔特征以及多层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征;
所述卷积计算用于获取图像特征;
所述批归一化层用于标准化图像特征;
所述激活函数用于非线性变换标准化图像特征;
所述上采样用于放大非线性变换后的标准化图像特征。
进一步地,所述重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征其步骤包括:
根据首层金字塔特征以及首层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的首层图片特征;
根据中层金字塔特征以及中层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的中层图片特征;
根据尾层金字塔特征以及尾层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的尾层图片特征。
进一步地,所述步骤S5通过预设通道数的热图张量以及房间类型获取室内房间布局估计的具体方法为:
S51:获取房间类型的关键点与通道关键点热图的关键点之间的对应关系,通过对应关系获取一组通道关键点热图;
S52:获取通道关键点热图的合成图作为关键点热图;
S53:根据房间类型获取关键点热图的连接关系,并根据连接关系获取房间布局估计。
本发明还提出了一种基于特征金字塔网络的房间布局估计获取系统,包括:
卷积神经网络模块,利用卷积神经网络获取待识别图像的图像特征,并利用分类器根据图像特征获取房间类型,所述卷积神经网络具有多层卷积模块,各层卷积模块依次关联,所述房间类型由若干个有序关键点连接组成;
多层金字塔特征模块,通过图像特征得到特征金字塔,所述特征金字塔由多层金字塔特征组成,所述各层金字塔特征依次通过各层卷积模块数据利用卷积计算与上采样获取的多路数据侧连接融合得到;
预设分辨率图片特征模块,根据多层金字塔特征分别获取与金字塔层数对应的多个预设分辨率的图片特征;
关键点热图模块,通过对多个预设分辨率的图片特征逐像素相加并卷积计算后获取预设通道数的热图张量,所述预设通道数的热图张量包含有预设通道数的关键点,每一个关键点对应一张通道关键点热图,每一个通道输出一张通道关键点热图;
房间布局估计模块,通过预设通道数的热图张量以及房间类型的关键点及其连接关系获取室内房间布局估计。
进一步地,所述多层卷积模块包括:首层卷积模块,中层卷积模块,尾层卷积模块;所述多层金字塔特征包括:首层金字塔特征,中层金字塔特征,尾层金字塔特征;所述预设分辨率的图片特征包括:首层图片特征,中层图片特征,尾层图片特征,所述首层、中层、尾层图片特征的分辨率相同;
所述多路数据包括:
通过尾层卷积模块利用卷积计算获取的第一路数据;
通过中层卷积模块利用卷积计算获取的第二路数据;
所述多层金字塔特征模块中侧连接融合的具体步骤包括:
通过第一路数据获取首层金字塔特征;通过第二路数据与首层金字塔特征上采样后侧连接融合获取中层金字塔特征;通过第二路数据与中层金字塔特征上采样后侧连接融合获取尾层金字塔特征。
进一步地,所述预设分辨率图片特征模块中获取预设分辨率的图片特征其方法为:
根据多层金字塔特征以及多层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征;
所述卷积计算用于获取图像特征;
所述批归一化层用于标准化图像特征;
所述激活函数用于非线性变换标准化图像特征;
所述上采样用于放大非线性变换后的标准化图像特征。
进一步地,所述重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征其步骤包括:
根据首层金字塔特征以及首层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的首层图片特征;
根据中层金字塔特征以及中层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的中层图片特征;
根据尾层金字塔特征以及尾层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的尾层图片特征。
进一步地,所述房间布局估计模块中通过预设通道数的热图张量以及房间类型获取室内房间布局估计的具体方法为:获取房间类型的关键点与通道关键点热图的关键点之间的对应关系,通过对应关系获取一组通道关键点热图;获取通道关键点热图的合成图作为关键点热图;根据房间类型获取关键点热图的连接关系,并根据连接关系获取房间布局估计。
本发明至少具有以下有益效果:
1、解决了在几乎不增加计算量与模型参数的情况下高效地整合利用多尺度特征的问题,提升了小目标检测的精度;
2、本方法通过对多层卷积模块提取的一系列特征按照尺寸从小到大依次进行上采样后通过侧向连接得到多层金字塔特征,并通过对多层金字塔特征的一系列计算操作得到相同尺寸的图片特征,然后对提取的相同尺寸的图片特征在每个像素位置相加完成了对不同尺寸、不同语义强度特征之间的融合,经过融合之后的每层特征都拥有了更为丰富的语义信息,这只是在原有网络基础上通过简单的上采样以及侧向连接来完成的,这些操作在实际计算中不需要多少算力,十分划算;
3、本方法将金字塔特征上采样到一个相同的尺寸然后再合并,节省了时间和内存成本;
4、本方法中通过网络输出的关键点热图利用房间类型的关键点及其连接关系就能直接得到最终的房间布局估计。
附图说明
图1为一种基于特征金字塔网络的房间布局估计获取方法步骤图;
图2为一种基于特征金字塔网络的房间布局估计获取系统的网络框架工作流程图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
基于深度学习配合后处理方法获取室内房间布局估计的工作流程中,我们可以看到遵循这种工作流程的解决方案需要大量的计算颇为耗时且网络输出结果不能直接得到最终的房间布局,还需要一个单独的程序对网络输出做处理。为了缩短计算时间、提高小目标检测的精度以及解决几乎不增加计算量与模型参数的情况下高效地整合利用多尺度特征的问题,本发明提出了一种基于特征金字塔网络的房间布局估计获取方法,通过该方法所搭建的神经网络输出的关键点热图和该方法获取到的房间类型得到房间布局估计,如图1所示,具体通过下述步骤实现:
S1:利用卷积神经网络获取待识别图像的图像特征,并利用分类器根据图像特征获取房间类型,所述卷积神经网络具有多层卷积模块,各层卷积模块依次关联,所述房间类型由若干个有序关键点连接组成;
所述多层卷积模块包括:首层卷积模块,中层卷积模块,尾层卷积模块;
需要说明的是,中层卷积模块,尾层卷积模块均可分别包含多层卷积模块,本实施例中有三层中层卷积模块;本实例中卷积神经网络的主干架构选择了ResNeXt来进行特征提取,ResNeXt在分类任务上的出色表现使本方法的分类器提升了准确率,这对提升模型的最终表现有着不可忽视的作用。
S2:通过图像特征得到特征金字塔,所述特征金字塔由多层金字塔特征组成,所述各层金字塔特征依次通过各层卷积模块数据利用卷积计算与上采样获取的多路数据侧连接融合得到;
所述多层金字塔特征包括:首层金字塔特征,中层金字塔特征,尾层金字塔特征;
需要说明的是,中层金字塔特征、尾层金字塔特征均可分别包含多层金字塔特征,本实施例中有三层中层金字塔特征。本发明通过引入在目标检测和语义分割领域被广泛验证有效性的特征金字塔网络,端到端的解决了室内布局估计任务,大大缩短了任务的处理时间。
所述多路数据包括:
通过尾层卷积模块利用卷积计算获取的第一路数据;
通过中层卷积模块利用卷积计算获取的第二路数据;
所述步骤S2中侧连接融合的具体步骤包括:
S21:通过第一路数据获取首层金字塔特征;
S22:通过第二路数据与首层金字塔特征上采样后侧连接融合获取中层金字塔特征;
S23:通过第二路数据与中层金字塔特征上采样后侧连接融合获取尾层金字塔特征。
需要说明的是,上述步骤中将不同尺度特征整合到多层特征金字塔,从参数量与计算量的角度来看,本方法所搭建的网络为一个轻量级的非对称编码解码网络。编码部分为获取金字塔特征的过程,该过程将参数与计算的重心用在了获取金字塔特征上;解码部分为下述步骤S3中分别根据金字塔特征以及金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的图片特征的过程,该过程将前面的金字塔特征进行了有效的整合;这样的安排更为合理同时并没有太多额外的算力与内存方面的开销。
S3:根据多层金字塔特征分别获取与金字塔层数对应的多个预设分辨率的图片特征;
所述预设分辨率的图片特征包括:首层图片特征,中层图片特征,尾层图片特征,所述首层、中层、尾层图片特征的分辨率相同;
所述步骤S3中获取预设分辨率的图片特征其方法为:
根据多层金字塔特征以及多层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征;
所述卷积计算用于获取图像特征;
所述批归一化层用于标准化图像特征;
所述激活函数用于非线性变换标准化图像特征;
所述上采样用于放大非线性变换后的标准化图像特征。
所述重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征其步骤包括:
根据首层金字塔特征以及首层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的首层图片特征;
根据中层金字塔特征以及中层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的中层图片特征;
根据尾层金字塔特征以及尾层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的尾层图片特征。
需要说明的是,所述分别获取的预设分辨率的图片特征均为相同尺寸的图片特征,本方法在这里体现出了与DRN(double refinement network)方法的一个不同之处,即DRN方法是提取了多尺度的特征并将这些不同尺度的特征从小到大依次上采样后进行合并,而本方法是将多层金字塔特征上采样到一个相同的尺寸然后再相加合并,与DRN方法相比本方法节省了时间和内存成本。
S4:通过对多个预设分辨率的图片特征逐像素相加并卷积计算后获取预设通道数的热图张量,所述预设通道数的热图张量包含有预设通道数的关键点,每一个关键点对应一张通道关键点热图,每一个通道输出一张通道关键点热图;
S5:通过预设通道数的热图张量以及房间类型的关键点及其连接关系获取室内房间布局估计。
需要说明的是,本方法通过对多层卷积模块提取的一系列特征按照尺寸从小到大依次进行上采样后通过侧向连接得到多层金字塔特征,并通过对多层金字塔特征的一系列计算操作得到相同尺寸的图片特征,然后对提取的相同尺寸的图片特征在每个像素位置相加完成了对不同尺寸、不同语义强度特征之间的融合,经过融合之后的每层特征都拥有了更为丰富的语义信息,这只是在原有网络基础上通过简单的上采样以及侧向连接来完成的,且侧向连接配合特征金字塔有助于提升小目标检测的精度。这些操作在实际计算中不需要多少算力,节省了大量时间。
所述步骤S5通过预设通道数的热图张量以及房间类型获取室内房间布局估计的具体方法为:
S51:获取房间类型的关键点与通道关键点热图的关键点之间的对应关系,通过对应关系获取一组通道关键点热图;
S52:获取通道关键点热图的合成图作为关键点热图;
S53:根据房间类型获取关键点热图的连接关系,并根据连接关系获取房间布局估计。
本方法通过网络输出的关键点热图并利用房间类型的关键点及其连接关系即可得到室内房间布局估计,操作简单快速,相比于早期的传统方法省略了估计消失点、假设生成、假设排序的步骤,缩短了处理时间;相比于DRN(double refinement network)的方法,去掉了后处理程序,省去了大量的计算。
实施例二
为了缩短计算时间、提高小目标检测的精度以及解决几乎不增加计算量与模型参数的情况下高效地整合利用多尺度特征的问题,本发明提出了一种基于特征金字塔网络的房间布局估计获取系统,如图2所示,具体包括:
卷积神经网络模块,利用卷积神经网络获取待识别图像的图像特征,并利用分类器根据图像特征获取房间类型,所述卷积神经网络具有多层卷积模块,各层卷积模块依次关联,所述房间类型由若干个有序关键点连接组成;
所述多层卷积模块包括:首层卷积模块,中层卷积模块,尾层卷积模块;
需要说明的是,中层卷积模块,尾层卷积模块均可分别包含多层卷积模块,本实施例中有三层中层卷积模块;本实例中卷积神经网络的主干架构选择了ResNeXt来进行特征提取,ResNeXt在分类任务上的出色表现使本方法的分类器提升了准确率,这对提升模型的最终表现有着不可忽视的作用。
多层金字塔特征模块,通过图像特征得到特征金字塔,所述特征金字塔由多层金字塔特征组成,所述各层金字塔特征依次通过各层卷积模块数据利用卷积计算与上采样获取的多路数据侧连接融合得到;
所述多层金字塔特征包括:首层金字塔特征,中层金字塔特征,尾层金字塔特征;
需要说明的是,中层金字塔特征、尾层金字塔特征均可分别包含多层金字塔特征,本实施例中有三层中层金字塔特征。本发明通过引入在目标检测和语义分割领域被广泛验证有效性的特征金字塔网络,端到端的解决了室内布局估计任务,大大缩短了任务的处理时间。
所述多路数据包括:
通过尾层卷积模块利用卷积计算获取的第一路数据;
通过中层卷积模块利用卷积计算获取的第二路数据;
所述多层金字塔特征模块中侧连接融合的具体步骤包括:
通过第一路数据获取首层金字塔特征;通过第二路数据与首层金字塔特征上采样后侧连接融合获取中层金字塔特征;通过第二路数据与中层金字塔特征上采样后侧连接融合获取尾层金字塔特征。
需要说明的是,上述步骤中将不同尺度特征整合到多层特征金字塔,从参数量与计算量的角度来看,本方法所搭建的网络为一个轻量级的非对称编码解码网络。编码部分为获取金字塔特征的过程,该过程将参数与计算的重心用在了获取金字塔特征上;解码部分为下述步骤S3中分别根据金字塔特征以及金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的图片特征的过程,该过程将前面的金字塔特征进行了有效的整合;这样的安排更为合理同时并没有太多额外的算力与内存方面的开销。
预设分辨率图片特征模块,根据多层金字塔特征分别获取与金字塔层数对应的多个预设分辨率的图片特征;
所述预设分辨率的图片特征包括:首层图片特征,中层图片特征,尾层图片特征,所述首层、中层、尾层图片特征的分辨率相同;
所述预设分辨率图片特征模块中获取预设分辨率的图片特征其方法为:
根据多层金字塔特征以及多层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征;
所述卷积计算用于获取图像特征;
所述批归一化层用于标准化图像特征;
所述激活函数用于非线性变换标准化图像特征;
所述上采样用于放大非线性变换后的标准化图像特征。
所述重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征其步骤包括:
根据首层金字塔特征以及首层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的首层图片特征;
根据中层金字塔特征以及中层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的中层图片特征;
根据尾层金字塔特征以及尾层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的尾层图片特征。
需要说明的是,所述分别获取的预设分辨率的图片特征均为相同尺寸的图片特征,本方法在这里体现出了与DRN(double refinement network)方法的一个不同之处,即DRN方法是提取了多尺度的特征并将这些不同尺度的特征从小到大依次上采样后进行合并,而本方法是将多层金字塔特征上采样到一个相同的尺寸然后再相加合并,与DRN方法相比本方法节省了时间和内存成本。
关键点热图模块,通过对多个预设分辨率的图片特征逐像素相加并卷积计算后获取预设通道数的热图张量,所述预设通道数的热图张量包含有预设通道数的关键点,每一个关键点对应一张通道关键点热图,每一个通道输出一张通道关键点热图;
房间布局估计模块,通过预设通道数的热图张量以及房间类型的关键点及其连接关系获取室内房间布局估计。
需要说明的是,本方法通过对多层卷积模块提取的一系列特征按照尺寸从小到大依次进行上采样后通过侧向连接得到多层金字塔特征,并通过对多层金字塔特征的一系列计算操作得到相同尺寸的图片特征,然后对提取的相同尺寸的图片特征在每个像素位置相加完成了对不同尺寸、不同语义强度特征之间的融合,经过融合之后的每层特征都拥有了更为丰富的语义信息,这只是在原有网络基础上通过简单的上采样以及侧向连接来完成的,且侧向连接配合特征金字塔有助于提升小目标检测的精度。这些操作在实际计算中不需要多少算力,节省了大量时间。
所述房间布局估计模块中通过预设通道数的热图张量以及房间类型获取室内房间布局估计的具体方法为:获取房间类型的关键点与通道关键点热图的关键点之间的对应关系,通过对应关系获取一组通道关键点热图;获取通道关键点热图的合成图作为关键点热图;根据房间类型获取关键点热图的连接关系,并根据连接关系获取房间布局估计。
本方法通过网络输出的关键点热图并利用房间类型的关键点及其连接关系即可得到室内房间布局估计,操作简单快速,相比于早期的传统方法省略了估计消失点、假设生成、假设排序的步骤,缩短了处理时间;相比于DRN(double refinement network)的方法,去掉了后处理程序,省去了大量的计算。
本文中所描述的具体实施例仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种基于特征金字塔网络的房间布局估计获取方法,其特征在于,包括步骤:
S1:利用卷积神经网络获取待识别图像的图像特征,并利用分类器根据图像特征获取房间类型,所述卷积神经网络具有多层卷积模块,各层卷积模块依次关联,所述房间类型由若干个有序关键点连接组成;
S2:通过图像特征得到特征金字塔,所述特征金字塔由多层金字塔特征组成,所述各层金字塔特征依次通过各层卷积模块数据利用卷积计算与上采样获取的多路数据侧连接融合得到;
S3:根据多层金字塔特征分别获取与金字塔层数对应的多个预设分辨率的图片特征;
所述多层金字塔特征包括:首层金字塔特征,中层金字塔特征,尾层金字塔特征;所述预设分辨率的图片特征包括:首层图片特征,中层图片特征,尾层图片特征,首层、中层、尾层图片特征的分辨率相同;
所述步骤S3中获取预设分辨率的图片特征其方法为:
根据多层金字塔特征以及多层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征;
所述卷积计算用于获取图像特征;
所述批归一化层用于标准化图像特征;
所述激活函数用于非线性变换标准化图像特征;
所述上采样用于放大非线性变换后的标准化图像特征;
S4:通过对多个预设分辨率的图片特征逐像素相加并卷积计算后获取预设通道数的热图张量,所述预设通道数的热图张量包含有预设通道数的关键点,每一个关键点对应一张通道关键点热图,每一个通道输出一张通道关键点热图;
S5:通过预设通道数的热图张量以及房间类型的关键点及其连接关系获取室内房间布局估计。
2.根据权利要求1所述的基于特征金字塔网络的房间布局估计获取方法,其特征在于,所述多层卷积模块包括:首层卷积模块,中层卷积模块,尾层卷积模块;所述多路数据包括:
通过尾层卷积模块利用卷积计算获取的第一路数据;
通过中层卷积模块利用卷积计算获取的第二路数据;
所述步骤S2中侧连接融合的具体步骤包括:
S21:通过第一路数据获取首层金字塔特征;
S22:通过第二路数据与首层金字塔特征上采样后侧连接融合获取中层金字塔特征;
S23:通过第二路数据与中层金字塔特征上采样后侧连接融合获取尾层金字塔特征。
3.根据权利要求2所述的基于特征金字塔网络的房间布局估计获取方法,其特征在于,所述重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征其步骤包括:
根据首层金字塔特征以及首层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的首层图片特征;
根据中层金字塔特征以及中层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的中层图片特征;
根据尾层金字塔特征以及尾层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的尾层图片特征。
4.根据权利要求1所述的基于特征金字塔网络的房间布局估计获取方法,其特征在于,所述步骤S5通过预设通道数的热图张量以及房间类型获取室内房间布局估计的具体方法为:
S51:获取房间类型的关键点与通道关键点热图的关键点之间的对应关系,通过对应关系获取一组通道关键点热图;
S52:获取通道关键点热图的合成图作为关键点热图;
S53:根据房间类型获取关键点热图的连接关系,并根据连接关系获取房间布局估计。
5.一种基于特征金字塔网络的房间布局估计获取系统,其特征在于,包括:
卷积神经网络模块,利用卷积神经网络获取待识别图像的图像特征,并利用分类器根据图像特征获取房间类型,所述卷积神经网络具有多层卷积模块,各层卷积模块依次关联,所述房间类型由若干个有序关键点连接组成;
多层金字塔特征模块,通过图像特征得到特征金字塔,所述特征金字塔由多层金字塔特征组成,所述各层金字塔特征依次通过各层卷积模块数据利用卷积计算与上采样获取的多路数据侧连接融合得到;
预设分辨率图片特征模块,根据多层金字塔特征分别获取与金字塔层数对应的多个预设分辨率的图片特征;
所述多层金字塔特征包括:首层金字塔特征,中层金字塔特征,尾层金字塔特征;所述预设分辨率的图片特征包括:首层图片特征,中层图片特征,尾层图片特征,首层、中层、尾层图片特征的分辨率相同;
所述预设分辨率图片特征模块中获取预设分辨率的图片特征其方法为:
根据多层金字塔特征以及多层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征;
所述卷积计算用于获取图像特征;
所述批归一化层用于标准化图像特征;
所述激活函数用于非线性变换标准化图像特征;
所述上采样用于放大非线性变换后的标准化图像特征;
关键点热图模块,通过对多个预设分辨率的图片特征逐像素相加并卷积计算后获取预设通道数的热图张量,所述预设通道数的热图张量包含有预设通道数的关键点,每一个关键点对应一张通道关键点热图,每一个通道输出一张通道关键点热图;
房间布局估计模块,通过预设通道数的热图张量以及房间类型的关键点及其连接关系获取室内房间布局估计。
6.根据权利要求5所述的基于特征金字塔网络的房间布局估计获取系统,其特征在于,所述多层卷积模块包括:首层卷积模块,中层卷积模块,尾层卷积模块;所述多路数据包括:
通过尾层卷积模块利用卷积计算获取的第一路数据;
通过中层卷积模块利用卷积计算获取的第二路数据;
所述多层金字塔特征模块中侧连接融合的具体步骤包括:
通过第一路数据获取首层金字塔特征;通过第二路数据与首层金字塔特征上采样后侧连接融合获取中层金字塔特征;通过第二路数据与中层金字塔特征上采样后侧连接融合获取尾层金字塔特征。
7.根据权利要求6所述的基于特征金字塔网络的房间布局估计获取系统,其特征在于,所述重复利用卷积计算、批归一化层、激活函数以及上采样分别获取对应的多个预设分辨率的图像特征其步骤包括:
根据首层金字塔特征以及首层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的首层图片特征;
根据中层金字塔特征以及中层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的中层图片特征;
根据尾层金字塔特征以及尾层金字塔特征的分辨率重复利用卷积计算、批归一化层、激活函数以及上采样直至获取到预设分辨率的尾层图片特征。
8.根据权利要求5所述的基于特征金字塔网络的房间布局估计获取系统,其特征在于,所述房间布局估计模块中通过预设通道数的热图张量以及房间类型获取室内房间布局估计的具体方法为:获取房间类型的关键点与通道关键点热图的关键点之间的对应关系,通过对应关系获取一组通道关键点热图;获取通道关键点热图的合成图作为关键点热图;根据房间类型获取关键点热图的连接关系,并根据连接关系获取房间布局估计。
CN202110200203.5A 2021-02-23 2021-02-23 一种基于特征金字塔网络的房间布局估计获取方法与系统 Active CN112836710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110200203.5A CN112836710B (zh) 2021-02-23 2021-02-23 一种基于特征金字塔网络的房间布局估计获取方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110200203.5A CN112836710B (zh) 2021-02-23 2021-02-23 一种基于特征金字塔网络的房间布局估计获取方法与系统

Publications (2)

Publication Number Publication Date
CN112836710A CN112836710A (zh) 2021-05-25
CN112836710B true CN112836710B (zh) 2022-02-22

Family

ID=75932940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110200203.5A Active CN112836710B (zh) 2021-02-23 2021-02-23 一种基于特征金字塔网络的房间布局估计获取方法与系统

Country Status (1)

Country Link
CN (1) CN112836710B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410219A (zh) * 2018-10-09 2019-03-01 山东大学 一种基于金字塔融合学习的图像分割方法、装置和计算机可读存储介质
CN110419049A (zh) * 2017-03-17 2019-11-05 奇跃公司 房间布局估计方法和技术
CN112085741A (zh) * 2020-09-04 2020-12-15 厦门大学 一种基于深度学习的胃癌病理切片分割算法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017122546A (ja) * 2016-01-07 2017-07-13 パナソニックIpマネジメント株式会社 レイアウト推定装置、気流制御システム及びレイアウト推定方法
CN109360232B (zh) * 2018-09-10 2021-04-06 南京邮电大学 基于条件生成对抗网络的室内场景布局估计方法和装置
US10769744B2 (en) * 2018-10-31 2020-09-08 Kabushiki Kaisha Toshiba Computer vision system and method
CN113569798B (zh) * 2018-11-16 2024-05-24 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
US10839606B2 (en) * 2018-12-28 2020-11-17 National Tsing Hua University Indoor scene structural estimation system and estimation method thereof based on deep learning network
CN111429473B (zh) * 2020-02-27 2023-04-07 西北大学 基于多尺度特征融合的胸片肺野分割模型建立及分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110419049A (zh) * 2017-03-17 2019-11-05 奇跃公司 房间布局估计方法和技术
CN109410219A (zh) * 2018-10-09 2019-03-01 山东大学 一种基于金字塔融合学习的图像分割方法、装置和计算机可读存储介质
CN112085741A (zh) * 2020-09-04 2020-12-15 厦门大学 一种基于深度学习的胃癌病理切片分割算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Double Refinement Network for Room Layout Estimation";Ivan Kruzhilov等;《ACPR 2019: Pattern Recognition》;20200223;第557-568页 *
"Feature Pyramid Transformer";Dong Zhang等;《ECCV 2020: Computer Vision-ECCV 2020》;20201103;全文 *
"特征金字塔多尺度全卷积目标检测算法";林志洁等;《浙江大学学报(工学版)》;20190331;第53卷(第03期);全文 *

Also Published As

Publication number Publication date
CN112836710A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN112287940B (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN108717569B (zh) 一种膨胀全卷积神经网络装置及其构建方法
CN110163193B (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
CN109766805B (zh) 一种基于深度学习的双层车牌字符识别方法
CN111523470A (zh) 特征融合块、卷积神经网络、行人重识别方法及相关设备
CN112132844A (zh) 基于轻量级的递归式非局部自注意力的图像分割方法
CN110781744A (zh) 一种基于多层次特征融合的小尺度行人检测方法
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN117830788A (zh) 一种多源信息融合的图像目标检测方法
CN115797808A (zh) 一种无人机巡检缺陷图像的识别方法、系统、装置及介质
CN113449671A (zh) 一种多尺度多特征融合的行人重识别方法及装置
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN114693966A (zh) 一种基于深度学习的目标检测方法
CN112215301B (zh) 基于卷积神经网络的影像直线探测方法
CN112836710B (zh) 一种基于特征金字塔网络的房间布局估计获取方法与系统
CN113095479A (zh) 一种基于多尺度注意力机制的冰下层结构提取方法
CN116704187A (zh) 一种语义对齐的实时语义分割方法、系统及存储介质
CN111079585A (zh) 基于深度学习的图像增强与伪孪生卷积神经网络结合的行人再识别方法
CN115860139A (zh) 一种基于深度学习的多尺度船舶目标检测方法
CN115713769A (zh) 文本检测模型的训练方法、装置、计算机设备和存储介质
CN114155523A (zh) 一种端到端的高效精确车牌检测和识别方法
CN114494703A (zh) 一种智能车间场景目标轻量级语义分割方法
CN114495269A (zh) 一种行人重识别方法
CN112966546A (zh) 一种基于无人机侦察图像的嵌入式姿态估计方法
CN112818832A (zh) 一种基于部件感知的弱监督物体定位装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant