CN110992414A - 一种基于卷积神经网络的室内单目场景深度估计的方法 - Google Patents

一种基于卷积神经网络的室内单目场景深度估计的方法 Download PDF

Info

Publication number
CN110992414A
CN110992414A CN201911073281.2A CN201911073281A CN110992414A CN 110992414 A CN110992414 A CN 110992414A CN 201911073281 A CN201911073281 A CN 201911073281A CN 110992414 A CN110992414 A CN 110992414A
Authority
CN
China
Prior art keywords
network
sampling module
attention
module
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911073281.2A
Other languages
English (en)
Other versions
CN110992414B (zh
Inventor
梁煜
张金铭
张为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911073281.2A priority Critical patent/CN110992414B/zh
Publication of CN110992414A publication Critical patent/CN110992414A/zh
Application granted granted Critical
Publication of CN110992414B publication Critical patent/CN110992414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于卷积神经网络的室内场景深度估计的方法,包括下列步骤:第一步,构建带有标注和标签的图片数据库;第二步,训练一个深度卷积神经网络:利用所得的数据集,利用全卷积通道注意力网络(Full Convolutional Squeeze‑and‑Excitation Net)和全卷积残差网络的基本原理,设计一种网络结构,采用编码器解码器架构,将改进的注意力模块放入编码器中,将改进的上采样模块放入解码器中,从而得到最佳的精度;第三步,使用L1损失函数对网络模型进行优化;第四步,图像深度估计。

Description

一种基于卷积神经网络的室内单目场景深度估计的方法
技术领域
本发明属于深度估计领域,涉及一种利用深度卷积神经网络的室内单目场景深度估计的方法。
背景技术
在计算机视觉领域中,深度估计有着重要的研究意义。早期的工作重点是通过开发几何约束的算法,从立体图像中估计深度,这些算法依靠图像和三角测量之间的点的对应关系来估计深度。在单视图情况下,大多数方法依赖于运动或不同的拍摄条件(不同的拍摄角度等)。尽管缺乏几何约束这类信息会导致深度图产生一定的模糊度,但受人类单眼对深度感知的类比启发,对单个RGB图像的深度图预测也进行了研究。
在某些深度不可知的情况下深度估计十分必要。比如着火点距离的测量:如果当某一场地发生火灾时,监控人员没有发现火点或者消防人员不能及时赶到的时候,就十分需要能够得到着火点距离的信息,然后直接控制消防栓等其他灭火工具进行灭火。而且火灾是无法控制的,早期的小火苗十分容易熄灭,但如果无人发现,过了一段时间可能就会引发火灾,使人们的财产收到十分严重的损失。虽然比较成熟的测距技术,比如,红外测距、双目测距等等。这些方法的弊端由:红外测距仍需要人来进行测,在这样的情况下,着火点测距没有实际意义,而且红外测距仪价格十分昂贵;双目测距是利用双目摄像头,但现在大部分公共场所等架设的都是普通摄像头,而非双目摄像头,双目测距暂时不能普及到很多场所。另外同户外场景相比,室内场景通常缺少显著的局部或全局视觉特征,但是深度估计标签又具有信息密度大,细节繁杂等问题,因此,单目室内场景的深度估计具有十分重要的意义。
目前已有的一些单目图像深度估计方法往往采用大量的卷积和池化操作,在不断下采样的过程中丢失了大量的细节信息,深度估计后的效果难以达到使用标准,导致深度图像过于平滑且不清晰,估计精度不高。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度卷积网络的但墓室内场景深度估计的方法,以增强深度图像清晰度,提高图像深度估计的精确度。技术方案如下:
一种基于卷积神经网络的室内场景深度估计的方法,包括下列步骤:
第一步,构建带有标注和标签的图片数据库:挑选室内场景的图片,并对其进行标注,构建符合格式要求、匹配网络结构的数据集。
第二步,训练一个深度卷积神经网络:利用所得的数据集,利用全卷积通道注意力网络(Full Convolutional Squeeze-and-Excitation Net)和全卷积残差网络的基本原理,设计一种网络结构,采用编码器解码器架构,将改进的注意力模块放入编码器中,将改进的上采样模块放入解码器中,从而得到最佳的精度;方法如下:
(1)训练编码器时,编码器由卷积层和FCSE1,FCSE2,FCSE3和FCSE4四个块构成,结构设计为下采样卷积层1,由2个注意力模块叠加形成的FCSE1,下采样卷积层2,由3个注意力模块叠加形成的FCSE2,下采样卷积层3,由4个注意力模块叠加形成的FCSE3,下采样卷积层4,由1个注意力模块叠加形成的FCSE4。首先对注意力通道网络进行修改,修改后的四个FCSE块用来提取图像特征,用卷积层代替其中的全连接层,实现段对端的训练。卷积层中卷积核的尺寸是3×3、步长为1;
(2)训练解码器时,解码器主要由上采样模块构成,包含上采样模块1、上采样模块2、上采样模块3、上采样模块4,将编码器提取的特征信息映射成深度信息。上采样模块1有两个连续的卷积层用于残差计算,特征信道变为原来的一倍,上采样模块2以因数4进行上采样,有四个连续的卷积层用于残差计算,将特征图的长和宽增加4倍,特征信道变为原来的四分之一,上采样模块3、上采样模块4同理。
第三步,使用L1损失函数对网络模型进行优化,采用L1损失函数,训练网络的特征选择的能力而且网络更容易收敛,将编码器和解码器组合为一个端到端的卷积神经网络,从而构成一个深度估计模型;
第四步,图像深度估计。
本发明利用深度卷积神经网络的算法,设计一种基于室内场景单目图像的深度估计方法。该方法以室内场景为研究对象,使用由全卷积通道注意力网络(FullConvolutional Squeeze-and-Excitation Net)构成的注意力模块作为编码器;将全卷积残差网络构成的上采样模块作为解码器,利用编码器解码器的结构进行组合,构成最终的网络模型。与现有技术比,注意力模块利用的是卷积间的信道信息,不会丢失大量细节信息;上采样模块采用跳层链接的方式充分恢复了由编码器特区到的深度信息,使得的效果有较大的提升。
附图说明
图1单目室内场景深度估计网络结构图
图2注意力模块结构图
图3上采样模块结构图
图4估计得到的深度图像与真是深度图像的对比如图
图5使用图像增强后的识别结果
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本发明做进一步阐述.。本发明按以下步骤具体实现:
(1)网络结构
本发明所提出的网络结构,采用端到端的学习方式,该框架学习从彩色图像到相应深度图像的直接映射,采用编码器-解码器结构的网络框架,编码器部分采用9个注意力模块和卷积层1以及下采样卷积层1、2、3、4,解码器部分采用4个上采样模块。卷积层1包含一个尺寸为7×7、步长为2的卷积核,一个3×3的最大池化,一个激活层。下采样卷积层1、2、3、4和卷积层2中的是3×3、步长为1的卷积核,同时卷积层2又包含一个激活层。首先将输入图像送入一个卷积层,和一个最大池化层,特征图尺寸变为76*57*64。将下采样模块的结构设计为下采样卷积层1,由2个注意力模块叠加形成的FCSE1,下采样卷积层2,由3个注意力模块叠加形成的FCSE2,下采样卷积层3,由4个注意力模块叠加形成的FCSE3,下采样卷积层4,由1个注意力模块叠加形成的FCSE4。本发明所提出的深度模型中,所有的卷积层之后均连接着批量正则化层,文中为了简化而忽略。
(2)构建编码器模块
所述构建的编码器模块包括:
当对注意力模块输入X时,先对X进行一个池化操作,再进行卷积操作Ftr,得到矩阵U,U=Ftr(X),其中X∈RH’×W’×C’,U∈RH×W×C,U的矩阵形式可表示为U=[u1,u2,...,uC],则有uC=vC*X,其中vC指的是第C个卷积核的参数。通过获取全局信息来提高网络模型对信息特征的敏感性,以便以最有效的方式通过后续的矩阵转换。这个过程分为两步:压缩(Squeeze)和激励(Excitation)。为了解决信道依赖性,本发明应用压缩全局信息为一个信道描述符,通过全局平均池化即可实现。通过压缩操作Fsq压缩矩阵U的空间尺寸(H×W),生成一个参量z∈RC,故z的第C个元素可用以下公式计算:
Figure BDA0002261625940000031
采用第二个步骤激励操作Fex,以便利用压缩后的信息,这一操作目的是获取全部的信道依赖关系。要想实现这一目标,本发明选用的函数必须具备两个特性:灵活性和学习非互斥的能力,因为必须确保多个信道均被强化。为了满足这些要求,本发明在此选用一个简单的门函数以实现激励过程:
s=Fex(z,W)=σ(g(z,W))=σ(W2*δ(W1*z))
其中,δ是激活函数,
Figure BDA0002261625940000032
W是权重。为了实现端到端的特征学习,在激活函数的上下两个步骤选用卷积网络,通过一个具有权重参数W1和缩减率r的维度缩减层,再通过一个激活层和一个具有权重参数W2,递增率为r的尺寸递增层。通过缩放函数计算得到最终输出Y。
(3)编码器模块
当卷积网络应用于深度估计时,特征图像一定会通过上采样操作,如果仅使用简单的上采样模块,如:双线性插值,又会丢失很多信息。为了改善这一情况,卷积神经网络的深度是至关重要的。而残差网络通过引入跳层连接,解决了这一问题。深度残差网络不是直接地学习一些堆积层的底层映射,而是学习残差映射,这样原始映射可以通过具有“跳层连接”的前馈神经网络实现。另外,为了实现数据端对端的传输,接收任意尺寸的特征图像,以及提高深度估计的精度,故将全卷积网络与残差网络的跳层有机结合,用卷积层代替全连接层,在加深网络的同时,减少网络模型运行的时间,实现端到端的学习方式。因此本发明使用全卷积残差网络构成上采样模块,恢复特征图的信息。
从上采样模块1开始,就是本发明网络的解码器部分。除了最后的卷积层2,尺寸为3×3,其他所有在解码器中的都是残差层。前四层上采样模块1,上采样模块2,上采样模块3,上采样模块4中,第一层上采样模块1对特征图以因数2进行上采样,将特征图的长和宽增加2倍。在解码器中,上采样模块1有两个连续的卷积层用于残差计算,特征信道变为原来的一倍。上采样模块2以因数4进行上采样,有四个连续的卷积层用于残差计算,将特征图的长和宽增加4倍,特征信道变为原来的四分之一,上采样模块3、上采样模块4同理。定义为:
Y1=F(X1,{Wi})+Ws1X1
X1,Y1分别是模块上采样模块1的输入和输出,由于X1,Y1信道数不同,所以采用Ws1X1与Y1信道数相同,函数F(X1,{Wi})是学习网络的残差映射函数,线性投射Ws1用于匹配X1和F的尺寸。上采样模块2、上采样模块3、上采样模块4有四个连续的卷积层用于残差计算,定义为:
Y2=G(X2,{Wj})+Ws2X2
X2,Y2分别是模块上采样模块2、上采样模块3、上采样模块4的输入和输出,由于X2,Y2信道数不同,所以采用Ws2X2与Y2信道数相同,函数G(X2,{Wj})是学习网络的残差映射函数,线性投射Ws2用于匹配X2和G的尺寸
(4)训练深度卷积神经网络
首先将采集到的室内图像级对应的深度图像进行图像增强处理,增加网络训练样本的数量。然后将采集的室内图像及对应的深度图像、增强处理后的室内外图像以及对应的深度图像转换为统一分辨率,作为训练样本输入到网络中,进行训练。
(5)图像深度估计
本发明基于深度卷积网络的但墓室内图像深度估计方法,通过构建注意力模块和上采样模块并置于编码器解码器中,FCSE块用于提取卷积特征的信道信息,比只采用下采样的方法提取到的特征信息更多;上采样模块采用跳层链接,室每层网络能感知更多像素信息。本发明充分利用了每一层的特征图,包含了高低不同等级的特征,从而实现训练出更精确的图像深度,且该方法得到的图像轮廓更加清晰,在一定程度上解决了现有单目深度估计方法生成的结果存在的过于平滑且不清晰的现象,获得了更为清晰的深度图像,从而提高图像深度估计的精确度。

Claims (1)

1.一种基于卷积神经网络的室内场景深度估计的方法,包括下列步骤:
第一步,构建带有标注和标签的图片数据库:挑选室内场景的图片,并对其进行标注,构建符合格式要求、匹配网络结构的数据集。
第二步,训练一个深度卷积神经网络:利用所得的数据集,利用全卷积通道注意力网络(Full Convolutional Squeeze-and-ExcitationNet)和全卷积残差网络的基本原理,设计一种网络结构,采用编码器解码器架构,将改进的注意力模块放入编码器中,将改进的上采样模块放入解码器中,从而得到最佳的精度;方法如下:
(1)训练编码器时,编码器由卷积层和FCSE1,FCSE2,FCSE3和FCSE4四个块构成,结构设计为下采样卷积层1,由2个注意力模块叠加形成的FCSE1,下采样卷积层2,由3个注意力模块叠加形成的FCSE2,下采样卷积层3,由4个注意力模块叠加形成的FCSE3,下采样卷积层4,由1个注意力模块叠加形成的FCSE4。首先对注意力通道网络进行修改,修改后的四个FCSE块用来提取图像特征,用卷积层代替其中的全连接层,实现段对端的训练。卷积层中卷积核的尺寸是3×3、步长为1;
(2)训练解码器时,解码器主要由上采样模块构成,包含上采样模块1、上采样模块2、上采样模块3、上采样模块4,将编码器提取的特征信息映射成深度信息。上采样模块1有两个连续的卷积层用于残差计算,特征信道变为原来的一倍,上采样模块2以因数4进行上采样,有四个连续的卷积层用于残差计算,将特征图的长和宽增加4倍,特征信道变为原来的四分之一,上采样模块3、上采样模块4同理。
第三步,使用L1损失函数对网络模型进行优化,采用L1损失函数,训练网络的特征选择的能力而且网络更容易收敛,将编码器和解码器组合为一个端到端的卷积神经网络,从而构成一个深度估计模型;
第四步,图像深度估计。
CN201911073281.2A 2019-11-05 2019-11-05 一种基于卷积神经网络的室内单目场景深度估计的方法 Active CN110992414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911073281.2A CN110992414B (zh) 2019-11-05 2019-11-05 一种基于卷积神经网络的室内单目场景深度估计的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911073281.2A CN110992414B (zh) 2019-11-05 2019-11-05 一种基于卷积神经网络的室内单目场景深度估计的方法

Publications (2)

Publication Number Publication Date
CN110992414A true CN110992414A (zh) 2020-04-10
CN110992414B CN110992414B (zh) 2023-06-30

Family

ID=70083188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911073281.2A Active CN110992414B (zh) 2019-11-05 2019-11-05 一种基于卷积神经网络的室内单目场景深度估计的方法

Country Status (1)

Country Link
CN (1) CN110992414B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626370A (zh) * 2020-05-29 2020-09-04 展讯通信(上海)有限公司 基于神经网络的镂空识别方法及装置、存储介质、终端
CN111709947A (zh) * 2020-04-24 2020-09-25 浙江科技学院 一种双流沟通和全局信息引导的显著物体图像检测方法
CN112215850A (zh) * 2020-08-21 2021-01-12 天津大学 一种带注意力机制的级联空洞卷积网络脑肿瘤分割方法
CN112967327A (zh) * 2021-03-04 2021-06-15 国网河北省电力有限公司检修分公司 基于联合自注意力机制的单目深度方法
CN115468541A (zh) * 2022-11-01 2022-12-13 山东省地质矿产勘查开发局八〇一水文地质工程地质大队(山东省地矿工程勘察院) 一种岩溶塌陷四维监测的信息系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000752A1 (zh) * 2016-06-27 2018-01-04 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN110009590A (zh) * 2019-04-12 2019-07-12 北京理工大学 一种基于卷积神经网络的高质量彩色图像去马赛克方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000752A1 (zh) * 2016-06-27 2018-01-04 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN110009590A (zh) * 2019-04-12 2019-07-12 北京理工大学 一种基于卷积神经网络的高质量彩色图像去马赛克方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
敖焕轩;李煊鹏;张为公: "高效率图片语义分割网络的研究与设计" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709947A (zh) * 2020-04-24 2020-09-25 浙江科技学院 一种双流沟通和全局信息引导的显著物体图像检测方法
CN111709947B (zh) * 2020-04-24 2024-04-02 浙江科技学院 一种双流沟通和全局信息引导的显著物体图像检测方法
CN111626370A (zh) * 2020-05-29 2020-09-04 展讯通信(上海)有限公司 基于神经网络的镂空识别方法及装置、存储介质、终端
CN111626370B (zh) * 2020-05-29 2022-07-12 展讯通信(上海)有限公司 基于神经网络的镂空识别方法及装置、存储介质、终端
CN112215850A (zh) * 2020-08-21 2021-01-12 天津大学 一种带注意力机制的级联空洞卷积网络脑肿瘤分割方法
CN112967327A (zh) * 2021-03-04 2021-06-15 国网河北省电力有限公司检修分公司 基于联合自注意力机制的单目深度方法
CN115468541A (zh) * 2022-11-01 2022-12-13 山东省地质矿产勘查开发局八〇一水文地质工程地质大队(山东省地矿工程勘察院) 一种岩溶塌陷四维监测的信息系统

Also Published As

Publication number Publication date
CN110992414B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN110992414B (zh) 一种基于卷积神经网络的室内单目场景深度估计的方法
CN112132023B (zh) 基于多尺度上下文增强网络的人群计数方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
WO2018000752A1 (zh) 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN111784619B (zh) 一种红外和可见光图像的融合方法
CN109598754B (zh) 一种基于深度卷积网络的双目深度估计方法
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
CN108765479A (zh) 利用深度学习对视频序列中单目视图深度估计优化方法
CN108269244B (zh) 一种基于深度学习和先验约束的图像去雾系统
CN111582483A (zh) 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN110070489A (zh) 一种基于视差注意力机制的双目图像超分辨方法
US11106904B2 (en) Methods and systems for forecasting crowd dynamics
CN112750201B (zh) 三维重建方法及相关装置、设备
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN115484410B (zh) 基于深度学习的事件相机视频重建方法
CN111325782A (zh) 一种基于多尺度统一的无监督单目视图深度估计方法
CN113782190A (zh) 基于多级时空特征和混合注意力网络的抑郁症诊断方法
CN116258757A (zh) 一种基于多尺度交叉注意力的单目图像深度估计方法
CN115035171A (zh) 基于自注意力导向特征融合的自监督单目深度估计方法
CN115311186A (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN116403152A (zh) 一种基于空间上下文学习网络的人群密度估计方法
CN116468769A (zh) 一种基于图像的深度信息估计方法
CN116703752A (zh) 融合近红外的Transformer结构的图像去雾方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant