CN112991207A - 全景深度估计方法、装置、终端设备及存储介质 - Google Patents
全景深度估计方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112991207A CN112991207A CN202110262904.1A CN202110262904A CN112991207A CN 112991207 A CN112991207 A CN 112991207A CN 202110262904 A CN202110262904 A CN 202110262904A CN 112991207 A CN112991207 A CN 112991207A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- cost body
- polar angle
- panoramic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 20
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 239000011800 void material Substances 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 25
- 238000010586 diagram Methods 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Length Measuring Devices By Optical Means (AREA)
Abstract
本发明公开了一种全景深度估计方法、装置、终端设备及存储介质,所述方法包括:采集全景图像;对所述全景图像进行预处理,得到上部图像、下部图像和极角;利用所述上部图像、所述下部图像和所述极角得到初始代价体;对所述初始代价体进行处理,以得到视差图像;对所述视差图像进行优化处理,得到深度图像。根据本发明实施例的技术方案,能够减少图像处理过程中的畸变,提高了深度估计的准确度。
Description
技术领域
本发明涉及图像处理领域,特别涉及一种全景深度估计方法、装置、终端设备及存储介质。
背景技术
传统的基于立体匹配的双目深度估计算法可大致分为局部(local method)和全局(global method),局部算法可以更快的计算出匹配结果,但其受到环境的影响且鲁棒性较低;全局立体匹配算法能够计算出更具有全局上下文信息的视差,但是需要引入到复杂的优化问题,总的来说,传统的立体匹配算法步骤可分为:匹配代价计算、代价聚合、视差估计、视差优化。
随着深度学习在立体匹配算法上的发展,基于学习的方法(learning basedmethods)越来广泛,比如可学习的匹配代价和代价回归等,这种非端到端的深度学习算法相较于传统算法有很好的性能提升,但是其计算量较大且感受野有限、缺乏上下文(context)信息。相教于非端到端(Non-end-to-end)的算法,端到端(end-to-end)算法更容易设计且具有更好的活力和发展前景,但其对环境配置要求较高,需要真实的标注数据。目前端到端算法主要分为二维编解码机构(2D encoder-decoder structure)和三维正则化结构(3D regularization structure),其中三维正则化结构以输入源分又可分为以普通图像对为输入源和以全景图为输入源,两者的网络结构流程大致相同,但全景图相较于普通图像来说,存在大量畸变且几何关系并不明显。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明提出一种全景深度估计方法,能够减少图像处理过程中的畸变,提高了深度估计的准确度。
本发明还提出一种应用上述全景深度估计方法的全景深度估计装置。
本发明还提出一种应用上述全景深度估计方法的终端设备。
本发明还提出一种应用上述全景深度估计方法的计算机可读存储介质。
根据本发明第一方面实施例的全景深度估计方法,包括:
采集全景图像;
对所述全景图像进行预处理,得到上部图像、下部图像和极角;
利用所述上部图像、所述下部图像和所述极角得到初始代价体;
对所述初始代价体进行处理,以得到视差图像;
对所述视差图像进行优化处理,得到深度图像。
根据本发明实施例的全景深度估计方法,至少具有如下有益效果:首先采集全景图像,然后对全景图像进行预处理,得到了上部图像、下部图像和极角;在图像处理的过程中加入极角这一因素,能够很好地减少图像处理过程中产生的畸变,从而提高了深度估计的准确度;并且将由初始代价体得到的视差图像进行优化处理,从而能够得到精准度较高的深度图像。
根据本发明的一些实施例,所述利用所述上部图像、所述下部图像和所述极角得到初始代价体,包括:
利用权重共享神经网络对所述上部图像、所述下部图像和所述极角进行特征提取,以得出分别相对应的上部特征图像、下部特征图像和极角特征信息;
将所述上部特征图像和所述下部特征图像分别与所述极角特征信息进行特征融合,分别相对应得到主代价体和变形代价体;
将所述主代价体和所述变形代价体融合成所述初始代价体。
根据本发明的一些实施例,所述对所述初始代价体进行处理,以得到视差图像,包括:
利用空洞空间卷积池化金字塔对所述初始代价体进行代价计算,得到中间代价体;
利用堆叠沙漏网络对所述中间代价体进行代价聚合,得到所述视差图像。
根据本发明的一些实施例,所述采集全景图像,包括:
利用八目相机采集全景图像。
根据本发明的一些实施例,所述将所述上部特征图像和所述下部特征图像分别与所述极角特征信息进行特征融合,分别相对应得到主代价体和变形代价体,包括:
将所述上部特征图像和所述极角特征信息进行特征融合再进行融合特征过滤,得到主代价体;
将所述下部特征图像和所述极角特征信息进行特征融合再进行融合特征过滤,得到变形代价体。
根据本发明第二方面实施例的全景深度估计装置,包括:
采集单元,用于采集全景图像;
预处理单元,用于对所述全景图像进行预处理,得到上部图像、下部图像和极角;
操作单元,用于利用所述上部图像、所述下部图像和所述极角得到初始代价体;
处理单元,对所述初始代价体进行处理,以得到视差图像;
优化单元,用于对所述视差图像进行优化处理,得到深度图像。
根据本发明的一些实施例,所述操作单元包括:
提取单元,用于利用权重共享神经网络对所述上部图像、所述下部图像和所述极角进行特征提取,以得出分别相对应的上部特征图像、下部特征图像和极角特征信息;
融合单元,用于将所述上部特征图像和所述下部特征图像分别与所述极角特征信息进行特征融合,分别相对应得到主代价体和变形代价体;
结合单元,用于将所述主代价体和所述变形代价体融合成所述初始代价体。
根据本发明的一些实施例,所述处理单元包括:
计算单元,用于利用空洞空间卷积池化金字塔对所述初始代价体进行代价计算,得到中间代价体;
聚合单元,用于利用堆叠沙漏网络对所述中间代价体进行代价聚合,得到所述视差图像。
根据本发明实施例的全景深度估计装置,至少具有如下有益效果:首先采集全景图像,然后对全景图像进行预处理,得到了上部图像、下部图像和极角;在图像处理的过程中加入极角这一因素,能够很好地减少图像处理过程中产生的畸变,从而提高了深度估计的准确度;并且将由初始代价体得到的视差图像进行优化处理,从而能够得到精准度较高的深度图像。
根据本发明第三方面实施例的终端设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行上述的全景深度估计方法。
根据本发明实施例的终端设备,至少具有如下有益效果:首先采集全景图像,然后对全景图像进行预处理,得到了上部图像、下部图像和极角;在图像处理的过程中加入极角这一因素,能够很好地减少图像处理过程中产生的畸变,从而提高了深度估计的准确度;并且将由初始代价体得到的视差图像进行优化处理,从而能够得到精准度较高的深度图像。
根据本发明第四方面实施例的计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被控制处理器执行时实现如上述的全景深度估计方法。
根据本发明实施例的计算机可读存储介质,至少具有如下有益效果:首先采集全景图像,然后对全景图像进行预处理,得到了上部图像、下部图像和极角;在图像处理的过程中加入极角这一因素,能够很好地减少图像处理过程中产生的畸变,从而提高了深度估计的准确度;并且将由初始代价体得到的视差图像进行优化处理,从而能够得到精准度较高的深度图像。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例提供的全景深度估计方法的流程图;
图2为本发明一个实施例提供的全景深度估计方法中的得到初始代价体的流程图;
图3为本发明一个实施例提供的全景深度估计方法中的得到视差图像的流程图;
图4为本发明另一个实施例提供的全景深度估计方法的流程示意图;
图5为本发明另一个实施例提供的全景深度估计方法中的构建代价体网络示意图;
图6为本发明一个实施例提供的全景深度估计装置的结构示意图;
图7为本发明一个实施例提供的终端设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1,根据本发明第一方面的一个实施例提供了一种全景深度估计方法,方法包括但不限于步骤S100、步骤S200、步骤S300、步骤S400和步骤S500。
步骤S100,采集全景图像;
步骤S200,对全景图像进行预处理,得到上部图像、下部图像和极角;
步骤S300,利用上部图像、下部图像和极角得到初始代价体;
步骤S400,对初始代价体进行处理,以得到视差图像;
步骤S500,对视差图像进行优化处理,得到深度图像。
在一实施例中,本发明实施例提出的全景深度估计方法首先采集全景图像,然后对采集到的全景图像进行预处理,得到上部图像、下部图像和极角;在图像处理的过程中加入极角这一因素,能够很好地减少图像处理过程中产生的畸变,从而提高了深度估计的准确度;并且将由初始代价体得到的视差图像进行优化处理,从而能够得到精准度较高的深度图像。
需要说明的是,可以利用多个摄像头或者相机来采集全景图像。例如利用八目相机捕捉的图片分为上、下两个部分,每个部分为4个固定角度且位于同一水平高度的鱼眼相机,并安置对应的上、下相机处于同一个垂直线上。将每个部分捕捉到的四张有畸变的图片融合成一张360度全景图,以上下两张互相关的图像作为数据源。同时计算计算出他们的极角作为另一个数据源,此数据源用来减少图像处理过程中的畸变,提高深度估计的准确度。
具体地,利用八目相机采集全景图像。利用八目相机捕捉的图片分为上、下两个部分,每个部分为4个固定角度且位于同一水平高度的鱼眼相机,并安置对应的上、下相机处于同一个垂直线上。
需要说明的是,对视差图像进行优化处理并且结合采集全景图像的图像采集设备的内部参数,就能够得出深度图像。
参照图2,上述步骤S300中由上部图像、下部图像和极角而得到初始代价体,包括但不限于步骤S310、步骤S320和步骤S330。
步骤S310,利用权重共享神经网络对上部图像、下部图像和极角进行特征提取,以得出分别相对应的上部特征图像、下部特征图像和极角特征信息;
步骤S320,将上部特征图像和下部特征图像分别与极角特征信息进行特征融合,分别相对应得到主代价体和变形代价体;
步骤S330,将主代价体和变形代价体融合成所述初始代价体。
在一实施例中,本发明实施例通过多层权重共享的神经网络提取图像的高语义特征。为了保证图像的特征信息和几何信息相互独立且保证特征的连续性,增加了以主图为输入源的额外网络分支,将网络分支以极角的形式添加到原图像对特征提取的浅层网络中,以避免图像在提取特征的过程中丢失连续信息。其中极角产生于原图像,根据图像对中的同一像素所在的极平面设定极线,相同或相似的像素点会在同一条极线上,再根据这些有规律排列的极线划分为[-90°,90°],极角存在于原图像对特征提取的新一维度(原特征为GBR三维,添加后为四维),用作标记主图像中每条极线的相对角度,避免在提取特征过程中特征逐渐偏移,同时极角也可以作为衡量图像对中同一像素点的相互关系的特征。
参照图3,上述步骤S400中由初始代价体得到视差图像,可以包括但不限于步骤S410和步骤S420。
步骤S410,利用空洞空间卷积池化金字塔对初始代价体进行代价计算,得到中间代价体;
步骤S420,利用堆叠沙漏网络对中间代价体进行代价聚合,得到视差图像。
在一实施例中,本发明实施例在将图像特征与几何信息融合后,因为全视角图像提供了比常规图像更大的视场,因此仍然需要考虑像素之间的空间关系。为了在空间上考虑不同的尺度,采用了ASPP(空洞空间卷积池化金字塔)来进行语义分割。该模块是一个扩展的卷积设计,考虑了在不同层次的接受场水平上的多尺度分辨率。为了降低基于成本体积的深度估计的大内存消耗,在训练过程中采取了随机截取代价聚合。在此过程中引入了一种新的可学习代价体(LCV),它使用移位滤波器搜索“度单元”上的最优步长,以精确地构造最优成本体积。通过一个7×1的转换二维层设计了一个带有移动滤波器的LCV(可学习的代价体)在信道方向的移位,以防止通道之间的混合。这种过滤器的设计允许垂直移动,保留了等矩形图像的完整视图。因此,通过卷积可以学习特征映射的最佳移位步长。通过堆叠沙漏网络结构作为3D编码器解码器和回归,回归连续视差值。再通过回归网络对视差进一步优化,从而得出可行的视差结果。
参照图4和图5,将上下两幅图片经过权重共享的网络层以提取初步特征,以上图像为主图计算每个像素点行序列所在列的位置表示为极角,极角是范围在[-90°,90°]的用于辅助全景图中每个像素以保证在特征提取过程中特征连续。同时,通过两种不同生成原理的代价体通过一定的权重分配融合为初始代价体。如图4所示,将八目相机合成后的上下两张全景图通过多层特征提取后,将极角添加到这两种特征的新一维度,而新一维度用于衡量同一极角下的连续像素点,在进一步特征提取时,保证高语义特征与源图相匹配。由于极角的生成来自于上图片,因此在融合时会出现两种分支,一个是以上图像-极角组合生成的初始代价体,另一个是根据下图像-极角生成的变形代价体,在生成两种不同形式代价体后,通过可学习的权值进一步融合为初始代价体。在立体匹配中最重要的一步是建立初始代价体,即在设定好的视差水平上以固定步长的卷积核匹配成本再构建一个代价体。构建代价体都是以一个像素点为固定步长,也就是直接拼接相应的特征来构建代价体。而全景图本身的畸变使得单像素步长的卷积核无法与极角所指的几何信息保持一致。因此构建一个可学习的代价体就很有必要,使用自适应过滤器学习最合适的拼接方式,从而能够最精确的构建最佳代价体。
具体地,将上部特征图像和极角特征信息进行特征融合再进行融合特征过滤,得到主代价体;将下部特征图像和极角特征信息进行特征融合再进行融合特征过滤,得到变形代价体。
具体地,自适应过滤器由2D卷积层构成,为了避免在不同通道中卷积造成的误差,将自适应过滤器依次在每个通道上滑动卷积。同时为了符合立体匹配的设定并能完整的保留全景图内的物体特征,过滤器采用垂直的移动方式。为了避免边界信息丢失,采用复制边界的方法来设置补全层,并保持输出大小不变。由于过滤器需要多次对图像进行滑动卷积,所以最佳的过滤器大小是能通过深度学习获取。
具体地,在分别提取上下视角的特征值之后,为了解决全景图本身的畸变问题,分别添加极角信息到提取过的上下特征图中。但是为了保持图像的信息完整性,因此首先采用两条分支先构建两块预定义的匹配代价体。第一条是由上特征图(添加极角,称目标特征图)与下特征图(未添加极角,称源特征图)所组成,最后形成为主代价体;第二条是由上特征图(未添加极角,称源特征图)与下特征图(添加极角,称目标特征图)所组成,最后形成为变形代价体。首先从最大视差值(maxdisp)来定义代价体的厚度(也即最大过滤的次数)。两条最终所获取的预定义代价体皆经以下流程:第一个代价体(主代价体)是直接由源特征图与目标特征图拼接而成,第二个代价体(变形代价体)是由原特征图与经过一次过滤的目标特征图拼接而成,而后的每一层代价体都是由原特征图与经过n-1次过滤的目标特征图拼接而成。而后生成的两个代价体会经过一个3D卷积进行融合形成最终的初始代价体。为了确保在实践中的稳定训练,仍然遵循正常的成本体积转移,在前小半部分训练中并不对过滤器进行深度学习。
需要说明的是,为了解决由全景图本身不可避免的图像畸变带来的在特征提取或拼接过程中所造成的特征不连续和特征离散化的问题。采用把极角作为网络模型输入的额外几何信息维度,通过深度学习从而构建更好的畸变矫正模型。并且在特征提取网络中采用互相关方式提取相互特征并建立代价体,充分利用了全局上下文信息。分别对上、下图像去畸变后与下、上源图像进行代价体提取,得到两种代价体后进行融合形成最终代价体,通过此过程能更好的结合图像与极角中的信息。
可以理解的是,通过八目相机进行实时实地图像采集,分别得到全视角上下各四张图像,通过图像拼接分别对上、下图像进行拼接得到上、下两张360度全景图。结合所训练的网络模型,可由上、下两张全景图进行视差计算得出视差,从而进一步转化得到场景的深度。基于八目相机能单一次进行全方位的深度估计,减少非设备因素的所造成的误差,同时也能提高建模的效率和准确度。利用极角作为单独信息输入网络解决由图像转换所带来图像扭曲问题。通过一系列可学习移位滤波器来构建代价体比单一的归一化处理效果更佳。其深度学习的网络模型由三部分构成,首先由分别对上下图像的特征提取与极角处理的结果进行拼接;然后考虑到图像再不同空间上的扩展,因此采用了ASPP作为语义分割模块;最后通过可学习的代价体得到非线性的球性投影,再使用一系列堆叠沙漏网络可得到最终的视差图。
需要说明的是,可以用极线校正畸变问题,但是极线仅适用于原图像校正,在特征提取过程中,极线并不能将物体角点特征准确识别,并且在特征提取过程中,角点信息可能会发生偏移,极线并不能起到原本的作用。而极角可以通过非定位角点形式对图像进行校正。可以通过设定阈值对像素点的视差进行调配,但其设定阈值本身存在人为因素,并不是完全意义上的可学习的代价体。而单边可学习代价体不能较准确的生成初始代价体,以双边特征提取生成不同数据源的代价体可以相对更准确的生成初始代价体。
通过上述方案可知,本发明实施例首先采集全景图像,然后对采集到的全景图像进行预处理,得到上部图像、下部图像和极角;在图像处理的过程中加入极角这一因素,能够很好地减少图像处理过程中产生的畸变,从而提高了深度估计的准确度;并且将由初始代价体得到的视差图像进行优化处理,从而能够得到精准度较高的深度图像。
参照图6,根据本发明第二方面的一个实施例提供了一种全景深度估计装置1000,包括:
采集单元1100,用于采集全景图像;
预处理单元1200,用于对全景图像进行预处理,得到上部图像、下部图像和极角;
操作单元1300,用于利用上部图像、下部图像和极角得到初始代价体;
处理单元1400,对初始代价体进行处理,以得到视差图像;
优化单元1500,用于对视差图像进行优化处理,得到深度图像。
在本发明一些实施例中,操作单元1300包括:
提取单元1310,用于利用权重共享神经网络对上部图像、下部图像和极角进行特征提取,以得出分别相对应的上部特征图像、下部特征图像和极角特征信息;
融合单元1320,用于将上部特征图像和下部特征图像分别与极角特征信息进行特征融合,分别相对应得到主代价体和变形代价体;
结合单元1330,用于将主代价体和变形代价体融合成初始代价体。
在本发明一些实施例中,处理单元1400包括:
计算单元1410,用于利用空洞空间卷积池化金字塔对初始代价体进行代价计算,得到中间代价体;
聚合单元1420,用于利用堆叠沙漏网络对中间代价体进行代价聚合,得到所述视差图像。
需要说明的是,由于本实施例中的全景深度估计装置1000与上述实施例中的全景深度估计方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本系统实施例,此处不再详述。
通过上述方案可知,本发明实施例首先采集全景图像,然后对采集到的全景图像进行预处理,得到上部图像、下部图像和极角;在图像处理的过程中加入极角这一因素,能够很好地减少图像处理过程中产生的畸变,从而提高了深度估计的准确度;并且将由初始代价体得到的视差图像进行优化处理,从而能够得到精准度较高的深度图像。
参照图7,根据本发明第三方面的一个实施例提供了一种终端设备600,包括至少一个控制处理器700和用于与至少一个控制处理器700通信连接的存储器800;存储器800存储有可被至少一个控制处理器700执行的指令,指令被至少一个控制处理器700执行,以使至少一个控制处理器700能够执行上述实施例中的主从设备切换方法。例如,执行以上描述的图1中的方法步骤S100至S500,图2中的方法步骤S310至步骤S330或者图3中的方法步骤S410至步骤S420。
需要说明的是,控制处理器700可以为控制芯片,例如可以为单片机控制芯片、ARM处理器或者FPGA控制芯片。
需要说明的是,由于本实施例中的终端设备600与上述实施例中的全景深度估计方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本系统实施例,此处不再详述。
通过上述方案可知,首先采集全景图像,然后对采集到的全景图像进行预处理,得到上部图像、下部图像和极角;在图像处理的过程中加入极角这一因素,能够很好地减少图像处理过程中产生的畸变,从而提高了深度估计的准确度;并且将由初始代价体得到的视差图像进行优化处理,从而能够得到精准度较高的深度图像。
根据本发明第四方面的一个实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令被控制处理器执行时实现上述实施例中的全景深度估计方法。例如,执行以上描述的图1中的方法步骤S100至S500,图2中的方法步骤S310至步骤S330或者图3中的方法步骤S410至步骤S420。
需要说明的是,由于本实施例中的计算机可读存储介质与上述实施例中的全景深度估计方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本系统实施例,此处不再详述。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种全景深度估计方法,其特征在于,包括:
采集全景图像;
对所述全景图像进行预处理,得到上部图像、下部图像和极角;
利用所述上部图像、所述下部图像和所述极角得到初始代价体;
对所述初始代价体进行处理,以得到视差图像;
对所述视差图像进行优化处理,得到深度图像。
2.根据权利要求1所述的一种全景深度估计方法,其特征在于,所述利用所述上部图像、所述下部图像和所述极角得到初始代价体,包括:
利用权重共享神经网络对所述上部图像、所述下部图像和所述极角进行特征提取,以得出分别相对应的上部特征图像、下部特征图像和极角特征信息;
将所述上部特征图像和所述下部特征图像分别与所述极角特征信息进行特征融合,分别相对应得到主代价体和变形代价体;
将所述主代价体和所述变形代价体融合成所述初始代价体。
3.根据权利要求1所述的一种全景深度估计方法,其特征在于,所述对所述初始代价体进行处理,以得到视差图像,包括:
利用空洞空间卷积池化金字塔对所述初始代价体进行代价计算,得到中间代价体;
利用堆叠沙漏网络对所述中间代价体进行代价聚合,得到所述视差图像。
4.根据权利要求1所述的一种全景深度估计方法,其特征在于,所述采集全景图像,包括:
利用八目相机采集全景图像。
5.根据权利要求2所述的一种全景深度估计方法,其特征在于,所述将所述上部特征图像和所述下部特征图像分别与所述极角特征信息进行特征融合,分别相对应得到主代价体和变形代价体,包括:
将所述上部特征图像和所述极角特征信息进行特征融合再进行融合特征过滤,得到主代价体;
将所述下部特征图像和所述极角特征信息进行特征融合再进行融合特征过滤,得到变形代价体。
6.一种全景深度估计装置,其特征在于,包括:
采集单元,用于采集全景图像;
预处理单元,用于对所述全景图像进行预处理,得到上部图像、下部图像和极角;
操作单元,用于利用所述上部图像、所述下部图像和所述极角得到初始代价体;
处理单元,对所述初始代价体进行处理,以得到视差图像;
优化单元,用于对所述视差图像进行优化处理,得到深度图像。
7.根据权利要求6所述的一种全景深度估计装置,其特征在于,所述操作单元包括:
提取单元,用于利用权重共享神经网络对所述上部图像、所述下部图像和所述极角进行特征提取,以得出分别相对应的上部特征图像、下部特征图像和极角特征信息;
融合单元,用于将所述上部特征图像和所述下部特征图像分别与所述极角特征信息进行特征融合,分别相对应得到主代价体和变形代价体;
结合单元,用于将所述主代价体和所述变形代价体融合成所述初始代价体。
8.根据权利要求6所述的一种全景深度估计装置,其特征在于,所述处理单元包括:
计算单元,用于利用空洞空间卷积池化金字塔对所述初始代价体进行代价计算,得到中间代价体;
聚合单元,用于利用堆叠沙漏网络对所述中间代价体进行代价聚合,得到所述视差图像。
9.一种终端设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至5任一所述的全景深度估计方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,其特征在于,所述计算机可执行指令被控制处理器执行时实现如权利要求1至5任一所述的全景深度估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262904.1A CN112991207B (zh) | 2021-03-11 | 2021-03-11 | 全景深度估计方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262904.1A CN112991207B (zh) | 2021-03-11 | 2021-03-11 | 全景深度估计方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112991207A true CN112991207A (zh) | 2021-06-18 |
CN112991207B CN112991207B (zh) | 2022-11-15 |
Family
ID=76334884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110262904.1A Active CN112991207B (zh) | 2021-03-11 | 2021-03-11 | 全景深度估计方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991207B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546652A (zh) * | 2022-11-29 | 2022-12-30 | 城云科技(中国)有限公司 | 一种多时态目标检测模型及其构建方法、装置及应用 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9013543B1 (en) * | 2012-11-14 | 2015-04-21 | Google Inc. | Depth map generation using multiple scanners to minimize parallax from panoramic stitched images |
CN104680505A (zh) * | 2013-11-29 | 2015-06-03 | 陆婷 | 一种鱼眼镜头校正的全景视图算法 |
CN107818580A (zh) * | 2016-09-12 | 2018-03-20 | 达索系统公司 | 根据深度图对真实对象进行3d重建 |
CN108205658A (zh) * | 2017-11-30 | 2018-06-26 | 中原智慧城市设计研究院有限公司 | 基于单双目视觉融合的障碍物检测预警系统 |
EP3349176A1 (en) * | 2017-01-17 | 2018-07-18 | Facebook, Inc. | Three-dimensional scene reconstruction from set of two-dimensional images for consumption in virtual reality |
CN110148181A (zh) * | 2019-04-25 | 2019-08-20 | 青岛康特网络科技有限公司 | 一种通用双目立体匹配方法 |
CN110211220A (zh) * | 2019-04-26 | 2019-09-06 | 五邑大学 | 全景鱼眼摄像机的图像校准缝合和深度重建方法及其系统 |
CN111402345A (zh) * | 2020-06-04 | 2020-07-10 | 深圳看到科技有限公司 | 基于多目全景图像的模型生成方法及装置 |
-
2021
- 2021-03-11 CN CN202110262904.1A patent/CN112991207B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9013543B1 (en) * | 2012-11-14 | 2015-04-21 | Google Inc. | Depth map generation using multiple scanners to minimize parallax from panoramic stitched images |
CN104680505A (zh) * | 2013-11-29 | 2015-06-03 | 陆婷 | 一种鱼眼镜头校正的全景视图算法 |
CN107818580A (zh) * | 2016-09-12 | 2018-03-20 | 达索系统公司 | 根据深度图对真实对象进行3d重建 |
EP3349176A1 (en) * | 2017-01-17 | 2018-07-18 | Facebook, Inc. | Three-dimensional scene reconstruction from set of two-dimensional images for consumption in virtual reality |
CN108205658A (zh) * | 2017-11-30 | 2018-06-26 | 中原智慧城市设计研究院有限公司 | 基于单双目视觉融合的障碍物检测预警系统 |
CN110148181A (zh) * | 2019-04-25 | 2019-08-20 | 青岛康特网络科技有限公司 | 一种通用双目立体匹配方法 |
CN110211220A (zh) * | 2019-04-26 | 2019-09-06 | 五邑大学 | 全景鱼眼摄像机的图像校准缝合和深度重建方法及其系统 |
CN111402345A (zh) * | 2020-06-04 | 2020-07-10 | 深圳看到科技有限公司 | 基于多目全景图像的模型生成方法及装置 |
Non-Patent Citations (2)
Title |
---|
NING-HSU WANG ET AL: ""360SD-Net: 360° Stereo Depth Estimation with Learnable Cost Volume"", 《ARXIV:1911.04460V2》 * |
杨鑫: ""基于FPGA的双目视觉系统设计与实现"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546652A (zh) * | 2022-11-29 | 2022-12-30 | 城云科技(中国)有限公司 | 一种多时态目标检测模型及其构建方法、装置及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN112991207B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wei et al. | A survey on image and video stitching | |
CN110211043B (zh) | 一种用于全景图像拼接的基于网格优化的配准方法 | |
CN106780590B (zh) | 一种深度图的获取方法及系统 | |
CN108074218B (zh) | 基于光场采集装置的图像超分辨率方法及装置 | |
CN101630406B (zh) | 摄像机的标定方法及摄像机标定装置 | |
CN102665086B (zh) | 利用基于区域的局部立体匹配获取视差的方法 | |
CN107545586B (zh) | 基于光场极线平面图像局部的深度获取方法及系统 | |
CN104156957B (zh) | 一种稳定高效的高分辨率立体匹配方法 | |
CN107274483A (zh) | 一种物体三维模型构建方法 | |
CN115205489A (zh) | 一种大场景下的三维重建方法、系统及装置 | |
CN103337094A (zh) | 一种应用双目摄像机实现运动三维重建的方法 | |
CN106023230B (zh) | 一种适合变形图像的稠密匹配方法 | |
CN114143528B (zh) | 多视频流融合方法、电子设备、存储介质 | |
CN106952247B (zh) | 一种双摄像头终端及其图像处理方法和系统 | |
CN106534670B (zh) | 一种基于固联鱼眼镜头摄像机组的全景视频生成方法 | |
CN107767339A (zh) | 一种双目立体图像拼接方法 | |
CN110335222B (zh) | 基于神经网络的自修正弱监督双目视差提取方法及装置 | |
CN105574838A (zh) | 多目相机的图像配准和拼接方法及其装置 | |
CN105005964A (zh) | 基于视频序列影像的地理场景全景图快速生成方法 | |
WO2023240764A1 (zh) | 混合代价体的双目立体匹配方法、设备及存储介质 | |
WO2024120276A1 (zh) | 一种立体视频处理方法 | |
CN112991207B (zh) | 全景深度估计方法、装置、终端设备及存储介质 | |
CN116051916A (zh) | 训练数据获取方法、模型训练方法以及视差图像获取方法 | |
CN117409149A (zh) | 基于立体约束的光束法平差方程的三维建模方法及系统 | |
CN102802020B (zh) | 监测双目立体视频视差信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |