CN112446328A - 单目深度的估计系统、方法、设备及计算机可读存储介质 - Google Patents
单目深度的估计系统、方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112446328A CN112446328A CN202011357622.1A CN202011357622A CN112446328A CN 112446328 A CN112446328 A CN 112446328A CN 202011357622 A CN202011357622 A CN 202011357622A CN 112446328 A CN112446328 A CN 112446328A
- Authority
- CN
- China
- Prior art keywords
- depth
- dimensional
- feature
- information
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 46
- 230000000306 recurrent effect Effects 0.000 claims abstract description 29
- 230000000007 visual effect Effects 0.000 claims abstract description 23
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 230000007787 long-term memory Effects 0.000 description 5
- 230000006403 short-term memory Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种单目深度的估计系统、方法、设备及计算机可读存储介质,所述估计系统包括:特征初始提取模块,用于对源于视频序列中的单帧图像进行初步特征提取,以将单帧图像中的视觉特征转换为包含图像真实深度的高维度特征;全局注意力提取模块,用于利用预存的递归神经网络,使高维度特征中每个元素与高维度特征的全局信息关联;局部注意力提取模块,用于将高维度特征中每个元素与高维度特征的局部信息关联;上采样模块,用于将具有与全局信息关联和局部信息关联的高维度特征的特征图转换为单通道深度图。本发明能够模拟双目视觉的视差,提高网络鲁棒性,降低对相机和场景的依赖性;同时大大提高特征的利用率和网络的精准度。
Description
技术领域
本发明属于图像处理技术领域,涉及一种估计方法和系统,特别是涉及一种单目深度的估计系统、方法、设备及计算机可读存储介质。
背景技术
基于单目图像的深度估计算法具有方便部署、计算成本低等优点,受到了学术界和工业界日益增长的关注。深度信息的获取,目的是在于获取图像中不同的空间位置特征信息,可以用于3D建模、场景理解、深度感知的图像合成等领域。
早期的深度估计研究,主要是基于一些光学几何知识等的传统方法,例如利用二次成像原理来达成双相机三维测量的目的,而基于深度学习的单目估计依据是像素值关系反映深度关系,方法是拟合一个函数把图像映射成深度图。现如今流行的基于深度学习的单目估计会面临如下两个问题:
(1)深度数据获取困难:深度数据获取通常需要借助专业的红外设备或者雷达设备,因此获取成本与获取的难度相较于其他的深度学习数据会更大,同时这些数据采集设备的限制也会造成数据集场景单一的问题,难以应付复杂的日常场景。这对于需要借助深度数据的来拟合模型的监督算法而言,是在算法落地过程中,一个不可忽视的难题。
(2)算法精度:相较于需要借助大量深度数据进行拟合的监督算法而言,无监督算法虽然可以仅依靠两个摄像机采集的双目图像数据进行联合训练,但是算法精度并不是特别高,在室内场景中误差会较大,这对需要落地的算法而言是更加不可容忍的。
因此,如何提供一种单目深度的估计系统、方法、设备及计算机可读存储介质,以解决现有技术造成数据集场景单一、算法精度不高、数据的利用率低和算法泛化性差等缺陷,实已成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种单目深度的估计系统、方法、设备及计算机可读存储介质,用于解决现有技术造成数据集场景单一、算法精度不高、数据的利用率低和算法泛化性差的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种单目深度的估计系统,包括:特征初始提取模块,用于对源于视频序列中的单帧图像进行初步特征提取,以将所述单帧图像中的视觉特征转换为包含图像真实深度的高维度特征;全局注意力提取模块,用于利用预存于所述全局注意力提取模块中的递归神经网络,使所述高维度特征中每个元素与所述高维度特征的全局信息关联;局部注意力提取模块,用于将所述高维度特征中每个元素与所述高维度特征的局部信息关联;上采样模块,用于将具有与全局信息关联和局部信息关联的高维度特征的特征图转换为单通道深度图。
于本发明的一实施例中,所述特征初始提取模块对源于视频序列中的单帧图像进行初步特征提取,将低维度彩色图像中带有深度信息的视觉特征通过预存的浅层神经网络后,转换为所述高维度特征。
于本发明的一实施例中,所述特征初始提取模块还用于利用所述浅层神经网络的下采样层保持所述视觉特征的维度不变,并将该视觉特征与经过所述浅层神经网络的池化层的高维度特征进行跨接及特征融合。
于本发明的一实施例中,所述全局注意力提取模块中预存有两个双向递归神经网络;将所述高维度特征中每个元素经过第一个双向递归神经网络后,连接每个元素的两个隐藏状态,使得每个元素记忆位于其左部右部的上下文信息;将经过第一个双向递归神经网络后高维度特征通过第二个双向递归神经网络,使得每个元素记忆位于其顶部底部的上下文信息;将包含左部右部的上下文信息和顶部底部的上下文信息的高维度特征中每个元素通过激活函数归一化为全局的注意力权重;将全局的注意力权重于输入的张量进行点乘,以获取所述高维度特征的全局信息。
于本发明的一实施例中,所述局部注意力提取模块将所述高维度特征的每个元素的特征向量通过激活函数归一化局部的注意力权重,将局部的注意力权重于输入的张量进行点乘,以获取所述高维度特征的局部信息。
于本发明的一实施例中,所述单目深度的估计系统还包括:评估模块,用于计算单通道深度图中每一像素与单通道深度图对应位置归一化的深度值的损失;循环训练模块,用于循环训练所述全局注意力提取模块、局部注意力提取模块及上采样模块,待所述评估模块计算的深度值的损失不再下降时,表示该单目深度的估计系统为最优模型。
本发明另一方面提供一种单目深度的估计方法,包括:步骤一,对源于视频序列中的单帧图像进行初步特征提取,以将所述单帧图像中的视觉特征转换为包含图像真实深度的高维度特征;步骤二,利用预存的递归神经网络,使所述高维度特征中每个元素与所述高维度特征的全局信息关联;步骤三,将所述高维度特征中每个元素与所述高维度特征的局部信息关联;步骤四,将具有与全局信息关联和局部信息关联的高维度特征的特征图转换为单通道深度图。
于本发明的一实施例中,所述单目深度的估计方法还包括:计算单通道深度图中每一像素与单通道深度图对应位置归一化的深度值的损失;循环训练步骤二至步骤四,待计算的深度值的损失不再下降时,停止运行所述单目深度的估计方法。
本发明又一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述单目深度的估计方法。
本发明最后一方面提供一种单目深度的估计设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述估计设备执行所述单目深度的估计方法。
如上所述,本发明所述的单目深度的估计系统、方法、设备及计算机可读存储介质,具有以下有益效果:
第一,本实施例使用了孪生网络的结构的同时,结合一定图像间隔帧数的图像输入方式,在神经网络中模拟双目视觉的视差,在一定程度上降低单目视觉尺度漂移的现象,够提高了网络鲁棒性,降低对相机和场景的依赖性。
第二,本实施例在单目深度估计问题中,使用了语义问题中常用的双向长短期记忆网络作为注意力模块,创新性地从图像的多个方向将上下文信息带给每个像素,提出了一种新颖的全局注意力机制;同时结合局部注意力机制,大大提高了网络对彩色图像中深度信息的提取;同时引入多尺度的网络机制,增大网络在浅层特征图中的感受能力,保留了更多的语义信息。
附图说明
图1显示为本发明的单目深度的估计系统于一实施例中的原理结构示意图。
图2显示为本发明的特征初始提取模块通过的浅层神经网络的结构示意图。
图3显示为本发明的全局注意力提取模块的结构示意图。
图4显示为本发明的长短期记忆网络的结构示意图。
图5显示为本发明的局部注意力模块的结构示意图。
图6显示为本发明的单目深度的估计方法于一实施例中的原理结构示意图。
元件标号说明
1 单目深度的估计系统
11 特征初始提取模块
12 全局注意力提取模块
13 局部注意力提取模块
14 上采样模块
15 评估模块
16 循环训练模块
S61~S66 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例一
本实施例提供一种单目深度的估计系统,包括:
特征初始提取模块,用于对源于视频序列中的单帧图像进行初步特征提取,以将所述单帧图像中的视觉特征转换为包含图像真实深度的高维度特征;
全局注意力提取模块,用于利用预存于所述全局注意力提取模块中的递归神经网络,使所述高维度特征中每个元素与所述高维度特征的全局信息关联;
局部注意力提取模块,用于将所述高维度特征中每个元素与所述高维度特征的局部信息关联;
上采样模块,用于将具有与全局信息关联和局部信息关联的高维度特征的特征图转换为单通道深度图。
以下将结合图示对本实施例所提供的单目深度的估计系统进行详细描述。对于单目深度估计,顾名思义,就是利用一张或者唯一视角下的RGB图像,估计图像中每个像素相对拍摄源的距离。对于人眼来说,由于存在大量的先验知识,所以可以从一只眼睛所获取的图像信息中提取出大量深度信息。那么单目深度估计不仅需要从二维图像中学会客观的深度信息,而且需要提取一些经验信息,而且对于数据集中相机和场景会比较敏感。
请参阅图1,显示为单目深度的估计系统于一实施例中的原理结构示意图。如图1所示,所述单目深度的估计系统1包括特征初始提取模块11、全局注意力提取模块12、局部注意力提取模块13、上采样模块14、评估模块15及循环训练模块16。
所述特征初始提取模块11用于对源于视频序列中的单帧图像进行初步特征提取,以将所述单帧图像中的视觉特征转换为包含图像真实深度的高维度特征;
具体地,所述特征初始提取模块11对源于视频序列中的单帧图像进行初步特征提取,将低维度彩色图像中带有深度信息的视觉特征通过预存的浅层神经网络后,转换为所述高维度特征;利用所述浅层神经网络的下采样层保持所述视觉特征的维度不变,并将该视觉特征与经过所述浅层神经网络的池化层的高维度特征进行跨接及特征融合。
请参阅图2,显示为特征初始提取模块通过的浅层神经网络的结构示意图。为了挖掘三通道图像中不同像素块所代表的真实深度,在所述特征初始提取模块11中,将视觉特征转换为包含图像真实深度的高维度特征,这个过程必然会伴随着信息的丢失。因此,在该特征初始提取模块11中,提取出的视觉特征,会直接通过一层下采样层,保持这部分的特征维度不变,缩小图像的感受野,然后将这种来自特征初提取结构的浅层特征,与经过池化层的高维度特征进行跨接,实现特征融合,提高信息的利用率。
准备输入的连续图像序列中,孪生的网络同时接收单帧的图像,进入到上一个网络和下一个网络的图片需要相隔固定张数的图片,5到20帧,具体需要视数据集而定。
经过浅层的卷积层后进行特征提取之后,会使用池化核大小不同的池化层,对特征图进行降维,这样的处理能有效降低运算量,提高训练、推理的速度。随后使用核大小不同的池化层处理,相当于是用不同的尺度去获取感受域,有效提取特征。最后用卷积层再将不同的池化层过后特征处理成相同维度的特征,以便后续的特征融合。同时还有一个分支会不经过池化层的处理,直接跨接到后续特征融合中,最终将以上处理过后的特征连接起来,进入全局注意力提取模块12中。
所述全局注意力提取模块12用于利用预存于所述全局注意力提取模块中的递归神经网络,使所述高维度特征中每个元素与所述高维度特征的全局信息关联。
具体地,所述全局注意力提取模块12中预存有两个双向递归神经网络;将所述高维度特征中每个元素经过第一个双向递归神经网络后,连接每个元素的两个隐藏状态,使得每个元素记忆位于其左部右部的上下文信息;将经过第一个双向递归神经网络后高维度特征通过第二个双向递归神经网络,使得每个元素记忆位于其顶部底部的上下文信息;将包含左部右部的上下文信息和顶部底部的上下文信息的高维度特征中每个元素通过激活函数归一化为全局的注意力权重;将全局的注意力权重于输入的张量进行点乘,以获取所述高维度特征的全局信息。
请参阅图3,显示为全局注意力提取模块的结构示意图。如图3所示,所述全局注意力提取模块12利用两个双向长短期记忆网络沿两个方向水平和垂直,逐个元素输入到递归神经网络,利用递归神经网络记忆上下文的特性,实现该种隐性映射。
具体而言,如图3所示,进入到这个模块的张量,维度为维度升为CxWxH,会分别进入一个双向长短期记忆网络(biLSTM,Bi-directional Long Short-Term Memory),BiLSTM是一种常见的递归神经网络。由于输入的不同,BiLSTM可以视作为两个长短期记忆网络(LSTM,Long Short-Term Memory)。其中,长短期记忆网络的结构示意图如图4所示。
LSTM模型是由t时刻的输入xt,细胞状态Ct,临时临时细胞状态C_tempt,隐层状态ht,遗忘门ft,记忆门it,输出门ot组成。LSTM的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态ht,其中遗忘,记忆与输出由通过上个时刻的隐层状态ht-1和当前输入xt计算出来的遗忘门ft,记忆门it,输出门ot来控制。详细的计算如下:
遗忘门:输入为前一时刻的隐层状态ht-1,当前时刻的输入xt;输出为遗忘门ft=a(wf·[ht,xt]+bf),其中wf,bf为训练的参数;
记忆门:输入:前一时刻的隐层状态,当前时刻的输入词;输出:记忆门的值it=a(wi·[ht-1,xt]+bi),临时细胞状态C_tempt=tan(wc·[ht-1,xt]+bc),其中wi、bi、wc、bc为训练的参数;
当前时刻细胞状态:输入:记忆门的值it,遗忘门的值ft,临时细胞状态C_tempt,上一刻细胞状态Ct-1;输出:当前时刻细胞状态Ct=ft*Ct-1+it*C_tempt;
输出门和当前时刻隐层状态:前一时刻的隐层状态ht-1,当前时刻的输入xt,当前时刻细胞状态Ct;输出:输出门的值ot=a(wo·[ht-1,xt]+bo),隐层状态ht=ot*tanh(Ct);
以上就是一轮迭代的计算,最终,我们可以得到与输入长度相同的隐层状态序列{hL0,hL1,...,hLn-1}。同理方向相反的LSTM模型由于只是输入是相反的,故最后的隐层状态序列为{hRn-1,hRn-2,...,hR0}。两者的输出最后需要进行拼接,即得到{[hL0,hRn-1],[hL1,hRn-2],...,[hLn-1,hR0]},再对每个元素进行softmax计算,最后得到{h0,h1,...,hn-1}。其中,softmax函数如下:
按照全局注意力结构图中单个LSTM模块中箭头的方向,沿着每一行设置的biLSTM,将每个像素的两个隐藏状态连接起来,使得每个像素都记住它的左右上下文。接下来,将处理过的特征继续通过第二个biLSTM,以便每个像素可以记住其顶部和底部上下文。通过交替地水平和垂直扫描,可以混合来自四个方向的上下文,其将每个像素的信息传播到所有其他像素。因此,全局背景被有效地结合在每个像素处。
包含了上下文信息的特征需要先降维再做特征的融合。降维的过程需要首先经过一层卷积层,将维度升为DxWxH,其中D=WxH,再将每个像素(w,h)的特征向量通过softmax函数归一化为全局的注意力权重,其中维度为WxH。最后将权重按照与输入的张量进行点乘,这样每个像素(w,h)在维度C上就都具有了包含全局信息的特征向量。
在本实施例中,全局注意力模块12中两个不同方向的双向长短期记忆网络可以换成单个的长短期记忆网络,或者其他递归神经网络。
所述局部注意力模块13用于将所述高维度特征中每个元素与所述高维度特征的局部信息关联。
请参阅图5,显示为局部注意力模块的结构示意图。如图5所示,所述局部注意力提取模块13将所述高维度特征的每个元素的特征向量通过激活函数归一化局部的注意力权重,将局部的注意力权重于输入的张量进行点乘,以获取所述高维度特征的局部信息。在本实施例中,全局注意力模块12实现了特征每一个元素和全局映射的关联,局部注意力模块13则将特征中每一个元素与其临近的其他元素进行关联,使得深度信息在最终输出的时候变得连贯合理,有效提高模型的精度。
所述上采样模块15用于将具有与全局信息关联和局部信息关联的高维度特征的特征图转换为单通道深度图。从而实现整个算法端对端的输出——从三通道的彩色图到单通道的深度图。
在本实施例中,所述上采样模块结构如表1所示。
表1:上采样模块结构
所述评估模块15用于计算单通道深度图中每一像素与单通道深度图对应位置归一化的深度值的损失。在本实施例中,使用cross-entropy loss作为损失函数。
所述循环训练模块16用于循环训练所述全局注意力提取模块12、局部注意力提取模块13及上采样模块14,待所述评估模块15计算的深度值的损失不再下降时,表示该单目深度的估计系统为最优模型。
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如:x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现。此外,x模块也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),一个或多个微处理器(Digital Singnal Processor,简称DSP),一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起,以片上系统(System-on-a-chip,简称SOC)的形式实现。
本实施例所述单目深度的估计系统具有以下有益效果:
第一,本实施例使用了孪生网络的结构的同时,结合一定图像间隔帧数的图像输入方式,在神经网络中模拟双目视觉的视差,在一定程度上降低单目视觉尺度漂移的现象,够提高了网络鲁棒性,降低对相机和场景的依赖性。
第二,本实施例在单目深度估计问题中,使用了语义问题中常用的双向长短期记忆网络作为注意力模块,创新性地从图像的多个方向将上下文信息带给每个像素,提出了一种新颖的全局注意力机制;同时结合局部注意力机制,大大提高了网络对彩色图像中深度信息的提取;同时引入多尺度的网络机制,增大网络在浅层特征图中的感受能力,保留了更多的语义信息。
实施例二
本实施例提供一种单目深度的估计方法,包括:
步骤一,对源于视频序列中的单帧图像进行初步特征提取,以将所述单帧图像中的视觉特征转换为包含图像真实深度的高维度特征;
步骤二,利用预存的递归神经网络,使所述高维度特征中每个元素与所述高维度特征的全局信息关联;
步骤三,将所述高维度特征中每个元素与所述高维度特征的局部信息关联;
步骤四,将具有与全局信息关联和局部信息关联的高维度特征的特征图转换为单通道深度图。
以下将结合图示对本实施例所提供的单目深度的估计方法进行详细描述。请参阅图6,显示为单目深度的估计方法于一实施例中的流程示意图。如图6所示,所述单目深度的估计方法具体包括以下步骤:
S61,对源于视频序列中的单帧图像进行初步特征提取,以将所述单帧图像中的视觉特征转换为包含图像真实深度的高维度特征。
具体地,S61包括对源于视频序列中的单帧图像进行初步特征提取,将低维度彩色图像中带有深度信息的视觉特征通过预存的浅层神经网络后,转换为所述高维度特征;利用所述浅层神经网络的下采样层保持所述视觉特征的维度不变,并将该视觉特征与经过所述浅层神经网络的池化层的高维度特征进行跨接及特征融合。
S62,利用预存于所述全局注意力提取模块中的递归神经网络,使所述高维度特征中每个元素与所述高维度特征的全局信息关联。
具体地,所述S62利用预存有两个双向递归神经网络,将所述高维度特征中每个元素经过第一个双向递归神经网络后,连接每个元素的两个隐藏状态,使得每个元素记忆位于其左部右部的上下文信息;将经过第一个双向递归神经网络后高维度特征通过第二个双向递归神经网络,使得每个元素记忆位于其顶部底部的上下文信息;将包含左部右部的上下文信息和顶部底部的上下文信息的高维度特征中每个元素通过激活函数归一化为全局的注意力权重;将全局的注意力权重于输入的张量进行点乘,以获取所述高维度特征的全局信息。
S63,将所述高维度特征中每个元素与所述高维度特征的局部信息关联。
具体地,所述S63将所述高维度特征的每个元素的特征向量通过激活函数归一化局部的注意力权重,将局部的注意力权重于输入的张量进行点乘,以获取所述高维度特征的局部信息。在本实施例中,所述S63实现了特征每一个元素和全局映射的关联,将高维度特征中每一个元素与其临近的其他元素进行关联,使得深度信息在最终输出的时候变得连贯合理,有效提高模型的精度。
S64,将具有与全局信息关联和局部信息关联的高维度特征的特征图转换为单通道深度图。
S65,计算单通道深度图中每一像素与单通道深度图对应位置归一化的深度值的损失。
S66,循环训练S62-S64,待计算的深度值的损失不再下降时,停止运行所述单目深度的估计方法。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述单目深度的估计方法。
实施例三
本实施例提供一种估计设备,所述估计设备包括:处理器、存储器、收发器、通信接口或/和系统总线;存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于和其他设备进行通信,处理器和收发器用于运行计算机程序,使估计设备执行如上所述单目深度的估计方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明所述的单目深度的估计方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本发明还提供一种单目深度的估计系统,所述单目深度的估计系统可以实现本发明所述的单目深度的估计方法,但本发明所述的单目深度的估计方法的实现装置包括但不限于本实施例列举的单目深度的估计系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
综上所述,本发明所述单目深度的估计系统、方法、设备及计算机可读存储介质具有以下有益效果:
第一,本发明使用了孪生网络的结构的同时,结合一定图像间隔帧数的图像输入方式,在神经网络中模拟双目视觉的视差,在一定程度上降低单目视觉尺度漂移的现象,够提高了网络鲁棒性,降低对相机和场景的依赖性。
第二,本发明在单目深度估计问题中,使用了语义问题中常用的双向长短期记忆网络作为注意力模块,创新性地从图像的多个方向将上下文信息带给每个像素,提出了一种新颖的全局注意力机制;同时结合局部注意力机制,大大提高了网络对彩色图像中深度信息的提取;同时引入多尺度的网络机制,增大网络在浅层特征图中的感受能力,保留了更多的语义信息。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种单目深度的估计系统,其特征在于,包括:
特征初始提取模块,用于对源于视频序列中的单帧图像进行初步特征提取,以将所述单帧图像中的视觉特征转换为包含图像真实深度的高维度特征;
全局注意力提取模块,用于利用预存于所述全局注意力提取模块中的递归神经网络,使所述高维度特征中每个元素与所述高维度特征的全局信息关联;
局部注意力提取模块,用于将所述高维度特征中每个元素与所述高维度特征的局部信息关联;
上采样模块,用于将具有与全局信息关联和局部信息关联的高维度特征的特征图转换为单通道深度图。
2.根据权利要求1所述的单目深度的估计系统,其特征在于,所述特征初始提取模块对源于视频序列中的单帧图像进行初步特征提取,将低维度彩色图像中带有深度信息的视觉特征通过预存的浅层神经网络后,转换为所述高维度特征。
3.根据权利要求2所述的单目深度的估计系统,其特征在于,所述特征初始提取模块还用于利用所述浅层神经网络的下采样层保持所述视觉特征的维度不变,并将该视觉特征与经过所述浅层神经网络的池化层的高维度特征进行跨接及特征融合。
4.根据权利要求1所述的单目深度的估计系统,其特征在于,所述全局注意力提取模块中预存有两个双向递归神经网络;将所述高维度特征中每个元素经过第一个双向递归神经网络后,连接每个元素的两个隐藏状态,使得每个元素记忆位于其左部右部的上下文信息;将经过第一个双向递归神经网络后高维度特征通过第二个双向递归神经网络,使得每个元素记忆位于其顶部底部的上下文信息;将包含左部右部的上下文信息和顶部底部的上下文信息的高维度特征中每个元素通过激活函数归一化为全局的注意力权重;将全局的注意力权重于输入的张量进行点乘,以获取所述高维度特征的全局信息。
5.根据权利要求4所述的单目深度的估计系统,其特征在于,所述局部注意力提取模块将所述高维度特征的每个元素的特征向量通过激活函数归一化局部的注意力权重,将局部的注意力权重于输入的张量进行点乘,以获取所述高维度特征的局部信息。
6.根据权利要求4所述的单目深度的估计系统,其特征在于,所述单目深度的估计系统还包括:
评估模块,用于计算单通道深度图中每一像素与单通道深度图对应位置归一化的深度值的损失;
循环训练模块,用于循环训练所述全局注意力提取模块、局部注意力提取模块及上采样模块,待所述评估模块计算的深度值的损失不再下降时,表示该单目深度的估计系统为最优模型。
7.一种单目深度的估计方法,其特征在于,包括:
步骤一,对源于视频序列中的单帧图像进行初步特征提取,以将所述单帧图像中的视觉特征转换为包含图像真实深度的高维度特征;
步骤二,利用预存的递归神经网络,使所述高维度特征中每个元素与所述高维度特征的全局信息关联;
步骤三,将所述高维度特征中每个元素与所述高维度特征的局部信息关联;
步骤四,将具有与全局信息关联和局部信息关联的高维度特征的特征图转换为单通道深度图。
8.根据权利要求7所述的单目深度的估计方法,其特征在于,所述单目深度的估计方法还包括:
计算单通道深度图中每一像素与单通道深度图对应位置归一化的深度值的损失;
循环训练步骤二至步骤四,待计算的深度值的损失不再下降时,停止运行所述单目深度的估计方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求7至8中任一项所述单目深度的估计方法。
10.一种单目深度的估计设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述估计设备执行如权利要求7至8中任一项所述单目深度的估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357622.1A CN112446328B (zh) | 2020-11-27 | 2020-11-27 | 单目深度的估计系统、方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357622.1A CN112446328B (zh) | 2020-11-27 | 2020-11-27 | 单目深度的估计系统、方法、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446328A true CN112446328A (zh) | 2021-03-05 |
CN112446328B CN112446328B (zh) | 2023-11-17 |
Family
ID=74737695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011357622.1A Active CN112446328B (zh) | 2020-11-27 | 2020-11-27 | 单目深度的估计系统、方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446328B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313742A (zh) * | 2021-05-06 | 2021-08-27 | Oppo广东移动通信有限公司 | 图像深度估计方法、装置、电子设备及计算机存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108765481A (zh) * | 2018-05-25 | 2018-11-06 | 亮风台(上海)信息科技有限公司 | 一种单目视频的深度估计方法、装置、终端和存储介质 |
CN108961327A (zh) * | 2018-05-22 | 2018-12-07 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN109035319A (zh) * | 2018-07-27 | 2018-12-18 | 深圳市商汤科技有限公司 | 单目图像深度估计方法及装置、设备、程序及存储介质 |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN110766732A (zh) * | 2019-10-22 | 2020-02-07 | 杭州凌像科技有限公司 | 一种鲁棒的单相机深度图估计方法 |
CN110956655A (zh) * | 2019-12-09 | 2020-04-03 | 清华大学 | 一种基于单目图像的稠密深度估计方法 |
CN111062274A (zh) * | 2019-12-02 | 2020-04-24 | 汇纳科技股份有限公司 | 上下文感知嵌入的人群计数方法、系统、介质及电子设备 |
CN111127557A (zh) * | 2019-12-13 | 2020-05-08 | 中国电子科技集团公司第二十研究所 | 一种基于深度学习的视觉slam前端位姿估计方法 |
US20200160546A1 (en) * | 2018-11-16 | 2020-05-21 | Nvidia Corporation | Estimating depth for a video stream captured with a monocular rgb camera |
US20200226777A1 (en) * | 2018-02-01 | 2020-07-16 | Shenzhen Sensetime Technology Co., Ltd. | Depth estimation method and apparatus, electronic device, program, and medium |
CN111881804A (zh) * | 2020-07-22 | 2020-11-03 | 汇纳科技股份有限公司 | 基于联合训练的姿态估计模型训练方法、系统、介质及终端 |
-
2020
- 2020-11-27 CN CN202011357622.1A patent/CN112446328B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200226777A1 (en) * | 2018-02-01 | 2020-07-16 | Shenzhen Sensetime Technology Co., Ltd. | Depth estimation method and apparatus, electronic device, program, and medium |
CN108961327A (zh) * | 2018-05-22 | 2018-12-07 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
WO2019223382A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳市商汤科技有限公司 | 单目深度估计方法及其装置、设备和存储介质 |
CN108765481A (zh) * | 2018-05-25 | 2018-11-06 | 亮风台(上海)信息科技有限公司 | 一种单目视频的深度估计方法、装置、终端和存储介质 |
CN109035319A (zh) * | 2018-07-27 | 2018-12-18 | 深圳市商汤科技有限公司 | 单目图像深度估计方法及装置、设备、程序及存储介质 |
US20200160546A1 (en) * | 2018-11-16 | 2020-05-21 | Nvidia Corporation | Estimating depth for a video stream captured with a monocular rgb camera |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
CN110766732A (zh) * | 2019-10-22 | 2020-02-07 | 杭州凌像科技有限公司 | 一种鲁棒的单相机深度图估计方法 |
CN111062274A (zh) * | 2019-12-02 | 2020-04-24 | 汇纳科技股份有限公司 | 上下文感知嵌入的人群计数方法、系统、介质及电子设备 |
CN110956655A (zh) * | 2019-12-09 | 2020-04-03 | 清华大学 | 一种基于单目图像的稠密深度估计方法 |
CN111127557A (zh) * | 2019-12-13 | 2020-05-08 | 中国电子科技集团公司第二十研究所 | 一种基于深度学习的视觉slam前端位姿估计方法 |
CN111881804A (zh) * | 2020-07-22 | 2020-11-03 | 汇纳科技股份有限公司 | 基于联合训练的姿态估计模型训练方法、系统、介质及终端 |
Non-Patent Citations (1)
Title |
---|
岑仕杰;何元烈;陈小聪;: "结合注意力与无监督深度学习的单目深度估计", 广东工业大学学报, no. 04 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313742A (zh) * | 2021-05-06 | 2021-08-27 | Oppo广东移动通信有限公司 | 图像深度估计方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112446328B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Panek et al. | Meshloc: Mesh-based visual localization | |
WO2019227479A1 (zh) | 人脸旋转图像的生成方法及装置 | |
US11875424B2 (en) | Point cloud data processing method and device, computer device, and storage medium | |
CN112258565B (zh) | 图像处理方法以及装置 | |
CN112990010A (zh) | 点云数据处理方法、装置、计算机设备和存储介质 | |
CN111797881A (zh) | 图像分类方法及装置 | |
WO2022165722A1 (zh) | 单目深度估计方法、装置及设备 | |
EP4318313A1 (en) | Data processing method, training method for neural network model, and apparatus | |
EP4293628A1 (en) | Image processing method and related apparatus | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
CN114219855A (zh) | 点云法向量的估计方法、装置、计算机设备和存储介质 | |
John et al. | Automatic calibration and registration of lidar and stereo camera without calibration objects | |
Sun et al. | A fast underwater calibration method based on vanishing point optimization of two orthogonal parallel lines | |
CN116385660A (zh) | 室内单视图场景语义重建方法及系统 | |
CN116468793A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN118261979A (zh) | 一种基于几何信息增强的类别级6d姿态估计方法 | |
Zuo et al. | Accurate depth estimation from a hybrid event-RGB stereo setup | |
CN112446328A (zh) | 单目深度的估计系统、方法、设备及计算机可读存储介质 | |
WO2023241372A1 (zh) | 相机内参标定方法及相关设备 | |
WO2023197938A1 (zh) | 动态场景处理方法、神经网络模型训练方法和装置 | |
CN115496788A (zh) | 一种使用空域传播后处理模块的深度补全方法 | |
CN112801201B (zh) | 一种基于标准化的深度学习视觉惯导组合导航设计方法 | |
CN113435243B (zh) | 一种高光谱真实下采样模糊核估计方法 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
CN115249269A (zh) | 目标检测方法、计算机程序产品、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 201203 No. 6, Lane 55, Chuanhe Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Applicant after: Winner Technology Co.,Ltd. Address before: 201505 Room 216, 333 Tingfeng Highway, Tinglin Town, Jinshan District, Shanghai Applicant before: Winner Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |