CN113096175B - 一种基于卷积神经网络的深度图置信度估计方法 - Google Patents
一种基于卷积神经网络的深度图置信度估计方法 Download PDFInfo
- Publication number
- CN113096175B CN113096175B CN202110313028.0A CN202110313028A CN113096175B CN 113096175 B CN113096175 B CN 113096175B CN 202110313028 A CN202110313028 A CN 202110313028A CN 113096175 B CN113096175 B CN 113096175B
- Authority
- CN
- China
- Prior art keywords
- diagram
- confidence
- convolution
- depth map
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 16
- 238000010586 diagram Methods 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims abstract description 22
- 230000015654 memory Effects 0.000 claims abstract description 14
- 238000007670 refining Methods 0.000 claims abstract description 7
- 239000010410 layer Substances 0.000 claims description 26
- 238000010606 normalization Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 4
- 238000012805 post-processing Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000013441 quality evaluation Methods 0.000 abstract 1
- 238000013507 mapping Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Abstract
本发明公开了一种基于卷积神经网络的深度图置信度估计方法,用于多目立体匹配算法所生成深度图的质量评估和后处理操作,该方法包括如下步骤:由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图;利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取,得到特征图;使用卷积长短时记忆结构、预测模块、细化模块和多监督方法由所述特征图预测深度图的置信度并细化估计结果。本发明能对各种多目立体匹配算法所生成的深度图进行质量评估,能鲁棒地估计出多目立体匹配中的深度图置信度,以利于多目立体匹配算法的评估和对深度图的后处理。
Description
技术领域
本发明涉及计算机视觉与深度学习领域,具体是一种利用卷积神经网络对多视立体匹配中的中间结果进行特征提取及置信度预测,以完成对深度图的质量评估。
背景技术
深度图质量评估是计算机视觉领域的一个基本课题,目前基于深度学习的方法基于单目或双目立体匹配输出的深度图和原始彩色图,构建卷积神经网络预测得到置信度图,这种方法无法充分利用多目立体匹配得到的多模态数据,并且由于网络结构简单而产生较低的精度。
发明内容
本发明的目的是为了解决现有技术的不足,提供一种基于卷积神经网络的深度图置信度估计方法,从多视立体匹配算法所估计的中间结果中提取特征并预测深度图置信度的技术问题。
为了实现以上目的,本发明所述的一种基于卷积神经网络的深度图置信度估计方法,该方法的具体步骤如下:
一种基于卷积神经网络的深度图置信度估计方法,该方法的具体步骤如下:
由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图;
利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取,得到特征图;
使用卷积长短时记忆结构、预测模块、和细化模块由所述特征图预测深度图的置信度并通过多监督方法细化估计结果。
进一步地,所述由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图,包括:
像素和其4-邻域构成局部窗口,假设窗口内的点所对应的三维点在同一个平面上,则从所述三维点构成的向量中,任选两个不在同一平面的向量进行叉乘,即得到所述像素对应的法线;
多目立体匹配的几何误差用三维点的Z坐标与平面深度之差来表示,所述几何误差是三维点到平面的距离的近似,将几何误差映射到预设范围内,并加权处理,使用逆深度来计算截断符号距离函数图。
进一步地,所述U型网络结构提取图像的高层次语义信息,包括编码和解码两个部分,每个编码子模块包括卷积、批归一化、非线性激活和最大池化四个操作,每个解码子模块包括转置卷积、卷积、批归一化和非线性激活四个操作。
进一步地,所述利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取,得到特征图,包括:
(a)对输入图像进行编码:每个编码子模块的输入为前一个子模块的输出,经过每个子模块后输出特征图的高和宽各缩小到输入的1/2,通道数增加到输入的2倍,保留每个子模块的卷积结果用于解码;
(b)对编码模块的输出进行解码:每个解码子模块的输入为前一个子模块的输出,经过每个子模块后输入特征图的高和宽各增加到输入的2倍,通道数减小到输入的1/2。
进一步地,所述使用卷积长短时记忆结构、预测模块、和细化模块由所述特征图预测深度图的置信度,包括:多次迭代,在每次迭代中,使用卷积长短时记忆结构保留特征图在多次迭代时的长时和短时记忆,之后使用卷积层构成的预测模块得到每次迭代的置信度图,使用由卷积层构成的细化模块对预测得到的结果进行细化。
进一步地,迭代地从特征图中预测并细化置信度图,将U型网络结构提取到的U-Net特征作为固定参考信息,每轮迭代中,将U-Net特征和上一轮迭代的预测输出串联,作为本次迭代的输入,然后依次经过卷积长短时记忆结构、预测模块、和细化模块;
循环上述卷积长短时记忆结构、预测模块、和细化模块多次得到细化后的置信度图,在不同次迭代间共享模块的权重;
在首轮迭代中将预测输出初始化为像素值为0的图,在最后一轮迭代中只使用卷积长短时记忆结构和预测模块来获取预测结果。
进一步地,所述卷积长短时记忆结构用于处理序列数据,基础结构是元胞,元胞内包括遗忘门、输入门和输出门,分别决定该元胞需要遗忘、存储和输出的信息。
进一步地,所述细化模块由多个卷积层构成,输入是每轮迭代的预测结果,输出是由预测结果提取到的新特征,将所述新特征和U型网络结构提取到的U-Net特征串联作为新一轮预测的输入。
进一步地,所述细化模块的具体操作步骤为:
细化模块对预测模块的结果进行细化,每个卷积层包括卷积、批归一化和非线性激活操作;
细化模块对单通道置信度图进行特征再提取,第一个卷积层从单通道置信度图中提取出多通道信息,之后的卷积层不再改变通道数,只编码关于置信度图的高层次信息。
进一步地,所述通过多监督方法细化估计结果,包括:
监督最终预测的置信度图,以及单独对U型网络结构解码后的特征进行监督:对U型网络结构输出结果做单层卷积、批归一化和sigmoid激活,得到由U型网络结构直接预测到的置信度图,最后分别由所述U型网络结构直接预测到的置信度图和所述最终预测的置信度图计算交叉熵损失函数,根据结果调整两者权重。
本发明的优点在于:本发明能对各种多目立体匹配算法所生成的深度图进行质量评估,能鲁棒地估计出多目立体匹配中的深度图置信度,以利于多目立体匹配算法的评估和对深度图的后处理。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1根据本发明实施方式的一种基于卷积神经网络的深度图置信度方法流程图;
图2为根据本发明实施方式的U-Net结构图;
图3为根据本发明实施方式的由U-Net结构预测得到的初始置信度图;
图4为根据本发明实施方式的对convLSTM的元胞结构图;
图5为根据本发明实施方式的由预测及细化模块得到的最终置信度图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提出基于多目立体匹配的深度图置信度估计网络初步解决了该问题,利用U型网络(U-Net)结构对多目立体匹配算法生成的截断符号距离函数图(tsdf)、彩色图和法线图进行特征提取,利用卷积长短时记忆(convLSTM)和预测模块由特征图预测深度图的置信度,利用细化模块和多监督方法改善估计效果。
U-Net结构是一种经典的编码-解码结构,编码结构能识别到图像的多尺度特征,解码结构能恢复图像的细节并进一步提取任务导向的特征,由于是全卷积网络,U-Net能充分利用图像的全局信息。U-Net结构的编码模块由多个编码子模块构成,其中卷积操作对图像进行特征提取,降采样操作逐步减小通道数量,解码模块逐步修复物体的细节并恢复空间维度,解码模块由多个解码子模块构成,每个子模块包括转置卷积、卷积、批归一化和非线性激活四个操作。每个编码子模块卷积后的特征图通过跳跃连接(skip connection)连接到相应的解码子模块中,以保留原始图像的细节信息。
长短时记忆网络,即convLSTM网络用于处理序列数据,解决了神经网络的长时依赖问题,convLSTM的基础结构是元胞,每个元胞的输入包含当前时刻网络的输入值、上一时刻元胞的输出值和上一时刻元胞的状态,元胞内包括遗忘门、输入门和输出门,分别决定该元胞需要遗忘、存储和输出的信息。convLSTM是LSTM在图像处理中的应用,将经典LSTM中的全连接层转变为卷积层,能更加针对性的提取图像特征。
如图1所示,本发明所述的一种基于卷积神经网络的深度图置信度方法,该方法的具体步骤如下:
步骤一:由多目立体匹配算法生成的深度图计算tsdf和法线图;
(1.1):法线图:假设像素点和其4-邻域对应的三维点在同一个平面上,则从这些三维点构成的向量中,任选两个不在同一平面的向量进行叉乘,即得到该像素对应的法线。
(1.2):tsdf:多目立体匹配的几何误差可用三维点的Z坐标与平面深度之差来表示,该值是三维点到平面的距离的近似,为了增强该评价指标在实际应用中的鲁棒性,将该值映射到一定范围内,并加权处理。为缓解多目立体匹配中的尺度差异问题,使用逆深度来计算tsdf。
步骤二:利用U-Net结构对tsdf、彩色图和法线图进行特征提取;
(1):对原始图像进行编码:包括四个编码子模块,每个子模块包括卷积、批归一化、非线性激活和最大池化四个操作。输入为来自tsdf、彩色图和法线图三个模态的卷积特征,每个模态包含64维特征,在每个子模块内,首先经过3x3卷积扩大感受野,为了保证输出图像的空间维度不变,采用1像素的常量填充,同时输入的通道数增加到原来的2倍;然后通过经过批归一化对每个批次的数据计算均值和方差,利用均值和方差对数据进行归一化处理,使得卷积层的输出更接近真实的分布,缓解梯度弥散问题并加快训练的收敛;之后经过ReLU函数将输出映射到[0,+∞]范围内,增加网络的非线性表达能力;最后利用步长为2的最大池化对特征图进行降采样。每个编码子模块的输入为前一个子模块的输出,经过每个子模块后输出特征图的高和宽各缩小到输入的1/2,通道数增加到输入的2倍,为了减少图像细节的损失,保留每个子模块的卷积结果用于解码。
(2):对编码模块的输出进行解码:包括四个解码子模块,每个子模块包括转置卷积、卷积、批归一化和非线性激活四个操作。在每个子模块内,首先经过步长为2、卷积核为3x3的转置卷积对输入特征进行上采样,为了保证图像的空间维度不变,对输入填充1像素,输出填充1像素;之后将上采样结果和对应编码子模块中的卷积结果进行通道级的连接;之后通过3x3的卷积提取这两部分的信息,为了保证输出维度不变,对输入填充1像素,同时将图像通道数缩减到和对应编码子模块相同的数量;然后通过经过批归一化对每个批次的数据计算均值和方差,利用均值和方差对数据进行归一化处理,使得卷积层的输出更接近真实的分布,缓解梯度弥散问题并加快训练的收敛;之后经过ReLU函数将输出映射到[0,+∞]范围内,增加网络的非线性表达能力。每个解码子模块的输入为前一个子模块的输出,经过每个子模块后输入特征图的高和宽各增加到输入的2倍,通道数减小到输入(不包含skipconnection部分)的1/2。
步骤三:使用convLSTM结构、预测模块、细化模块和多监督方法对特征图进行预测;
(1)通过三次迭代从特征图中预测并细化置信度图,将U-Net结构提取到的特征作为固定参考信息,每轮迭代中,将U-Net特征和上一轮迭代的预测输出串联,作为本次迭代的输入,然后依次经过convLSTM模块、预测模块和细化模块。特别地,在首轮迭代中将预测输出初始化为像素值全为0的图,在最后一轮迭代中只经过convLSTM模块和预测模块来获取预测结果。具体步骤为:
(1.1):使用convLSTM保留迭代中的长短时信息,convLSTM模块为一个convLSTM元胞,元胞中保留着两个值:元胞在上一次的输出ht-1和上一次的状态Ct-1。元胞首先将本次迭代的输入xt和元胞上一次的输出ht-1通过由卷积和激活函数构成的遗忘门、输入门和输出门,卷积核大小为3x3,为了保证输出图像的空间维度不变,对输入填充1像素,三个门操作分别决定该元胞需要遗忘、存储和输出的信息,t在本发明中为迭代的次数:
ft=σ(Wxfxt+bxf+Whfht-1+bhf)
gt=tanh(Wxgxt+bxg+Whght-1+bhg)
it=σ(Wxixt+bxi+Whiht-1+bhi)
ot=σ(Wxoxt+bxo+Whoht-1+bho)
其中遗忘门得到保留上一次状态的权重ft,Wxf、bxf分别表示计算遗忘门时xt的卷积权重和偏置,Whf、bhf分别表示计算遗忘门时ht-1的卷积权重和偏置;输入门预测两个值:gt、it,分别是新预测的候选状态和保留该状态的权重,将该候选状态和上一次的状态加权求和可得到本轮的状态Ct=ftCt-1+itgt,Wxg、bxg分别表示计算输入门的候选状态时xt的卷积权重和偏置,Whg、bhg分别表示计算输入门的候选状态时ht-1的卷积权重和偏置,Wxi、bxi分别表示计算输入门的权重时xi的卷积权重和偏置,Whi、bhi分别表示计算输入门的权重时ht-1的卷积权重和偏置;输出门决定输出内容的权重ot,Wxo、bxo分别表示计算遗忘门时xt的卷积权重和偏置,Who、bho分别表示计算遗忘门时ht-1的卷积权重和偏置,将ot和经tanh激活的本轮状态点乘作为该元胞本轮的输出ht=ottanh(Ct)。元胞通过保留短时的输出和长时的状态,缓解了每轮迭代中的长时依赖问题。
(1.2):使用预测模块将特征预测为置信度图,预测模块由多个卷积层串联而成,每个卷积层包括卷积、批归一化和非线性激活操作,在第一个卷积层内,使用3x3卷积核将128通道的输入特征转化为64通道,为保证图像空间维度不变填充1像素,然后使用ReLU激活函数,在第二个卷积层内,使用3x3卷积核对图像卷积,填充1像素,输出通道数不变,之后使用ReLU激活函数,在第三个卷积层内,使用1x1卷积核提取单像素特征,并输出单通道的图像,经过sigmoid函数激活,将输出映射到[0,1]范围内得到置信度图,每个卷积层在卷积后都使用批归一化操作来加速收敛。
(1.3):使用细化模块对预测模块的结果进行细化,细化模块由多个卷积层串联而成,每个卷积层包括卷积、批归一化和非线性激活操作。细化模块对单通道置信度图进行特征再提取,第一个卷积层使用3x3卷积核从置信度图中提取64通道特征,为保证图像空间维度不变填充1像素,第二个卷积层使用3x3卷积核,填充1像素,输出通道数不变,只编码关于置信度图的高层次信息。
循环上述模块多次可得到细化后的置信度图,考虑到数据在不同迭代中语义信息相似,因此在不同次迭代间共享模块的权重。
(2)使用多监督方法分别对细化前后的结果施加监督。由于网络模块较多,为了避免网络训练出现过拟合现象,除了监督最终预测的置信度图外,还单独对U-Net解码后的特征进行监督:对U-Net输出结果做单层卷积、批归一化和sigmoid激活,得到由U-Net直接预测到的置信度图,最后分别由该图、最终置信度图与真实置信度计算交叉熵损失函数:
A=-w1[x*logx1+(1-x*)log(1-x1)]-w2[x*logx2+(1-x*)log(1-x2)]
其中x1分别表示U-Net预测得到的置信度图,w1表示由其计算的loss占最终loss的比例,x2表示由网络最终预测得到的置信度图,w2表示由其计算的loss占最终loss的比例,x*表示真实置信度,在实验中根据结果调整两者权重。
本发明能对各种多目立体匹配算法所生成的深度图进行质量评估,能鲁棒地估计出多目立体匹配中的深度图置信度,以利于多目立体匹配算法的评估和对深度图的后处理。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种基于卷积神经网络的深度图置信度估计方法,其特征在于:该方法的具体步骤如下:
由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图;
利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取,得到特征图;
使用卷积长短时记忆结构、预测模块和细化模块由所述特征图预测深度图的置信度,包括:多次迭代,在每次迭代中,使用卷积长短时记忆结构保留特征图在多次迭代时的长时和短时记忆,之后使用卷积层构成的预测模块得到每次迭代的置信度图,使用由卷积层构成的细化模块对预测得到的结果进行细化;所述卷积长短时记忆结构用于处理序列数据,基础结构是元胞,元胞内包括遗忘门、输入门和输出门,分别决定该元胞需要遗忘、存储和输出的信息;所述细化模块由多个卷积层构成,输入是每轮迭代的预测结果,输出是由预测结果提取到的新特征,将所述新特征和U型网络结构提取到的U-Net特征串联作为新一轮预测的输入;
通过多监督方法细化估计结果。
2.根据权利要求1所述的一种基于卷积神经网络的深度图置信度估计方法,其特征在于:
所述由多目立体匹配算法生成的深度图计算截断符号距离函数图和法线图,包括:
像素和其4-邻域构成局部窗口,假设窗口内的点所对应的三维点在同一个平面上,则从所述三维点构成的向量中,任选两个不在同一平面的向量进行叉乘,即得到所述像素对应的法线;
多目立体匹配的几何误差用三维点的Z坐标与平面深度之差来表示,所述几何误差是三维点到平面的距离的近似,将几何误差映射到预设范围内,并加权处理,使用逆深度来计算截断符号距离函数图。
3.根据权利要求1所述的一种基于卷积神经网络的深度图置信度估计方法,其特征在于:
所述U型网络结构提取图像的高层次语义信息,包括编码和解码两个部分,每个编码子模块包括卷积、批归一化、非线性激活和最大池化四个操作,每个解码子模块包括转置卷积、卷积、批归一化和非线性激活四个操作。
4.根据权利要求3所述的一种基于卷积神经网络的深度图置信度估计方法,其特征在于:
所述利用U型网络结构对所述截断符号距离函数图、法线图和彩色图进行特征提取,得到特征图,包括:
(a)对输入图像进行编码:每个编码子模块的输入为前一个子模块的输出,经过每个子模块后输出特征图的高和宽各缩小到输入的1/2,通道数增加到输入的2倍,保留每个子模块的卷积结果用于解码;
(b)对编码模块的输出进行解码:每个解码子模块的输入为前一个子模块的输出,经过每个子模块后输入特征图的高和宽各增加到输入的2倍,通道数减小到输入的1/2。
5.根据权利要求1所述的一种基于卷积神经网络的深度图置信度估计方法,其特征在于:
迭代地从特征图中预测并细化置信度图,将U型网络结构提取到的U-Net特征作为固定参考信息,每轮迭代中,将U-Net特征和上一轮迭代的预测输出串联,作为本次迭代的输入,然后依次经过卷积长短时记忆结构、预测模块、和细化模块;
循环上述卷积长短时记忆结构、预测模块和细化模块多次得到细化后的置信度图,在不同次迭代间共享模块的权重;
在首轮迭代中将预测输出初始化为像素值为0的图,在最后一轮迭代中只使用卷积长短时记忆结构和预测模块来获取预测结果。
6.根据权利要求1所述的一种基于卷积神经网络的深度图置信度估计方法,其特征在于:
所述细化模块的具体操作步骤为:
细化模块对预测模块的结果进行细化,每个卷积层包括卷积、批归一化和非线性激活操作;
细化模块对单通道置信度图进行特征再提取,第一个卷积层从单通道置信度图中提取出多通道信息,之后的卷积层不再改变通道数,只编码关于置信度图的高层次信息。
7.根据权利要求1所述的一种基于卷积神经网络的深度图置信度估计方法,其特征在于:
所述通过多监督方法细化估计结果,包括:
监督最终预测的置信度图,以及单独对U型网络结构解码后的特征进行监督:对U型网络结构输出结果做单层卷积、批归一化和sigmoid激活,得到由U型网络结构直接预测到的置信度图,最后分别由所述U型网络结构直接预测到的置信度图和所述最终预测的置信度图计算交叉熵损失函数,根据结果调整两者权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110313028.0A CN113096175B (zh) | 2021-03-24 | 2021-03-24 | 一种基于卷积神经网络的深度图置信度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110313028.0A CN113096175B (zh) | 2021-03-24 | 2021-03-24 | 一种基于卷积神经网络的深度图置信度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113096175A CN113096175A (zh) | 2021-07-09 |
CN113096175B true CN113096175B (zh) | 2023-10-24 |
Family
ID=76669715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110313028.0A Active CN113096175B (zh) | 2021-03-24 | 2021-03-24 | 一种基于卷积神经网络的深度图置信度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113096175B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743194B (zh) * | 2021-07-23 | 2024-02-02 | 北京眼神智能科技有限公司 | 人脸静默活体检测方法、装置、电子设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654492A (zh) * | 2015-12-30 | 2016-06-08 | 哈尔滨工业大学 | 基于消费级摄像头的鲁棒实时三维重建方法 |
CN107767413A (zh) * | 2017-09-20 | 2018-03-06 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
KR101854048B1 (ko) * | 2016-11-25 | 2018-05-02 | 연세대학교 산학협력단 | 스테레오 매칭 깊이맵의 신뢰도 측정 방법 및 장치 |
CN108416840A (zh) * | 2018-03-14 | 2018-08-17 | 大连理工大学 | 一种基于单目相机的三维场景稠密重建方法 |
US10452960B1 (en) * | 2018-10-01 | 2019-10-22 | Texas Instruments Incorporated | Image classification |
CN111028281A (zh) * | 2019-10-22 | 2020-04-17 | 清华大学 | 基于光场双目系统的深度信息的计算方法及装置 |
CN111028285A (zh) * | 2019-12-03 | 2020-04-17 | 浙江大学 | 基于双目视觉和激光雷达融合的深度估计方法 |
US10726279B1 (en) * | 2019-01-31 | 2020-07-28 | StradVision, Inc. | Method and device for attention-driven resource allocation by using AVM and reinforcement learning to thereby achieve safety of autonomous driving |
CN111709517A (zh) * | 2020-06-12 | 2020-09-25 | 武汉中海庭数据技术有限公司 | 一种基于置信度预测系统的冗余融合定位增强的方法和装置 |
CN111915619A (zh) * | 2020-06-05 | 2020-11-10 | 华南理工大学 | 一种双特征提取与融合的全卷积网络语义分割方法 |
CN112052830A (zh) * | 2020-09-25 | 2020-12-08 | 北京百度网讯科技有限公司 | 人脸检测的方法、装置和计算机存储介质 |
CN112233160A (zh) * | 2020-10-15 | 2021-01-15 | 杭州知路科技有限公司 | 一种基于双目摄像头的实时深度及置信度的预测方法 |
WO2021013334A1 (en) * | 2019-07-22 | 2021-01-28 | Toyota Motor Europe | Depth maps prediction system and training method for such a system |
CN112488104A (zh) * | 2020-11-30 | 2021-03-12 | 华为技术有限公司 | 深度及置信度估计系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135710B2 (en) * | 2012-11-30 | 2015-09-15 | Adobe Systems Incorporated | Depth map stereo correspondence techniques |
US10375378B2 (en) * | 2017-12-12 | 2019-08-06 | Black Sesame International Holding Limited | Dual camera system for real-time depth map generation |
-
2021
- 2021-03-24 CN CN202110313028.0A patent/CN113096175B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654492A (zh) * | 2015-12-30 | 2016-06-08 | 哈尔滨工业大学 | 基于消费级摄像头的鲁棒实时三维重建方法 |
KR101854048B1 (ko) * | 2016-11-25 | 2018-05-02 | 연세대학교 산학협력단 | 스테레오 매칭 깊이맵의 신뢰도 측정 방법 및 장치 |
CN107767413A (zh) * | 2017-09-20 | 2018-03-06 | 华南理工大学 | 一种基于卷积神经网络的图像深度估计方法 |
CN108416840A (zh) * | 2018-03-14 | 2018-08-17 | 大连理工大学 | 一种基于单目相机的三维场景稠密重建方法 |
US10452960B1 (en) * | 2018-10-01 | 2019-10-22 | Texas Instruments Incorporated | Image classification |
US10726279B1 (en) * | 2019-01-31 | 2020-07-28 | StradVision, Inc. | Method and device for attention-driven resource allocation by using AVM and reinforcement learning to thereby achieve safety of autonomous driving |
CN111507167A (zh) * | 2019-01-31 | 2020-08-07 | 斯特拉德视觉公司 | 以avm与强化学习实现注意力驱动资源分配的方法和装置 |
WO2021013334A1 (en) * | 2019-07-22 | 2021-01-28 | Toyota Motor Europe | Depth maps prediction system and training method for such a system |
CN111028281A (zh) * | 2019-10-22 | 2020-04-17 | 清华大学 | 基于光场双目系统的深度信息的计算方法及装置 |
CN111028285A (zh) * | 2019-12-03 | 2020-04-17 | 浙江大学 | 基于双目视觉和激光雷达融合的深度估计方法 |
CN111915619A (zh) * | 2020-06-05 | 2020-11-10 | 华南理工大学 | 一种双特征提取与融合的全卷积网络语义分割方法 |
CN111709517A (zh) * | 2020-06-12 | 2020-09-25 | 武汉中海庭数据技术有限公司 | 一种基于置信度预测系统的冗余融合定位增强的方法和装置 |
CN112052830A (zh) * | 2020-09-25 | 2020-12-08 | 北京百度网讯科技有限公司 | 人脸检测的方法、装置和计算机存储介质 |
CN112233160A (zh) * | 2020-10-15 | 2021-01-15 | 杭州知路科技有限公司 | 一种基于双目摄像头的实时深度及置信度的预测方法 |
CN112488104A (zh) * | 2020-11-30 | 2021-03-12 | 华为技术有限公司 | 深度及置信度估计系统 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积长短时神经网络的视频帧预测;张德正 等;;计算机应用(第06期);第1657-1662页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113096175A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singhal et al. | Discriminative robust deep dictionary learning for hyperspectral image classification | |
CN111814607B (zh) | 一种适用于小样本高光谱影像分类的深度学习模型 | |
CN112396645B (zh) | 一种基于卷积残差学习的单目图像深度估计方法和系统 | |
CN114460555B (zh) | 一种雷达回波外推方法、装置及存储介质 | |
CN113096175B (zh) | 一种基于卷积神经网络的深度图置信度估计方法 | |
CN112883227B (zh) | 一种基于多尺度时序特征的视频摘要生成方法和装置 | |
JP2022507704A (ja) | 適応量子化方法及び装置、デバイス、媒体 | |
CN111931779A (zh) | 一种基于条件可预测参数的图像信息提取与生成方法 | |
CN112183742A (zh) | 基于渐进式量化和Hessian信息的神经网络混合量化方法 | |
CN114972363A (zh) | 图像分割方法、装置、电子设备及计算机存储介质 | |
CN111860823A (zh) | 神经网络训练、图像处理方法及装置、设备及存储介质 | |
CN112613356A (zh) | 一种基于深度注意力融合网络的动作检测方法及装置 | |
CN114071141A (zh) | 一种图像处理方法及其设备 | |
CN113704372B (zh) | 基于深度对抗网络的遥感影像转换地图迁移方法和装置 | |
CN114241388A (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN113869234A (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN114078149A (zh) | 一种图像估计方法、电子设备及存储介质 | |
CN115426671B (zh) | 图神经网络训练、无线小区故障预测方法、系统及设备 | |
KR20210109327A (ko) | 인공신경망의 학습 방법 및 장치 | |
CN116051850A (zh) | 神经网络目标检测方法、装置、介质和嵌入式电子设备 | |
CN112885367B (zh) | 基频获取方法、装置、计算机设备和存储介质 | |
CN115169431A (zh) | 一种雷暴识别方法及系统 | |
CN115577336A (zh) | 一种生物识别处理方法、装置及设备 | |
CN113902107A (zh) | 用于神经网络模型全连接层的数据处理方法、可读介质和电子设备 | |
KR102057395B1 (ko) | 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |