CN114078149A - 一种图像估计方法、电子设备及存储介质 - Google Patents
一种图像估计方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114078149A CN114078149A CN202010851218.3A CN202010851218A CN114078149A CN 114078149 A CN114078149 A CN 114078149A CN 202010851218 A CN202010851218 A CN 202010851218A CN 114078149 A CN114078149 A CN 114078149A
- Authority
- CN
- China
- Prior art keywords
- loss function
- image
- layer
- depth
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 86
- 238000010586 diagram Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 abstract description 16
- 230000008569 process Effects 0.000 description 11
- 230000004913 activation Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,公开一种图像估计方法、电子设备及存储介质,在训练初始神经网络模型时,通过在第一损失函数的基础上加入第二损失函数,其中,第二损失函数为回归损失函数与权重系数的乘积,权重系数包括注意力权重,所述注意力权重用于调节训练样本图像中像素点的深度在损失计算时的权重,使得初始网络模型在进行损失计算时,能够关注到训练样本图像中深度值较大的像素点,从而,能更加准确的估计出训练样本图像中深度值较大的像素点深度值,进而根据训练后的预设卷积神经网络模型估算待识别图像时,能够准确的输出待识别图像的深度图,进而提高了待识别图像中背景像素点的深度值预测的准确性。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种图像估计方法、电子设备及存储介质。
背景技术
图像的深度估计是一种根据平面上的图像信息估计图像中物理深度值的技术。深度估计可以用于3D建模、深度感知、场景理解等场景。例如,在移动终端上,采用深度估计可以在拍摄过程中估计人像、物体或背景的程度关系,从而根据不同的深度使用不同层次的模糊程度,从而达到更加逼真自然的虚化渐变效果。
实现本发明过程中,发明人发现相关技术中至少存在如下问题:
在一些拍摄图像的深度值数据中,大多数的深度值数据均距离相机较近,少数的深度值数据距离相机较远,使得该拍摄图像的深度值分布存在一定的“长尾”现象,而使得在损失计算时,损失函数会主要依据深度值较低的像素点来进行反向传播,进而,无法准确的预测深度值较高的背景像素点的深度值。
发明内容
本发明实施例旨在提供一种图像估计方法、电子设备及存储介质,其能够提高背景像素点的深度值预测的准确性。
为了解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明实施例提供一种图像估计方法,所述方法包括:
获取待识别图像;
通过预设卷积神经网络模型获取所述待识别图像的深度图;
其中,所述预设卷积神经网络模型的所述损失函数包括第一损失函数和第二损失函数,所述第一损失函数为尺度不变性损失函数,所述第二损失函数为回归损失函数与权重系数的乘积,所述权重系数包括注意力权重,所述注意力权重用于调节训练样本图像中像素点的深度在损失计算时的权重。
可选地,所述注意力权重为所述训练样本图像的实际深度值。
可选地,所述权重系数还包括正则化系数,所述权重系数为所述注意力权重与所述正则化系数之和。
可选地,所述第一损失函数为:
其中,gi=logdi-logdi gt,λ∈[0,1],N为所述训练样本图像的像素点个数,di为所述训练样本图像的第i个像素点的预测深度值,di gt为所述训练样本图像的第i个像素点的实际深度值。
可选地,所述第一损失函数为:
其中,gi=logdi-logdi gt,λ∈[0,1],N为所述训练样本图像的像素点个数,di为所述训练样本图像的第i个像素点的预测深度值,di gt为所述训练样本图像的第i个像素点的实际深度值。
可选地,所述第二损失函数为:
其中,αD为所述注意力权重,βD为所述正则化系数,l(di,di gt)为BerHu损失函数。
可选地,所述损失函数为:
L=γl1+αl2,
其中,γ、α为分别为所述第一损失函数L1和所述所述第二损失函数L2的系数。
可选地,所述卷积神经网络模型包括具有多个层级的编码器和解码器,所述将所述待识别图像输入预设卷积神经网络模型,以获取所述待识别图像的深度图,包括:
通过所述编码器中多个层级的下采样卷积层依次对输入的待识别图像进行下采样处理,并将处理获得特征图数据输出至所述解码器;
通过所述解码器中多个层级的上采样卷积层依次对所述特征图数据进行上采样处理,并通过一平面拟合层在至少一个所述上采样卷积层输出的特征图数据中加入局部深度数据,所述局部深度数据由所述平面拟合层将输入该上采样卷积层的特征图数据拟合至一平面获得;
获得所述解码器输出的所述待识别图像的深度图。
可选地,所述解码器的至少一个层级包括上采样卷积层和平面拟合层;所述通过平面拟合层在至少一个所述上采样卷积层输出的特征图数据中加入局部深度数据,包括:
针对所述解码器中具有上采样卷积层及平面拟合层的层级,通过该层级中的上采样卷积层对输入的特征图数据进行上采样处理;
通过该层级中的平面拟合层对将输入的特征图数据拟合至一平面,获得输入的特征图数据在该平面的几何约束下的局部深度数据;其中,该层级的平面拟合层输出的特征图数据的尺寸与该层级的上采样卷积层输出的特征图数据的尺寸相同;
将该层级的上采样卷积层及平面拟合层输出的特征图数据融合后输入至所述解码器的下一层级。
第二方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,当所述计算机可执行程序被处理器执行时,使所述计算机执行如上述任一项所述的图像估计方法。
第三方面,本发明实施例提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行如上述任一项所述的图像估计方法。
相对于传统技术,在本发明各实施例提供的图像估计方法、电子设备及存储介质,在生成所述预设卷积神经网络模型时,根据图像中像素点的深度值特征,通过在第一损失函数的基础上加入第二损失函数,其中,第二损失函数为回归损失函数与权重系数的乘积,权重系数包括注意力权重,所述注意力权重用于调节训练样本图像中像素点的深度在损失计算时的权重,使得初始网络模型在进行损失计算时,能够关注到训练样本图像中深度值较大的像素点,从而,能更加准确的估计出训练样本图像中深度值较大的像素点深度值,进而根据训练后的预设卷积神经网络模型估算待识别图像时,能够准确的输出待识别图像的深度图,进而提高了待识别图像中背景像素点的深度值预测的准确性。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1-图3为本发明实施例提供的一种预设卷积神经网络模型的模型结构示意图;
图4为本发明实施例提供的一种图像估计方法的流程示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
请参照图1,图1为本发明实施例提供的预设卷积神经网络模型的模型结构示意图,其中,所述预设卷积神经网络模型为U-Net结构,该模型包括编码器和解码器,所述编码器和解码器均分别包含n个层级。
具体的,所述编码器的任一层级均包含一个下采样卷积层,与所述编码器对应的,所述解码器的任一层级均包含一个上采样卷积层。所述编码器中任一层级的下采样卷积层的输出的数据被传递至下一层级的下采样卷积层以及解码器中同一层级的上采样卷积层。
所述编码器中各下采样卷积层的输出的数据被传递至下一层级的下采样卷积层以及解码器中同一层级的上采样卷积层。
例如,在图1所示的模型结构中,对于编码器来说,第2层级为第3层级的上一层级,编码器第2层级的下采样卷积层输出的数据被传递至编码器第3层级的下采样卷积层,同时编码器第2层级的下采样卷积层输出的数据还被传递至解码器中第2层级的上采样卷积层。
编码器中的下采样卷积层用于通过卷积核对输入的数据进行下采样。如图1所示,下采样卷积层为2倍下采样,对于编码器的第1层级,输入的数据为尺寸H/2的待处理的图像,经第1层级的下采样卷积层处理后,输出结果为图像处理为尺寸H/4的特征图。该H/4的特征图被输入至第2层级的下采样卷积层进行处理后,输出结果为尺寸H/8的特征图。
所述解码器中各上采样卷积层的输入的数据包括解码器上一层级上采样卷积层输出的数据及编码器中同一层级的下采样卷积层输出的数据。解码器中的上采样卷积层用于通过卷积核对输入的数据进行上采样。
例如,在图1所示的模型结构中,对于解码器来说,第3层级为第2层级的上一层级,解码器第3层级的上采样卷积层和编码器第2层级的下采样卷积层输出的数据融合后,输入至解码器第2层级的上采样卷积层。
在一些实施例中,所述解码器的至少一个层级除了包括一上采样卷积层,还包括一平面拟合层,所述上采样卷积层和所述平面拟合层分别对所述解码器上一层级输出的数据进行处理后,将处理结果融合输出至所述解码器的下一层级。换句话说,输入该层级的数据被所述上采样卷积层和所述平面拟合层分别处理后,处理结果融合输出至所述解码器的下一层级。
例如,在图1所示的模型结构中,解码器的第2层级包括一个上采样卷积层级一个平面拟合层。编码器第2层级输出的数据和解码器第3层级输出的数据融合后,输入至解码器的第2层级。输入至解码器第2层级的数据分别被上采样卷积层和平面拟合层处理后,处理结果融合输入至解码器的第1层级。
需要说明的是,图1仅为为了说明平面拟合层设置位置的示意图,在本实施例中,平面拟合层并不限定为设置在图1所示的第2层级,平面拟合层也可以设置在解码器的其他一个或多个层级中,在此不对平面拟合层的设置位置进行限定。
在本实施例中,所述平面拟合层用于将输入的特征图数据拟合至一表征深度信息的拟合平面,获得输入的特征图数据在该平面的几何约束下的局部深度数据作为输出数据,所述平面拟合层输出的特征图数据的尺寸与同一层级的上采样卷积层输出的特征图数据的尺寸相同。
具体地,在本实施例中,所述平面拟合层可以针对输入的特征图的每个像素位置估计出一个有四个参数组成四维向量,这四个参数可以定义出一个空间直角坐标系中的平面。即Ax+By+Cz+D=0,该平面的大小可以是输入的特征图尺寸的任意N倍。即,通过平面拟合层,可以将输入的特征图中的每个像素位置转化为N倍于输入图像尺寸的平面上的(N*N)大小的区域,每个(N*N)大小的区域对应输入图像每个像素位置的局部深度。
之后,可以将该平面与其他上采样卷积层输出的特征图进行融合,在上采样卷积处理的结果中增加拟合平面带来的几何约束,从而对预测的深度进行约束,使得预测结果具有更加稳定的数值范围。
在一些可能的实现方式中,为了减少模型参数量和推理时间,满足网络轻量级的需求,平面拟合层的n值为1。例如,在图1所示的模型结构中,输入解码器第2层级的特征图尺寸为H/8。该层的上采样卷积层进行上采样处理后,获得特征图储存为H/4,该层级的平面拟合层生成的拟合平面大小也为H/4。因为尺寸相同,该层级的上采样卷积层和平面拟合层输出的数据可以直接融合后输入至下一层级。融合后的输出数据除了具有上采样卷积层提取的空间特征,还加入了平面拟合层带来的几何约束,可以使得后续利用该融合特征进行进一步特征提取或深度预测时得出的结果更加准确反映图像的实际深度情况。
在一些实施例中,请参阅图2,所述平面拟合层可以包括1*1卷积层、数值约束层即几何映射层。
其中,1*1集合层用于将输入的特征图数据压缩至四个数据通道,所述四个数据通道包括第一数据通道、第二数据通道、第三数据通道和第四数据通道。
数值约束层用于使用预设的激活函数将所述第一数据通道和第二数据通道的数据的值压缩至-0.5~0.5,将所述第三数据通道的数据的值压缩至0.50~1.0,将所述第四数据通道的数据的值压缩至0~1.0。并将所述第一数据通道、第二数据通道、第三数据通道压缩后的数据进行L2正则化和归一化处理。其中,所述预设激活函数可以为Sigmoid函数。
几何映射层用于将所述第一数据通道、第二数据通道、第三数据通道经正则化和归一化处理的数据以及所述第四数据通道压缩后的数据拟合至一平面,获得四个拟合系数;并根据四个拟合系数获得输入的特征图上各个位置的局部深度数据。
在几何映射层中,利用以下的公式来将构建的四个拟合系数转为(N*N)大小的局部深度:
其中Ci代表(N*N)大小的局部深度中的每个像素的深度值,(n1,n2,n3,n4)是预测出表征拟合平面的4个系数,(ui,vi)代表像素位置i归在图像上的坐标值。即通过上述公式可以将,输入的特征图上每个像素位置都对应到拟合后的平面中(N*N)大小区域该区域的局部深度值。
在一些实施例中,所述解码器中至少一个具有所述平面拟合层的层级还包括空洞卷积层,所述空洞卷积层对所述解码器上一层级输出的特征图进行空洞卷积处理后,将处理结果分别输出至该层级的上采样卷积层和平面拟合层。
请继续参阅图1,解码器第2层级中除了包括一上采样卷积层、一平面拟合层的层级,还包括一空洞卷积层。输入该层级的数据先经过该空洞卷积层进行处理。空洞卷积层采用空洞卷积核对输入的特征图进行处理,可以获取不同尺寸的感受野。
在一些实施例中,所述空洞卷积层包括补零个数为3、6和9的三种储存的空洞卷积核。
在又一些实施例中,所述解码器的任一上采样卷积层的结构为深度可分离卷积,在本发明实施例中,所述深度可分离卷积能够跨层连接,具体的,请参阅图3,所述解码器的任一上采样卷积层包括全局池化模块、1*1卷积模块、批量归一化模块以及激活函数模块,该激活函数模块可以为Sigmoid函数。所述解码器的任一上采样卷积层通过所述全局池化模块、1*1卷积模块、批量归一化模块以及激活函数模块依次对输入的特征图数据进行处理后,再与输入的特征图相乘后输出。
需要说明的是,在本实施例中,将H/2的待识别图像作为所述预设卷积神经网络模型的输入。
在本发明实施例中,通过在U-Net的卷积神经网络模型中加入平面拟合层,通过平面拟合层在至少一个上采样卷积层输出的特征图数据中,加入由输入该上采样卷积层的特征图数据拟合至一平面获得的局部深度数据。如此,通过在特征中增加拟合平面带来的几何约束,可以使得估计获得的结果具有更加稳定的数值范围,从而使深度估计结果更加准确。
请参阅图4,本发明实施提供一种图像估计方法,应用于具有上述结构的预设卷积神经网络模型,所述方法包括:
S41、获取待识别图像;
在本实施例中,将H/2的所述待识别图像作为所述预设卷积神经网络模型的输入。
S42、通过预设卷积神经网络模型获取所述待识别图像的深度图。
所述预设卷积神经网络模型包括具有多个层级的编码器和解码器,所述待识别图像通过所述预设卷积神经网络模型的编码器中多个层级的下采样卷积层依次对输入的数据进行下采样处理,并将处理获得特征图数据输出至所述预设卷积神经网络模型的解码器;通过所述解码器中多个层级的上采样卷积层依次对输入的特征图数据进行上采样处理,并通过平面拟合层在至少一个所述上采样卷积层输出的特征图数据中加入局部深度数据,所述局部深度数据由所述平面拟合层将输入该上采样卷积层的数据拟合至一平面获得,进而获得所述解码器输出的所述待识别图像的深度图。
在本实施例中,通过在上采样卷积处理的结果中增加拟合平面带来的几何约束,来对估计出的深度值进行约束,可以使得估计获得的结果具有更加稳定的数值范围,从而使深度估计结果更加准确。
可以理解的,所述预设卷积神经网络模型为初始神经网络模型经过大量训练样本图像数据训练后得到的稳定的卷积神经网络模型。其中,在定义所述初始神经网络模型时,首先需明确该模型的损失函数,所述损失函数用于指示样本图像的预测深度值与实际深度值之间的差异,并通过降低该差异来调整所述初始神经网络模型的模型参数,直至所述初始神经网络的收敛性达到预设标准后,完成对所述初始神经网络的训练。
具体的,将训练样本图像的实际样本深度图与所述初始神经网络模型预测的预测深度图通过所述损失函数进行损失计算,当所述损失函数计算得到的损失小于预设损失阈值时,所述初始神经网络模型的模型参数进入稳定状态,从而得到拟合度较高的卷积神经网络模型。
在损失计算过程中,用于进行损失计算的样本图像的预测深度图与实际深度图的尺寸是相同的,其中,所述初始神经网络模型的输入数据为H/2的样本图像,于是,将所述初始神经网络模型的损失计算设置于所述初始神经网络模型的解码器中H/2上采样卷积层执行。
在本发明实施例中,所述预设卷积神经网络模型的所述损失函数包括第一损失函数和第二损失函数,其中,所述第一损失函数为尺度不变性损失函数,所述第二损失函数为回归损失函数与权重系数的乘积,所述权重系数包括注意力权重,所述注意力权重用于调节训练样本图像中深度值较大的像素点在损失计算时的权重。
在尺度不变性误差的基础上,将所述尺度不变性误差引入损失函数中,得到所述第一损失函数,具体的,所述第一损失函数的公式为:
其中,gi=logdi-logdi gt,λ∈[0,1],N为所述训练样本图像的像素点个数,di为所述训练样本图像的第i个像素点的预测深度值,di gt为所述训练样本图像的第i个像素点的实际深度值。当λ=0时,所述第一损失函数与L2范数的形式相同,当λ=1时,所述第一损失函数为尺寸不变性误差的形式。
为了能更准确的关注到损失函数的组成,在又一些实施例中,将尺度不变性损失函数进行变形后,得到所述第一损失函数为:
其中,gi=logdi-logdi gt,λ∈[0,1],N为所述训练样本图像的像素点个数,di为所述训练样本图像的第i个像素点的预测深度值,di gt为所述训练样本图像的第i个像素点的实际深度值。
从变形后得到的所述第一损失函数的公式可知,所述第一损失函数由方差损失和加权的平方损失组成。因此,在调整所述初始神经网络模型的损失计算时,可以通过设置λ的值来调整损失函数的关注。例如,若损失函数需要提高损失中的方差的关注时,则可以设置较大的λ值以提高损失中的方差的关注。作为优选的,将所述λ取值为0.8。
在一些拍摄图像的深度值数据中,大多数的深度值数据均距离相机较近,少数的深度值数据距离相机较远,使得该拍摄图像的深度值分布存在一定的“长尾”现象,而使得在损失计算时,损失函数会主要依据深度值较低的像素点来进行反向传播,进而降低了深度值较高的像素点在损失计算时的权重,还将影响神经网络模型估算深度值较高的像素点深度的准确性。因此,在本发明实施例中,所述初始神经网络模型的损失函数为在所述第一损失函数的基础上,增加了第二损失函数,用于提高样本图像中像素点深度值的权重。
具体的,所述第二损失函数为回归损失函数与权重系数的乘积,所述权重系数包括注意力权重,所述注意力权重用于调节训练样本图像中像素点的深度在损失计算时的权重,进而所述初始神经网络模型能够关注到深度值较大的像素点。
为了避免训练样本图像的训练过程中出现梯度消失或爆炸的情况,在又一些实施例中,所述权重系数还包括正则化系数,所述权重系数为所述注意力权重与所述正则化系数之和。
具体的,所述第二损失函数为:
其中,αD为所述注意力权重,βD为所述正则化系数,l(di,di gt)为BerHu损失函数。
在一些实施例中,所述注意力权重αD为所述训练样本图像的实际深度值。可以理解的,当所述训练样本图像中的像素点的距离摄像装置较近时,所述注意力权重αD趋近于0。
正则化系数βD的计算公式为:其中,所述正则化系数用于表示,若第i个像素点的预测深度值接近于实际深度值,则βD趋近于0;若所述初始神经网络的预测深度值不准确时,则βD趋近于1。从而,通过该损失函数,对于深度值较小,即距离较近的像素点(αD->0)的深度预测不准确时,依然可以根据梯度下降的方向进行更新,从而不断对所述初始神经网络模型进行优化。
l(di,di gt)为BerHu损失函数,其计算公式为:
其中,L1(di-di gt)为L1范数,具体的,L2(di-di gt)为L2范数,具体的,t为所述初始神经网络模型的超参数,在本发明实施例中,t取值为每一批次训练样本图像中计算得到的损失最大值的15%,亦即,t=0.15*max(|di-di gt|)。
在又一些实施例中,为了平衡第一损失函数与第二损失函数的数值关系在同一数量级别,所述损失函数为:
L=γl1+αl2,
其中,γ、α为分别为所述第一损失函数l1和所述所述第二损失函数l2的系数。
在本发明实施例中,在生成所述预设卷积神经网络模型时,根据图像中像素点的深度值特征,通过在第一损失函数的基础上加入第二损失函数,其中,第二损失函数为回归损失函数与权重系数的乘积,权重系数包括注意力权重,注意力权重用于调节训练样本图像中深度值较大的像素点在损失计算时的权重,使得初始网络模型在进行损失计算时,能够关注到训练样本图像中深度值较大的像素点,从而,能更加准确的估计出训练样本图像中深度值较大的像素点深度值,进而根据训练后的预设卷积神经网络模型估算待识别图像时,能够准确的输出待识别图像的深度图,进而提高了待识别图像中背景像素点的深度值预测的准确性。
需要说明的是,本发明实施例的图像估计方法和损失函数除用于图1或图2所示的卷积神经网络模型外,还可用于其他任意合适的卷积神经网络模型。
请参阅图5,图5为本实施例提供的一种电子设备500的硬件结构示意图。所述电子设备500可包括处理器510及存储器520处理器510与存储器520可经由系统总线通信。并且,存储器520存储有机器可执行指令,所述机器可执行指令可以包括本实施例中所述预设卷积神经网络模型对应的指令,以及训练及使用所述预设卷积神经网络模型对应的指令。通过读取并执行存储器520中与图像估计方法的逻辑对应的机器可执行指令,处理器510可执行上文描述的图像估计方法。
本文中提到的存储器520可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,存储器520可以是:RAM(Radom AccessMemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (11)
1.一种图像估计方法,其特征在于,所述方法包括:
获取待识别图像;
通过预设卷积神经网络模型获取所述待识别图像的深度图;
其中,所述预设卷积神经网络模型的损失函数包括第一损失函数和第二损失函数,所述第一损失函数为尺度不变性损失函数,所述第二损失函数为回归损失函数与权重系数的乘积,所述权重系数包括注意力权重,所述注意力权重用于调节训练样本图像中像素点的深度在损失计算时的权重。
2.根据权利要求1所述的方法,其特征在于,所述注意力权重为所述训练样本图像的实际深度值。
3.根据权利要求2所述的方法,其特征在于,所述权重系数还包括正则化系数,所述权重系数为所述注意力权重与所述正则化系数之和。
7.根据权利要求6所述的方法,其特征在于,所述损失函数为:
L=γl1+αl2,
其中,γ、α分别为所述第一损失函数L1和所述第二损失函数L2的系数。
8.根据权利要求1-7任一项所述方法,其特征在于,所述预设卷积神经网络模型包括具有多个层级的编码器和解码器,所述将所述待识别图像输入预设卷积神经网络模型,以获取所述待识别图像的深度图,包括:
通过所述编码器中多个层级的下采样卷积层依次对输入的待识别图像进行下采样处理,并将处理获得的特征图数据输出至所述解码器;
通过所述解码器中多个层级的上采样卷积层依次对所述特征图数据进行上采样处理,并通过一平面拟合层在至少一个所述上采样卷积层输出的特征图数据中加入局部深度数据,所述局部深度数据由所述平面拟合层将输入该上采样卷积层的特征图数据拟合至一平面获得;
获得所述解码器输出的所述待识别图像的深度图。
9.根据权利要求8所述的方法,其特征在于,所述解码器的至少一个层级包括上采样卷积层和平面拟合层;所述通过平面拟合层在至少一个所述上采样卷积层输出的特征图数据中加入局部深度数据,包括:
针对所述解码器中具有上采样卷积层及平面拟合层的层级,通过该层级中的上采样卷积层对输入的特征图数据进行上采样处理;
通过该层级中的平面拟合层对将输入的特征图数据拟合至一平面,获得输入的特征图数据在该平面的几何约束下的局部深度数据;其中,该层级的平面拟合层输出的特征图数据的尺寸与该层级的上采样卷积层输出的特征图数据的尺寸相同;
将该层级的上采样卷积层及平面拟合层输出的特征图数据融合后输入至所述解码器的下一层级。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,当所述计算机可执行程序被处理器执行时,使所述计算机执行如权利要求1-9中任一项所述的图像估计方法。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行如权利要求1-9任一项所述的图像估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851218.3A CN114078149A (zh) | 2020-08-21 | 2020-08-21 | 一种图像估计方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851218.3A CN114078149A (zh) | 2020-08-21 | 2020-08-21 | 一种图像估计方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114078149A true CN114078149A (zh) | 2022-02-22 |
Family
ID=80282629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010851218.3A Pending CN114078149A (zh) | 2020-08-21 | 2020-08-21 | 一种图像估计方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114078149A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115278263A (zh) * | 2022-06-08 | 2022-11-01 | 南京问量网络科技有限公司 | 一种高效的大数据实时传输方法及系统 |
WO2023245321A1 (zh) * | 2022-06-20 | 2023-12-28 | 北京小米移动软件有限公司 | 一种图像深度预测方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN109685842A (zh) * | 2018-12-14 | 2019-04-26 | 电子科技大学 | 一种基于多尺度网络的稀疏深度稠密化方法 |
-
2020
- 2020-08-21 CN CN202010851218.3A patent/CN114078149A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN109685842A (zh) * | 2018-12-14 | 2019-04-26 | 电子科技大学 | 一种基于多尺度网络的稀疏深度稠密化方法 |
Non-Patent Citations (1)
Title |
---|
钱辉: "《基于深度卷积神经网络的无监督领域适配算法研究》", 《信息科技》, no. 8, 15 August 2020 (2020-08-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115278263A (zh) * | 2022-06-08 | 2022-11-01 | 南京问量网络科技有限公司 | 一种高效的大数据实时传输方法及系统 |
CN115278263B (zh) * | 2022-06-08 | 2024-04-02 | 西安韵通网络科技有限公司 | 一种高效的大数据实时传输方法及系统 |
WO2023245321A1 (zh) * | 2022-06-20 | 2023-12-28 | 北京小米移动软件有限公司 | 一种图像深度预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033003B (zh) | 图像分割方法和图像处理装置 | |
CN110473137B (zh) | 图像处理方法和装置 | |
Li et al. | Fast guided global interpolation for depth and motion | |
CN111915627B (zh) | 语义分割方法、网络、设备及计算机存储介质 | |
WO2021027759A1 (en) | Facial image processing | |
CN113313234A (zh) | 用于图像分割的神经网络系统和方法 | |
CN112396645B (zh) | 一种基于卷积残差学习的单目图像深度估计方法和系统 | |
CN111476719B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111160229B (zh) | 基于ssd网络的视频目标检测方法及装置 | |
WO2021097442A1 (en) | Guided training of machine learning models with convolution layer feature data fusion | |
CN106886978B (zh) | 一种图像的超分辨率重建方法 | |
CN109815931B (zh) | 一种视频物体识别的方法、装置、设备以及存储介质 | |
CN105590304B (zh) | 超分辨率图像重建方法和装置 | |
CN114677412B (zh) | 一种光流估计的方法、装置以及设备 | |
KR20200144398A (ko) | 클래스 증가 학습을 수행하는 장치 및 그의 동작 방법 | |
CN114241388A (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN114078149A (zh) | 一种图像估计方法、电子设备及存储介质 | |
CN112085674B (zh) | 基于神经网络的航拍图像去模糊算法 | |
CN113284155A (zh) | 视频目标分割方法、装置、存储介质及电子设备 | |
CN115994558A (zh) | 医学影像编码网络的预训练方法、装置、设备及存储介质 | |
CN113763535A (zh) | 一种特征潜码提取方法、计算机设备及存储介质 | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN111814693A (zh) | 一种基于深度学习的海上船舶识别方法 | |
CN111626379A (zh) | 肺炎x光图像检测方法 | |
CN114494065A (zh) | 图像去模糊方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |