CN109191512A

CN109191512A - 双目图像的深度估计方法及装置、设备、程序及介质

Info

Publication number: CN109191512A
Application number: CN201810847268.7A
Authority: CN
Inventors: 肖瑞超; 孙文秀; 杨成熙
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-01-11
Anticipated expiration: 2038-07-27
Also published as: TWI721510B; TW202008310A; US20200258250A1; WO2020019765A1; US11295466B2; CN109191512B; SG11202003899WA; JP2021502626A; JP7123133B2

Abstract

本发明实施例公开了一种双目图像的深度估计方法及装置、设备、程序及介质，其中，方法包括：将待处理双目图像输入预定神经网络，得到视差图像及其置信度图像，其中，所述视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系；根据所述视差图像得到所述待处理双目图像的深度图像。本发明实施例可以在得到视差图像的同时得到对应的置信度图像，利用置信度图像来对视差图像进行检测，从而获得更加精确的深度图像。

Description

双目图像的深度估计方法及装置、设备、程序及介质

技术领域

本发明涉及计算机视觉技术，尤其是一种双目图像的深度估计方法及装置、电子设备、计算机程序及存储介质。

背景技术

随着机器学习技术的发展，深度学习网络已经应用于众多现实场景中，例如自动驾驶等。在这些应用中，预测结果是十分重要的，特别是在基于深度学习的回归任务中，例如双目立体匹配，通常预测结果都被假设为准确的。然而这样的假设并不够合理，若预测错误的像素出现在十分重要的区域，例如：比较细小的障碍物，可能会造成基于深度学习的避让系统失灵。另外，将这些深度学习网络部署于其他场景中时也有可能出现较差甚至不合理的结果。

发明内容

本发明实施例提供一种双目图像的深度估计方案。

根据本发明实施例的一个方面，提供一种双目图像的深度估计方法，包括：

将待处理双目图像输入预定神经网络，得到视差图像及其置信度图像，其中,所述视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系；

根据所述视差图像得到所述待处理双目图像的深度图像。

可选地，在本发明上述方法实施例中，所述将待处理双目图像输入预定神经网络，得到置信度图像，包括：

将所述待处理双目图像经过双目立体匹配神经网络后，依次经过两个卷积层和一个归一化层得到所述置信度图像。

可选地，在本发明上述任一方法实施例中，还包括：

利用损失函数训练所述预定神经网络，其中，所述损失函数由所述视差图像中各像素的置信度及该像素在所述预设分布的离散参数计算得到。

可选地，在本发明上述任一方法实施例中，所述损失函数包括：正则化项和调整所述视差图像中各像素在所述损失函数中的权重的聚焦损失项。

可选地，在本发明上述任一方法实施例中，所述正则化项包括：与置信度相关的正则化项和与预定神经网络参数相关的正则化项。

可选地，在本发明上述任一方法实施例中，所述损失函数由所述视差图像中各像素的置信度及该像素在所述预设分布的离散参数计算得到，包括：

基于所述视差图像及其所述置信度图像、所述预定神经网络参数和真实视差图像，得到关于所述预定神经网络参数的似然函数；

基于所述视差图像中各像素服从的所述预设分布，得到所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系；

基于所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系，所述预定神经网络参数服从所述预设分布，所述视差图像中各像素的置信度服从非递减的分布，对所述似然函数取负对数，得到所述损失函数。

可选地，在本发明上述任一方法实施例中，所述预设分布包括拉普拉斯分布或者高斯分布。

可选地，在本发明上述任一方法实施例中，响应于所述预设分布为拉普拉斯分布的情况，所述损失函数包括：由所述视差图像与真实视差图像中各像素的视差值的差值的绝对值与该像素的置信度的比值的平均值得到的聚焦损失项，由所述视差图像中各像素的置信度的平均值得到的正则化项，和由所述预定神经网络参数得到的正则化项。

可选地，在本发明上述任一方法实施例中，响应于预设分布为高斯分布的情况，所述损失函数包括：由所述视差图像与真实视差图像中各像素的视差值的差值的平方与该像素的置信度的比值的平均值得到的聚焦损失项，由所述视差图像中各像素的置信度的平均值得到的正则化项，和由所述预定神经网络参数得到的正则化项。

根据本发明实施例的另一个方面，提供一种双目图像的深度估计装置，包括:

视差图像获取单元，用于将待处理双目图像输入预定神经网络，得到视差图像及其置信度图像，其中，所述视差图像中各像素在预设分布的的离散参数与该像素的置信度呈负相关关系；

深度图像获取单元，用于根据所述视差图像得到所述待处理双目图像的深度图像。

可选地，在本发明上述装置实施例中，所述视差图像获取单元，用于将所述待处理双目图像经过双目立体匹配神经网络后，依次经过两个卷积层和一个归一化层得到所述置信度图像。

可选地，在本发明上述任一装置实施例中，还包括：

神经网络训练单元，用于利用损失函数训练所述预定神经网络，其中，所述损失函数由所述视差图像中各像素的置信度及该像素在所述预设分布的离散参数计算得到。

可选地，在本发明上述任一装置实施例中，所述损失函数包括：正则化项和调整所述视差图像中各像素在所述损失函数中的权重的聚焦损失项。

可选地，在本发明上述任一装置实施例中，所述正则化项包括：与置信度相关的正则化项和与预定神经网络参数相关的正则化项。

可选地，在本发明上述任一装置实施例中，所述神经网络训练单元，包括：损失函数获得模块；

所述损失函数获得模块，用于基于所述视差图像及其所述置信度图像、所述预定神经网络参数和真实视差图像，得到关于所述预定神经网络参数的似然函数；基于所述视差图像中各像素服从的所述预设分布，得到所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系；以及基于所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系，所述预定神经网络参数服从所述预设分布，所述视差图像中各像素的置信度服从非递减的分布，对所述似然函数取负对数，得到所述损失函数。

可选地，在本发明上述任一装置实施例中，所述预设分布包括拉普拉斯分布或者高斯分布。

可选地，在本发明上述任一装置实施例中，响应于预设分布为拉普拉斯分布的情况，所述损失函数包括：由所述视差图像与真实视差图像中各像素的视差值的差值的绝对值与该像素的置信度的比值的平均值得到的聚焦损失项，由所述视差图像中各像素的置信度的平均值得到的正则化项，和由所述预定神经网络参数得到的正则化项。

可选地，在本发明上述任一装置实施例中，响应于预设分布为高斯分布的情况，所述损失函数包括：由所述视差图像与真实视差图像中各像素的视差值的差值的平方与该像素的置信度的比值的平均值得到的聚焦损失项，由所述视差图像中各像素的置信度的平均值得到的正则化项，和由所述预定神经网络参数得到的正则化项。根据本发明实施例的又一个方面，提供的一种电子设备，包括上述任一实施例所述的装置。

根据本发明实施例的再一个方面，提供的一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于执行所述可执行指令从而完成上述任一实施例所述的方法。

根据本发明实施例的再一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述任一实施例所述方法的指令。

根据本发明实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读指令，所述指令被执行时实现上述任一实施例所述的方法。

基于本发明上述实施例提供的双目图像的深度估计方法及装置、电子设备、计算机程序及存储介质，通过将待处理双目图像输入预定神经网络，得到视差图像及其置信度图像，其中视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系，然后根据视差图像得到待处理双目图像的深度图像，利用预定神经网络在得到视差图像的同时得到对应的置信度图像，可以通过无监督的学习方式得到视差图像对应的置信度图像，而不需要置信度标注作为监督，由于置信度具有物理意义，即视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系，因此可以利用置信度图像来检测视差图像中可能出现错误的区域，帮助分析视差图像，得到更加精确的深度图像。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明一些实施例的双目图像的深度估计方法的流程图；

图2为本发明一些实施例的获得包含置信度的损失函数的流程图；

图3为本发明一些实施例的双目图像的深度估计装置的结构示意图；

图4为本发明一些实施例提供的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1是本发明一些实施例的双目图像的深度估计方法的流程图。

如图1所示，该方法包括：

102，将待处理双目图像输入预定神经网络，得到视差图像及其置信度图像。

在本实施例中，待处理双目图像可以是从图像采集设备直接获取的图像，例如：图像采集设备为摄像机等，也可以从存储设备获取的预先存储的图像，例如:存储设备为U盘等，还可以是通过网络从网站服务器获取的图像，从本实施例对待处理双目图像的获得方式不作限定。将待处理双目图像的左视图和右视图，或者待处理双目图像的上视图和下视图输入预定神经网络，得到视差图像及其置信度图像。左视图、右视图、上视图和下视图为相对的两个视图，具体还可以为其他称谓，本实施例不做具体限定，在后续的实施例中采用左视图、右视图来描述。视差图像可以是以左视图为基准得到的左视图对应的视差图像，也可以是以右视图为基准得到的右视图对应的视差图像，本实施例对此不作限定。置信度图像可以是基于视差图像获得反应视差图像中各像素的置信度的图像，其中，视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系，离散参数包括但不限于标准差参数。

在本实施例中，预定神经网络可以是在对待处理双目图像的左视图和右视图进行处理之前，预先确定的神经网络，此时通过预定神经网络可以获得需要的视差图像，预定神经网络也可以是在对待处理双目图像的左视图和右视图进行处理之前，预先训练的神经网络，此时待处理双目图像的左视图和右视图可以是从训练数据集中获取的图像，可以通过待处理双目图像的左视图和右视图对预定神经网络进行训练。

在一个可选的例子中，预定神经网络可以包括：双目立体匹配神经网络、两个卷积层和一个归一化(Sigmoid)层，可以将待处理双目图像的左视图和右视图经过双目立体匹配神经网络后，依次经过两个卷积层和一个归一化层得到置信度图像。本实施例对获得置信度图像的网络结构不作限定。

104，根据视差图像得到待处理双目图像的深度图像。

可选地，在获得待处理双目图像的视差图像后，可以根据相机成像的投影模型，通过深度信息与视差信息的几何运算关系，获得待处理双目图像的深度图像,本实施例对根据视差图像获得深度图像的方法不作限定。

本实施例提供的双目图像的深度估计方法，通过将待处理双目图像的左视图和右视图输入预定神经网络，得到视差图像及其置信度图像，其中视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系，然后根据视差图像得到待处理双目图像的深度图像，利用预定神经网络在得到视差图像的同时得到对应的置信度图像，可以通过无监督的学习方式得到视差图像对应的置信度图像,而不需要置信度标注作为监督，由于置信度具有物理意义，即视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系，因此可以利用置信度图像来检测视差图像中可能出现错误的区域，帮助分析视差图像，得到更加精确的深度图像。

在一些实施例中，可以利用损失函数训练预定神经网络，其中，损失函数可以由视差图像中各像素的置信度及该像素在预设分布的离散参数计算得到，即根据置信度的物理意义：视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系，可以得到包含置信度的损失函数，利用损失函数中的置信度可以优化损失函数，使利用该损失函数训练得到的预定神经网络具有更好的鲁棒性。

可选地，损失函数可以包括：聚焦损失项和正则化项，其中，聚焦损失项可以通过置信度自动调整视差图像中各像素在损失函数中的权重，使视差图像中置信度较高的像素具有较大的权重，视差图像中置信度较低的像素具有较小的权重,从而可以将学习得到的置信度同步应用到预定神经网络的训练过程中，减小输入数据中的噪声带来的影响，例如：输入数据中的噪声为待处理双目图像中被遮挡的区域等，使预定神经网络可以收敛于更优的阶段，具有更好的鲁棒性。

可选地，损失函数中的正则化项可以包括：与置信度相关的正则化项和与预定神经网络参数相关的正则化项，其中，与置信度相关的正则化项可以使视差图像中置信度较低的像素的损失权重不会过小，从而保证训练的效率，与预定神经网络参数相关的正则化项，也成为权重正则化项，可以防止在训练过程中预定神经网络过拟合。

图2为本发明一些实施例的获得包含置信度的损失函数的流程图。

如图2所示，该方法包括：

202，基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像，得到关于预定神经网络参数的似然函数。

可选地，可以基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像，根据贝叶斯概率论得到关于预定神经网络参数的似然函数。

204，基于视差图像中各像素服从的预设分布，得到视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系。

可选地，可以通过使视差图像中的各像素服从不同标准差的预设分布，得到视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系。

206，基于视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系，预定神经网络参数服从预设分布，视差图像中各像素的置信度服从非递减的分布，对似然函数取负对数，得到损失函数。

可选地，预定神经网络参数可以服从均值为零、标准差为1的预设分布。

可选地，预设分布可以为拉普拉斯分布或者高斯分布。

在一些实施例中，响应于预设分布为拉普拉斯分布的情况，损失函数包括：由待处理双目图像的视差图像与真实视差图像中各像素的视差值的差值的绝对值与该像素的置信度的比值的平均值得到的聚焦损失项，由视差图像中各像素的置信度的平均值得到的正则化项，和由预定神经网络参数得到的正则化项。

其中，根据贝叶斯概率论，基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像，得到关于预定神经网络参数的似然函数为：

其中，x＝{x₁，x₂，...，x_T}为待处理双目图像，y＝{y₁，y₂，...，y_N}为真实视差图像，其中T和N分别为待处理双目图像和真实视差图像中的像素数量，w为预定神经网络的参数，c＝{c₁，c₂，...，c_N}为置信度图像。

根据视差图像中各像素服从不同标准差的拉普拉斯分布：

得到视差图像中各像素的置信度与该像素在拉普拉斯分布的离散参数之间的负相关关系为：

b_i＝f(c_i)＝-kc_i+a (公式三)

其中，b＝{b₁，b₂，...，b_N}为不同标准差的拉普拉斯分布，b_i为拉普拉斯分布的标准差参数，即离散参数，c_i∈[0,1]作为一个随机变量，以b_i与c_i的线性递减函数表示负相关关系，k和a为满足a≥k+1的两个正常数，使得总是满足b_i≥1。

根据预定神经网络参数服从均值为零、标准差为1的拉普拉斯分布：

P(w|x)∝e^-|w| (公式四)

根据视差图像中各像素的置信度服从非递减的分布，其中γ≥0：

将公式二、公式三、公式四和公式五带入公式一，对似然函数取负对数，得到损失函数：

在另一些实施例中，响应于预设分布为高斯分布的情况，损失函数包括：由待处理双目图像的视差图像与真实标视差图像中各像素的视差值的差值的平方与该像素的置信度的比值的平均值得到的聚焦损失项，由视差图像中各像素的置信度的平均值得到的正则化项，和由预定神经网络参数得到的正则化项。

根据视差图像中各像素服从不同标准差的高斯分布：

得到视差图像中各像素的置信度与该像素在高斯分布的离散参数之间的负相关关系为：

b_i＝f(c_i)＝-kc_i+a (公式三)

其中，b＝{b₁，b₂，...，b_N}为不同标准差的高斯分布，b_i为高斯分布的标准差参数，即离散参数，c_i∈[0,1]作为一个随机变量，以b_i与c_i的线性递减函数表示负相关关系，k和a为满足a≥k+1的两个正常数，使得总是满足b_i≥1。

根据预定神经网络参数服从均值为零、标准差为1的高斯分布：

将公式七、公式三、公式八和公式五带入公式一，对似然函数取负对数，得到损失函数：

本发明上述各实施例的方法，可以应用于移动终端或者自动驾驶等设备的图像处理，其中，移动终端例如为手机、平板电脑等。

图3是本发明一些实施例的双目图像的深度估计装置的结构示意图。

如图3所示，该装置包括：视差图像获取单元310和深度图像获取单元320。其中，

视差图像获取单元310，用于将待处理双目图像输入预定神经网络，得到视差图像及其置信度图像。

在一个可选的例子中，预定神经网络可以包括：双目立体匹配神经网络、两个卷积层和一个归一化(Sigmoid)层，视差图像获取单元310可以将待处理双目图像的左视图和右视图经过双目立体匹配神经网络后，依次经过两个卷积层和一个归一化层得到置信度图像。本实施例对获得置信度图像的网络结构不作限定。

深度图像获取单元320，用于根据视差图像得到待处理双目图像的深度图像。

本实施例提供的双目图像的深度估计装置，通过将待处理双目图像的左视图和右视图输入预定神经网络，得到视差图像及其置信度图像，其中视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系，然后根据视差图像得到待处理双目图像的深度图像，利用预定神经网络在得到视差图像的同时得到对应的置信度图像，可以通过无监督的学习方式得到视差图像对应的置信度图像,而不需要置信度标注作为监督，由于置信度具有物理意义，即视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系，因此可以利用置信度图像来检测视差图像中可能出现错误的区域，帮助分析视差图像，得到更加精确的深度图像。

在一些实施例中，双目图像的深度估计装置还可以包括：神经网络训练单元,用于利用损失函数训练预定神经网络，其中，损失函数可以由视差像图中各像素的置信度及该像素在预设分布的离散参数计算得到，即根据置信度的物理意义：视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系，可以得到包含置信度的损失函数，利用损失函数中的置信度可以优化损失函数，使利用该损失函数训练得到的预定神经网络具有更好的鲁棒性。

可选地，损失函数可以包括：聚焦损失项和正则化项，其中，聚焦损失项可以通过置信度自动调整视差图像中各像素在损失函数中的权重，使视差像图中置信度较高的像素具有较大的权重，视差图像中置信度较低的像素具有较小的权重，从而可以将学习得到的置信度同步应用到预定神经网络的训练过程中，减小输入数据中的噪声带来的影响，例如：输入数据中的噪声为待处理双目图像中被遮挡的区域等，使预定神经网络可以收敛于更优的阶段，具有更好的鲁棒性。

可选地，神经网络训练单元可以包括：损失函数获得模块，用于获得包含置信度的损失函数。

在一个可选的例子中，损失函数获得模块，可以基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像，得到关于预定神经网络参数的似然函数；基于视差图像中各像素服从的预设分布，得到视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系；以及基于视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系，预定神经网络参数服从预设分布，视差图像中各像素的置信度服从非递减的分布，对似然函数取负对数，得到损失函数。

可选地，损失函数获得模块可以基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像，根据贝叶斯概率论得到关于预定神经网络参数的似然函数。

可选地，损失函数获得模块可以通过使视差图像中的各像素服从不同标准差的预设分布，得到视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系。

可选地，预设分布可以为拉普拉斯分布或者高斯分布。

在另一些实施例中，响应于预设分布为高斯分布的情况，损失函数包括：由待处理双目图像的视差图像与真实视差图像中各像素的视差值的差值的平方与该像素的置信度的比值的平均值得到的聚焦损失项，由视差图像中各像素的置信度的平均值得到的正则化项，和由预定神经网络参数得到的正则化项。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图4，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备400的结构示意图：如图4所示，电子设备400包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)401，和/或一个或多个图像处理器(GPU)413等，处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器402和/或随机访问存储器403中通信以执行可执行指令，通过总线404与通信部412相连、并经通信部412与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，将待处理双目图像的左视图和右视图输入预定神经网络，得到视差图像及其置信度图像，其中，所述视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系；根据所述视差图像得到所述待处理双目图像的深度图像。

此外，在RAM 403中，还可存储有装置操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。在有RAM403的情况下，ROM402为可选模块。RAM403存储可执行指令，或在运行时向ROM402中写入可执行指令，可执行指令使中央处理单元401执行上述通信方法对应的操作。输入/输出(I/O)接口405也连接至总线404。通信部412可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

需要说明的，如图4所示的架构仅为一种可选实现方式，在具体实践过程中,可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU413和CPU401可分离设置或者可将GPU413集成在CPU401上，通信部可分离设置,也可集成设置在CPU401或GPU413上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，将待处理双目图像的左视图和右视图输入预定神经网络，得到视差图像及其置信度图像，其中，所述视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系；根据所述视差图像得到所述待处理双目图像的深度图像。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。

在一个或多个可选实施方式中，本发明实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，该指令被执行时使得计算机执行上述任一可能的实现方式中的双目图像的深度估计方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，该计算机程序产品具体体现为计算机存储介质，在另一个可选例子中,该计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本发明实施例还提供了一种双目图像的深度估计方法及其对应的装置、电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：第一装置向第二装置发送基于双目图像的深度估计指示，该指示使得第二装置执行上述任一可能的实施例中的双目图像的深度估计方法；第一装置接收第二装置发送的双目图像的深度估计的结果。

在一些实施例中，该双目图像的深度估计指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行双目图像的深度估计，相应地，响应于接收到调用指令，第二装置可以执行上述双目图像的深度估计方法中的任意实施例中的步骤和/或流程。

应理解，本发明实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本发明实施例的限定。

还应理解，在本发明中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种双目图像的深度估计方法，其特征在于，包括：

根据所述视差图像得到所述待处理双目图像的深度图像。

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述损失函数包括：正则化项和调整所述视差图像中各像素在所述损失函数中的权重的聚焦损失项。

4.根据权利要求2或3所述的方法，其特征在于，所述损失函数由所述视差图像中各像素的置信度及该像素在所述预设分布的离散参数计算得到，包括：

5.根据权利要求2至4中任意一项所述的方法，其特征在于，所述预设分布包括拉普拉斯分布或者高斯分布。

6.一种双目图像的深度估计装置，其特征在于，包括：

7.一种电子设备，其特征在于，包括权利要求6所述的装置。

8.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

处理器，用于执行所述可执行指令从而完成权利要求1至5中任意一项所述的方法。

9.一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1至5中任意一项所述方法的指令。

10.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1至5中任意一项所述的方法。