CN109191512A - 双目图像的深度估计方法及装置、设备、程序及介质 - Google Patents
双目图像的深度估计方法及装置、设备、程序及介质 Download PDFInfo
- Publication number
- CN109191512A CN109191512A CN201810847268.7A CN201810847268A CN109191512A CN 109191512 A CN109191512 A CN 109191512A CN 201810847268 A CN201810847268 A CN 201810847268A CN 109191512 A CN109191512 A CN 109191512A
- Authority
- CN
- China
- Prior art keywords
- image
- pixel
- parallax image
- confidence
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013528 artificial neural network Methods 0.000 claims description 96
- 230000006870 function Effects 0.000 claims description 75
- 238000012549 training Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 230000003247 decreasing effect Effects 0.000 claims description 9
- 210000005036 nerve Anatomy 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明实施例公开了一种双目图像的深度估计方法及装置、设备、程序及介质,其中,方法包括:将待处理双目图像输入预定神经网络,得到视差图像及其置信度图像,其中,所述视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系;根据所述视差图像得到所述待处理双目图像的深度图像。本发明实施例可以在得到视差图像的同时得到对应的置信度图像,利用置信度图像来对视差图像进行检测,从而获得更加精确的深度图像。
Description
技术领域
本发明涉及计算机视觉技术,尤其是一种双目图像的深度估计方法及装置、电子设备、计算机程序及存储介质。
背景技术
随着机器学习技术的发展,深度学习网络已经应用于众多现实场景中,例如自动驾驶等。在这些应用中,预测结果是十分重要的,特别是在基于深度学习的回归任务中,例如双目立体匹配,通常预测结果都被假设为准确的。然而这样的假设并不够合理,若预测错误的像素出现在十分重要的区域,例如:比较细小的障碍物,可能会造成基于深度学习的避让系统失灵。另外,将这些深度学习网络部署于其他场景中时也有可能出现较差甚至不合理的结果。
发明内容
本发明实施例提供一种双目图像的深度估计方案。
根据本发明实施例的一个方面,提供一种双目图像的深度估计方法,包括:
将待处理双目图像输入预定神经网络,得到视差图像及其置信度图像,其中,所述视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系;
根据所述视差图像得到所述待处理双目图像的深度图像。
可选地,在本发明上述方法实施例中,所述将待处理双目图像输入预定神经网络,得到置信度图像,包括:
将所述待处理双目图像经过双目立体匹配神经网络后,依次经过两个卷积层和一个归一化层得到所述置信度图像。
可选地,在本发明上述任一方法实施例中,还包括:
利用损失函数训练所述预定神经网络,其中,所述损失函数由所述视差图像中各像素的置信度及该像素在所述预设分布的离散参数计算得到。
可选地,在本发明上述任一方法实施例中,所述损失函数包括:正则化项和调整所述视差图像中各像素在所述损失函数中的权重的聚焦损失项。
可选地,在本发明上述任一方法实施例中,所述正则化项包括:与置信度相关的正则化项和与预定神经网络参数相关的正则化项。
可选地,在本发明上述任一方法实施例中,所述损失函数由所述视差图像中各像素的置信度及该像素在所述预设分布的离散参数计算得到,包括:
基于所述视差图像及其所述置信度图像、所述预定神经网络参数和真实视差图像,得到关于所述预定神经网络参数的似然函数;
基于所述视差图像中各像素服从的所述预设分布,得到所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系;
基于所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系,所述预定神经网络参数服从所述预设分布,所述视差图像中各像素的置信度服从非递减的分布,对所述似然函数取负对数,得到所述损失函数。
可选地,在本发明上述任一方法实施例中,所述预设分布包括拉普拉斯分布或者高斯分布。
可选地,在本发明上述任一方法实施例中,响应于所述预设分布为拉普拉斯分布的情况,所述损失函数包括:由所述视差图像与真实视差图像中各像素的视差值的差值的绝对值与该像素的置信度的比值的平均值得到的聚焦损失项,由所述视差图像中各像素的置信度的平均值得到的正则化项,和由所述预定神经网络参数得到的正则化项。
可选地,在本发明上述任一方法实施例中,响应于预设分布为高斯分布的情况,所述损失函数包括:由所述视差图像与真实视差图像中各像素的视差值的差值的平方与该像素的置信度的比值的平均值得到的聚焦损失项,由所述视差图像中各像素的置信度的平均值得到的正则化项,和由所述预定神经网络参数得到的正则化项。
根据本发明实施例的另一个方面,提供一种双目图像的深度估计装置,包括:
视差图像获取单元,用于将待处理双目图像输入预定神经网络,得到视差图像及其置信度图像,其中,所述视差图像中各像素在预设分布的的离散参数与该像素的置信度呈负相关关系;
深度图像获取单元,用于根据所述视差图像得到所述待处理双目图像的深度图像。
可选地,在本发明上述装置实施例中,所述视差图像获取单元,用于将所述待处理双目图像经过双目立体匹配神经网络后,依次经过两个卷积层和一个归一化层得到所述置信度图像。
可选地,在本发明上述任一装置实施例中,还包括:
神经网络训练单元,用于利用损失函数训练所述预定神经网络,其中,所述损失函数由所述视差图像中各像素的置信度及该像素在所述预设分布的离散参数计算得到。
可选地,在本发明上述任一装置实施例中,所述损失函数包括:正则化项和调整所述视差图像中各像素在所述损失函数中的权重的聚焦损失项。
可选地,在本发明上述任一装置实施例中,所述正则化项包括:与置信度相关的正则化项和与预定神经网络参数相关的正则化项。
可选地,在本发明上述任一装置实施例中,所述神经网络训练单元,包括:损失函数获得模块;
所述损失函数获得模块,用于基于所述视差图像及其所述置信度图像、所述预定神经网络参数和真实视差图像,得到关于所述预定神经网络参数的似然函数;基于所述视差图像中各像素服从的所述预设分布,得到所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系;以及基于所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系,所述预定神经网络参数服从所述预设分布,所述视差图像中各像素的置信度服从非递减的分布,对所述似然函数取负对数,得到所述损失函数。
可选地,在本发明上述任一装置实施例中,所述预设分布包括拉普拉斯分布或者高斯分布。
可选地,在本发明上述任一装置实施例中,响应于预设分布为拉普拉斯分布的情况,所述损失函数包括:由所述视差图像与真实视差图像中各像素的视差值的差值的绝对值与该像素的置信度的比值的平均值得到的聚焦损失项,由所述视差图像中各像素的置信度的平均值得到的正则化项,和由所述预定神经网络参数得到的正则化项。
可选地,在本发明上述任一装置实施例中,响应于预设分布为高斯分布的情况,所述损失函数包括:由所述视差图像与真实视差图像中各像素的视差值的差值的平方与该像素的置信度的比值的平均值得到的聚焦损失项,由所述视差图像中各像素的置信度的平均值得到的正则化项,和由所述预定神经网络参数得到的正则化项。根据本发明实施例的又一个方面,提供的一种电子设备,包括上述任一实施例所述的装置。
根据本发明实施例的再一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行所述可执行指令从而完成上述任一实施例所述的方法。
根据本发明实施例的再一个方面,提供的一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现上述任一实施例所述方法的指令。
根据本发明实施例的再一个方面,提供的一种计算机存储介质,用于存储计算机可读指令,所述指令被执行时实现上述任一实施例所述的方法。
基于本发明上述实施例提供的双目图像的深度估计方法及装置、电子设备、计算机程序及存储介质,通过将待处理双目图像输入预定神经网络,得到视差图像及其置信度图像,其中视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,然后根据视差图像得到待处理双目图像的深度图像,利用预定神经网络在得到视差图像的同时得到对应的置信度图像,可以通过无监督的学习方式得到视差图像对应的置信度图像,而不需要置信度标注作为监督,由于置信度具有物理意义,即视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,因此可以利用置信度图像来检测视差图像中可能出现错误的区域,帮助分析视差图像,得到更加精确的深度图像。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明一些实施例的双目图像的深度估计方法的流程图;
图2为本发明一些实施例的获得包含置信度的损失函数的流程图;
图3为本发明一些实施例的双目图像的深度估计装置的结构示意图;
图4为本发明一些实施例提供的电子设备的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1是本发明一些实施例的双目图像的深度估计方法的流程图。
如图1所示,该方法包括:
102,将待处理双目图像输入预定神经网络,得到视差图像及其置信度图像。
在本实施例中,待处理双目图像可以是从图像采集设备直接获取的图像,例如:图像采集设备为摄像机等,也可以从存储设备获取的预先存储的图像,例如:存储设备为U盘等,还可以是通过网络从网站服务器获取的图像,从本实施例对待处理双目图像的获得方式不作限定。将待处理双目图像的左视图和右视图,或者待处理双目图像的上视图和下视图输入预定神经网络,得到视差图像及其置信度图像。左视图、右视图、上视图和下视图为相对的两个视图,具体还可以为其他称谓,本实施例不做具体限定,在后续的实施例中采用左视图、右视图来描述。视差图像可以是以左视图为基准得到的左视图对应的视差图像,也可以是以右视图为基准得到的右视图对应的视差图像,本实施例对此不作限定。置信度图像可以是基于视差图像获得反应视差图像中各像素的置信度的图像,其中,视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,离散参数包括但不限于标准差参数。
在本实施例中,预定神经网络可以是在对待处理双目图像的左视图和右视图进行处理之前,预先确定的神经网络,此时通过预定神经网络可以获得需要的视差图像,预定神经网络也可以是在对待处理双目图像的左视图和右视图进行处理之前,预先训练的神经网络,此时待处理双目图像的左视图和右视图可以是从训练数据集中获取的图像,可以通过待处理双目图像的左视图和右视图对预定神经网络进行训练。
在一个可选的例子中,预定神经网络可以包括:双目立体匹配神经网络、两个卷积层和一个归一化(Sigmoid)层,可以将待处理双目图像的左视图和右视图经过双目立体匹配神经网络后,依次经过两个卷积层和一个归一化层得到置信度图像。本实施例对获得置信度图像的网络结构不作限定。
104,根据视差图像得到待处理双目图像的深度图像。
可选地,在获得待处理双目图像的视差图像后,可以根据相机成像的投影模型,通过深度信息与视差信息的几何运算关系,获得待处理双目图像的深度图像,本实施例对根据视差图像获得深度图像的方法不作限定。
本实施例提供的双目图像的深度估计方法,通过将待处理双目图像的左视图和右视图输入预定神经网络,得到视差图像及其置信度图像,其中视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,然后根据视差图像得到待处理双目图像的深度图像,利用预定神经网络在得到视差图像的同时得到对应的置信度图像,可以通过无监督的学习方式得到视差图像对应的置信度图像,而不需要置信度标注作为监督,由于置信度具有物理意义,即视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,因此可以利用置信度图像来检测视差图像中可能出现错误的区域,帮助分析视差图像,得到更加精确的深度图像。
在一些实施例中,可以利用损失函数训练预定神经网络,其中,损失函数可以由视差图像中各像素的置信度及该像素在预设分布的离散参数计算得到,即根据置信度的物理意义:视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,可以得到包含置信度的损失函数,利用损失函数中的置信度可以优化损失函数,使利用该损失函数训练得到的预定神经网络具有更好的鲁棒性。
可选地,损失函数可以包括:聚焦损失项和正则化项,其中,聚焦损失项可以通过置信度自动调整视差图像中各像素在损失函数中的权重,使视差图像中置信度较高的像素具有较大的权重,视差图像中置信度较低的像素具有较小的权重,从而可以将学习得到的置信度同步应用到预定神经网络的训练过程中,减小输入数据中的噪声带来的影响,例如:输入数据中的噪声为待处理双目图像中被遮挡的区域等,使预定神经网络可以收敛于更优的阶段,具有更好的鲁棒性。
可选地,损失函数中的正则化项可以包括:与置信度相关的正则化项和与预定神经网络参数相关的正则化项,其中,与置信度相关的正则化项可以使视差图像中置信度较低的像素的损失权重不会过小,从而保证训练的效率,与预定神经网络参数相关的正则化项,也成为权重正则化项,可以防止在训练过程中预定神经网络过拟合。
图2为本发明一些实施例的获得包含置信度的损失函数的流程图。
如图2所示,该方法包括:
202,基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像,得到关于预定神经网络参数的似然函数。
可选地,可以基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像,根据贝叶斯概率论得到关于预定神经网络参数的似然函数。
204,基于视差图像中各像素服从的预设分布,得到视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系。
可选地,可以通过使视差图像中的各像素服从不同标准差的预设分布,得到视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系。
206,基于视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系,预定神经网络参数服从预设分布,视差图像中各像素的置信度服从非递减的分布,对似然函数取负对数,得到损失函数。
可选地,预定神经网络参数可以服从均值为零、标准差为1的预设分布。
可选地,预设分布可以为拉普拉斯分布或者高斯分布。
在一些实施例中,响应于预设分布为拉普拉斯分布的情况,损失函数包括:由待处理双目图像的视差图像与真实视差图像中各像素的视差值的差值的绝对值与该像素的置信度的比值的平均值得到的聚焦损失项,由视差图像中各像素的置信度的平均值得到的正则化项,和由预定神经网络参数得到的正则化项。
其中,根据贝叶斯概率论,基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像,得到关于预定神经网络参数的似然函数为:
其中,x={x1,x2,...,xT}为待处理双目图像,y={y1,y2,...,yN}为真实视差图像,其中T和N分别为待处理双目图像和真实视差图像中的像素数量,w为预定神经网络的参数,c={c1,c2,...,cN}为置信度图像。
根据视差图像中各像素服从不同标准差的拉普拉斯分布:
得到视差图像中各像素的置信度与该像素在拉普拉斯分布的离散参数之间的负相关关系为:
bi=f(ci)=-kci+a (公式三)
其中,b={b1,b2,...,bN}为不同标准差的拉普拉斯分布,bi为拉普拉斯分布的标准差参数,即离散参数,ci∈[0,1]作为一个随机变量,以bi与ci的线性递减函数表示负相关关系,k和a为满足a≥k+1的两个正常数,使得总是满足bi≥1。
根据预定神经网络参数服从均值为零、标准差为1的拉普拉斯分布:
P(w|x)∝e-|w| (公式四)
根据视差图像中各像素的置信度服从非递减的分布,其中γ≥0:
将公式二、公式三、公式四和公式五带入公式一,对似然函数取负对数,得到损失函数:
在另一些实施例中,响应于预设分布为高斯分布的情况,损失函数包括:由待处理双目图像的视差图像与真实标视差图像中各像素的视差值的差值的平方与该像素的置信度的比值的平均值得到的聚焦损失项,由视差图像中各像素的置信度的平均值得到的正则化项,和由预定神经网络参数得到的正则化项。
其中,根据贝叶斯概率论,基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像,得到关于预定神经网络参数的似然函数为:
其中,x={x1,x2,...,xT}为待处理双目图像,y={y1,y2,...,yN}为真实视差图像,其中T和N分别为待处理双目图像和真实视差图像中的像素数量,w为预定神经网络的参数,c={c1,c2,...,cN}为置信度图像。
根据视差图像中各像素服从不同标准差的高斯分布:
得到视差图像中各像素的置信度与该像素在高斯分布的离散参数之间的负相关关系为:
bi=f(ci)=-kci+a (公式三)
其中,b={b1,b2,...,bN}为不同标准差的高斯分布,bi为高斯分布的标准差参数,即离散参数,ci∈[0,1]作为一个随机变量,以bi与ci的线性递减函数表示负相关关系,k和a为满足a≥k+1的两个正常数,使得总是满足bi≥1。
根据预定神经网络参数服从均值为零、标准差为1的高斯分布:
根据视差图像中各像素的置信度服从非递减的分布,其中γ≥0:
将公式七、公式三、公式八和公式五带入公式一,对似然函数取负对数,得到损失函数:
本发明上述各实施例的方法,可以应用于移动终端或者自动驾驶等设备的图像处理,其中,移动终端例如为手机、平板电脑等。
图3是本发明一些实施例的双目图像的深度估计装置的结构示意图。
如图3所示,该装置包括:视差图像获取单元310和深度图像获取单元320。其中,
视差图像获取单元310,用于将待处理双目图像输入预定神经网络,得到视差图像及其置信度图像。
在本实施例中,待处理双目图像可以是从图像采集设备直接获取的图像,例如:图像采集设备为摄像机等,也可以从存储设备获取的预先存储的图像,例如:存储设备为U盘等,还可以是通过网络从网站服务器获取的图像,从本实施例对待处理双目图像的获得方式不作限定。将待处理双目图像的左视图和右视图,或者待处理双目图像的上视图和下视图输入预定神经网络,得到视差图像及其置信度图像。左视图、右视图、上视图和下视图为相对的两个视图,具体还可以为其他称谓,本实施例不做具体限定,在后续的实施例中采用左视图、右视图来描述。视差图像可以是以左视图为基准得到的左视图对应的视差图像,也可以是以右视图为基准得到的右视图对应的视差图像,本实施例对此不作限定。置信度图像可以是基于视差图像获得反应视差图像中各像素的置信度的图像,其中,视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,离散参数包括但不限于标准差参数。
在本实施例中,预定神经网络可以是在对待处理双目图像的左视图和右视图进行处理之前,预先确定的神经网络,此时通过预定神经网络可以获得需要的视差图像,预定神经网络也可以是在对待处理双目图像的左视图和右视图进行处理之前,预先训练的神经网络,此时待处理双目图像的左视图和右视图可以是从训练数据集中获取的图像,可以通过待处理双目图像的左视图和右视图对预定神经网络进行训练。
在一个可选的例子中,预定神经网络可以包括:双目立体匹配神经网络、两个卷积层和一个归一化(Sigmoid)层,视差图像获取单元310可以将待处理双目图像的左视图和右视图经过双目立体匹配神经网络后,依次经过两个卷积层和一个归一化层得到置信度图像。本实施例对获得置信度图像的网络结构不作限定。
深度图像获取单元320,用于根据视差图像得到待处理双目图像的深度图像。
可选地,在获得待处理双目图像的视差图像后,可以根据相机成像的投影模型,通过深度信息与视差信息的几何运算关系,获得待处理双目图像的深度图像,本实施例对根据视差图像获得深度图像的方法不作限定。
本实施例提供的双目图像的深度估计装置,通过将待处理双目图像的左视图和右视图输入预定神经网络,得到视差图像及其置信度图像,其中视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,然后根据视差图像得到待处理双目图像的深度图像,利用预定神经网络在得到视差图像的同时得到对应的置信度图像,可以通过无监督的学习方式得到视差图像对应的置信度图像,而不需要置信度标注作为监督,由于置信度具有物理意义,即视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,因此可以利用置信度图像来检测视差图像中可能出现错误的区域,帮助分析视差图像,得到更加精确的深度图像。
在一些实施例中,双目图像的深度估计装置还可以包括:神经网络训练单元,用于利用损失函数训练预定神经网络,其中,损失函数可以由视差像图中各像素的置信度及该像素在预设分布的离散参数计算得到,即根据置信度的物理意义:视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系,可以得到包含置信度的损失函数,利用损失函数中的置信度可以优化损失函数,使利用该损失函数训练得到的预定神经网络具有更好的鲁棒性。
可选地,损失函数可以包括:聚焦损失项和正则化项,其中,聚焦损失项可以通过置信度自动调整视差图像中各像素在损失函数中的权重,使视差像图中置信度较高的像素具有较大的权重,视差图像中置信度较低的像素具有较小的权重,从而可以将学习得到的置信度同步应用到预定神经网络的训练过程中,减小输入数据中的噪声带来的影响,例如:输入数据中的噪声为待处理双目图像中被遮挡的区域等,使预定神经网络可以收敛于更优的阶段,具有更好的鲁棒性。
可选地,损失函数中的正则化项可以包括:与置信度相关的正则化项和与预定神经网络参数相关的正则化项,其中,与置信度相关的正则化项可以使视差图像中置信度较低的像素的损失权重不会过小,从而保证训练的效率,与预定神经网络参数相关的正则化项,也成为权重正则化项,可以防止在训练过程中预定神经网络过拟合。
可选地,神经网络训练单元可以包括:损失函数获得模块,用于获得包含置信度的损失函数。
在一个可选的例子中,损失函数获得模块,可以基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像,得到关于预定神经网络参数的似然函数;基于视差图像中各像素服从的预设分布,得到视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系;以及基于视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系,预定神经网络参数服从预设分布,视差图像中各像素的置信度服从非递减的分布,对似然函数取负对数,得到损失函数。
可选地,损失函数获得模块可以基于待处理双目图像的视差图像及其置信度图像、预定神经网络参数和真实视差图像,根据贝叶斯概率论得到关于预定神经网络参数的似然函数。
可选地,损失函数获得模块可以通过使视差图像中的各像素服从不同标准差的预设分布,得到视差图像中各像素的置信度与该像素在预设分布的离散参数之间的负相关关系。
可选地,预定神经网络参数可以服从均值为零、标准差为1的预设分布。
可选地,预设分布可以为拉普拉斯分布或者高斯分布。
在一些实施例中,响应于预设分布为拉普拉斯分布的情况,损失函数包括:由待处理双目图像的视差图像与真实视差图像中各像素的视差值的差值的绝对值与该像素的置信度的比值的平均值得到的聚焦损失项,由视差图像中各像素的置信度的平均值得到的正则化项,和由预定神经网络参数得到的正则化项。
在另一些实施例中,响应于预设分布为高斯分布的情况,损失函数包括:由待处理双目图像的视差图像与真实视差图像中各像素的视差值的差值的平方与该像素的置信度的比值的平均值得到的聚焦损失项,由视差图像中各像素的置信度的平均值得到的正则化项,和由预定神经网络参数得到的正则化项。
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图4,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备400的结构示意图:如图4所示,电子设备400包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)401,和/或一个或多个图像处理器(GPU)413等,处理器可以根据存储在只读存储器(ROM)402中的可执行指令或者从存储部分408加载到随机访问存储器(RAM)403中的可执行指令而执行各种适当的动作和处理。通信部412可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,处理器可与只读存储器402和/或随机访问存储器403中通信以执行可执行指令,通过总线404与通信部412相连、并经通信部412与其他目标设备通信,从而完成本申请实施例提供的任一项方法对应的操作,例如,将待处理双目图像的左视图和右视图输入预定神经网络,得到视差图像及其置信度图像,其中,所述视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系;根据所述视差图像得到所述待处理双目图像的深度图像。
此外,在RAM 403中,还可存储有装置操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。在有RAM403的情况下,ROM402为可选模块。RAM403存储可执行指令,或在运行时向ROM402中写入可执行指令,可执行指令使中央处理单元401执行上述通信方法对应的操作。输入/输出(I/O)接口405也连接至总线404。通信部412可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
需要说明的,如图4所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图4的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU413和CPU401可分离设置或者可将GPU413集成在CPU401上,通信部可分离设置,也可集成设置在CPU401或GPU413上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令,例如,将待处理双目图像的左视图和右视图输入预定神经网络,得到视差图像及其置信度图像,其中,所述视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系;根据所述视差图像得到所述待处理双目图像的深度图像。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的方法中限定的上述功能。
在一个或多个可选实施方式中,本发明实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,该指令被执行时使得计算机执行上述任一可能的实现方式中的双目图像的深度估计方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,该计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,该计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
在一个或多个可选实施方式中,本发明实施例还提供了一种双目图像的深度估计方法及其对应的装置、电子设备、计算机存储介质、计算机程序以及计算机程序产品,其中,该方法包括:第一装置向第二装置发送基于双目图像的深度估计指示,该指示使得第二装置执行上述任一可能的实施例中的双目图像的深度估计方法;第一装置接收第二装置发送的双目图像的深度估计的结果。
在一些实施例中,该双目图像的深度估计指示可以具体为调用指令,第一装置可以通过调用的方式指示第二装置执行双目图像的深度估计,相应地,响应于接收到调用指令,第二装置可以执行上述双目图像的深度估计方法中的任意实施例中的步骤和/或流程。
应理解,本发明实施例中的“第一”、“第二”等术语仅仅是为了区分,而不应理解成对本发明实施例的限定。
还应理解,在本发明中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种双目图像的深度估计方法,其特征在于,包括:
将待处理双目图像输入预定神经网络,得到视差图像及其置信度图像,其中,所述视差图像中各像素在预设分布的离散参数与该像素的置信度呈负相关关系;
根据所述视差图像得到所述待处理双目图像的深度图像。
2.根据权利要求1所述的方法,其特征在于,还包括:
利用损失函数训练所述预定神经网络,其中,所述损失函数由所述视差图像中各像素的置信度及该像素在所述预设分布的离散参数计算得到。
3.根据权利要求2所述的方法,其特征在于,所述损失函数包括:正则化项和调整所述视差图像中各像素在所述损失函数中的权重的聚焦损失项。
4.根据权利要求2或3所述的方法,其特征在于,所述损失函数由所述视差图像中各像素的置信度及该像素在所述预设分布的离散参数计算得到,包括:
基于所述视差图像及其所述置信度图像、所述预定神经网络参数和真实视差图像,得到关于所述预定神经网络参数的似然函数;
基于所述视差图像中各像素服从的所述预设分布,得到所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系;
基于所述视差图像中各像素的置信度与该像素在所述预设分布的离散参数之间的负相关关系,所述预定神经网络参数服从所述预设分布,所述视差图像中各像素的置信度服从非递减的分布,对所述似然函数取负对数,得到所述损失函数。
5.根据权利要求2至4中任意一项所述的方法,其特征在于,所述预设分布包括拉普拉斯分布或者高斯分布。
6.一种双目图像的深度估计装置,其特征在于,包括:
视差图像获取单元,用于将待处理双目图像输入预定神经网络,得到视差图像及其置信度图像,其中,所述视差图像中各像素在预设分布的的离散参数与该像素的置信度呈负相关关系;
深度图像获取单元,用于根据所述视差图像得到所述待处理双目图像的深度图像。
7.一种电子设备,其特征在于,包括权利要求6所述的装置。
8.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行所述可执行指令从而完成权利要求1至5中任意一项所述的方法。
9.一种计算机程序,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现权利要求1至5中任意一项所述方法的指令。
10.一种计算机存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时实现权利要求1至5中任意一项所述的方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847268.7A CN109191512B (zh) | 2018-07-27 | 2018-07-27 | 双目图像的深度估计方法及装置、设备、程序及介质 |
PCT/CN2019/082549 WO2020019765A1 (zh) | 2018-07-27 | 2019-04-12 | 双目图像的深度估计方法及装置、设备、程序及介质 |
SG11202003899WA SG11202003899WA (en) | 2018-07-27 | 2019-04-12 | Method and apparatus for estimating depth of binocular image, device, program, and medium |
JP2020522837A JP7123133B2 (ja) | 2018-07-27 | 2019-04-12 | 両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体 |
TW108126234A TWI721510B (zh) | 2018-07-27 | 2019-07-24 | 雙目圖像的深度估計方法、設備及儲存介質 |
US16/858,824 US11295466B2 (en) | 2018-07-27 | 2020-04-27 | Method and apparatus for estimating depth of binocular image, device, program, and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810847268.7A CN109191512B (zh) | 2018-07-27 | 2018-07-27 | 双目图像的深度估计方法及装置、设备、程序及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109191512A true CN109191512A (zh) | 2019-01-11 |
CN109191512B CN109191512B (zh) | 2020-10-30 |
Family
ID=64937763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810847268.7A Active CN109191512B (zh) | 2018-07-27 | 2018-07-27 | 双目图像的深度估计方法及装置、设备、程序及介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11295466B2 (zh) |
JP (1) | JP7123133B2 (zh) |
CN (1) | CN109191512B (zh) |
SG (1) | SG11202003899WA (zh) |
TW (1) | TWI721510B (zh) |
WO (1) | WO2020019765A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887019A (zh) * | 2019-02-19 | 2019-06-14 | 北京市商汤科技开发有限公司 | 一种双目匹配方法及装置、设备和存储介质 |
CN110148179A (zh) * | 2019-04-19 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | 一种训练用于估计图像视差图的神经网络模型方法、装置及介质 |
WO2020019765A1 (zh) * | 2018-07-27 | 2020-01-30 | 深圳市商汤科技有限公司 | 双目图像的深度估计方法及装置、设备、程序及介质 |
CN111723926A (zh) * | 2019-03-22 | 2020-09-29 | 北京地平线机器人技术研发有限公司 | 用于确定图像视差的神经网络模型的训练方法和训练装置 |
CN112116639A (zh) * | 2020-09-08 | 2020-12-22 | 苏州浪潮智能科技有限公司 | 一种图像配准方法、装置及电子设备和存储介质 |
CN112634341A (zh) * | 2020-12-24 | 2021-04-09 | 湖北工业大学 | 多视觉任务协同的深度估计模型的构建方法 |
CN113538575A (zh) * | 2020-04-20 | 2021-10-22 | 辉达公司 | 使用一个或更多个神经网络进行距离确定 |
CN113706599A (zh) * | 2021-10-29 | 2021-11-26 | 纽劢科技(上海)有限公司 | 一种基于伪标签融合的双目深度估计方法 |
CN114565656A (zh) * | 2022-02-10 | 2022-05-31 | 北京箩筐时空数据技术有限公司 | 相机位姿预测方法及装置、存储介质和计算机设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11703046B2 (en) * | 2018-12-16 | 2023-07-18 | Sensia Llc | Pump system with neural network to manage buckling of a rod string |
WO2021229455A1 (en) * | 2020-05-11 | 2021-11-18 | Niantic, Inc. | Generating stereo image data from monocular images |
JP7451456B2 (ja) | 2021-03-22 | 2024-03-18 | 株式会社東芝 | 運動推定装置及びそれを用いた運動推定方法 |
CN113313729A (zh) * | 2021-05-26 | 2021-08-27 | 惠州中国科学院遥感与数字地球研究所空间信息技术研究院 | 单极对象图像成像方法、装置、计算机设备和存储介质 |
WO2023047562A1 (ja) * | 2021-09-27 | 2023-03-30 | 日本電気株式会社 | 学習装置、学習方法、及び、記録媒体 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102523464A (zh) * | 2011-12-12 | 2012-06-27 | 上海大学 | 一种双目立体视频的深度图像估计方法 |
CN102609936A (zh) * | 2012-01-10 | 2012-07-25 | 四川长虹电器股份有限公司 | 基于置信度传播的图像立体匹配方法 |
EP2509324A1 (en) * | 2011-04-08 | 2012-10-10 | Thomson Licensing | Method and apparatus for analyzing stereoscopic or multi-view images |
US20130107207A1 (en) * | 2011-11-02 | 2013-05-02 | Intuitive Surgical Operations, Inc. | Method and system for stereo gaze tracking |
CN103424105A (zh) * | 2012-05-16 | 2013-12-04 | 株式会社理光 | 对象检测方法和装置 |
CN103731651A (zh) * | 2012-10-10 | 2014-04-16 | 索尼公司 | 图像处理装置、图像处理方法和程序 |
US20140267243A1 (en) * | 2013-03-13 | 2014-09-18 | Pelican Imaging Corporation | Systems and Methods for Synthesizing Images from Image Data Captured by an Array Camera Using Restricted Depth of Field Depth Maps in which Depth Estimation Precision Varies |
CN104662896A (zh) * | 2012-09-06 | 2015-05-27 | 诺基亚技术有限公司 | 用于图像处理的装置、方法和计算机程序 |
CN105096300A (zh) * | 2014-05-08 | 2015-11-25 | 株式会社理光 | 对象检测方法和设备 |
CN106683182A (zh) * | 2017-01-12 | 2017-05-17 | 南京大学 | 一种权衡立体匹配和视觉外形的三维重建方法 |
CN108269273A (zh) * | 2018-02-12 | 2018-07-10 | 福州大学 | 一种全景纵向漫游中极线匹配的置信传播方法 |
US20180211402A1 (en) * | 2012-08-21 | 2018-07-26 | Fotonation Cayman Limited | Systems and Methods for Estimating Depth and Visibility from a Reference Viewpoint for Pixels in a Set of Images Captured from Different Viewpoints |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102011054833A1 (de) * | 2010-10-29 | 2012-05-03 | Hoya Corp. | Verfahren zum Messen der binokularen Sehleistung, Programm zum Messen der binokularen Sehleistung, Verfahren zum Entwerfen von Brillengläsern und Verfahren zur Herstellung von Brillengläsern |
JP2012253666A (ja) * | 2011-06-06 | 2012-12-20 | Sony Corp | 画像理装置および方法、並びにプログラム |
JP2013005259A (ja) * | 2011-06-17 | 2013-01-07 | Sony Corp | 画像処理装置、および画像処理方法、並びにプログラム |
JP5367034B2 (ja) * | 2011-08-24 | 2013-12-11 | 株式会社ソニー・コンピュータエンタテインメント | 画像処理装置および画像処理方法 |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
TWI608447B (zh) * | 2015-09-25 | 2017-12-11 | 台達電子工業股份有限公司 | 立體影像深度圖產生裝置及方法 |
WO2017055412A1 (en) * | 2015-09-30 | 2017-04-06 | Siemens Healthcare Gmbh | Method and system for classification of endoscopic images using deep decision networks |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
WO2017154389A1 (ja) * | 2016-03-10 | 2017-09-14 | 株式会社リコー | 画像処理装置、撮像装置、移動体機器制御システム、画像処理方法、及びプログラム |
US10841491B2 (en) * | 2016-03-16 | 2020-11-17 | Analog Devices, Inc. | Reducing power consumption for time-of-flight depth imaging |
US10482633B2 (en) * | 2016-09-12 | 2019-11-19 | Zebra Medical Vision Ltd. | Systems and methods for automated detection of an indication of malignancy in a mammographic image |
WO2018057714A1 (en) * | 2016-09-21 | 2018-03-29 | The General Hospital Corporation | Systems, methods and media for automatically generating a bone age assessment from a radiograph |
US10003768B2 (en) * | 2016-09-28 | 2018-06-19 | Gopro, Inc. | Apparatus and methods for frame interpolation based on spatial considerations |
US10003787B1 (en) * | 2016-12-21 | 2018-06-19 | Canon Kabushiki Kaisha | Method, system and apparatus for refining a depth map |
US10580131B2 (en) * | 2017-02-23 | 2020-03-03 | Zebra Medical Vision Ltd. | Convolutional neural network for segmentation of medical anatomical images |
US11835524B2 (en) * | 2017-03-06 | 2023-12-05 | University Of Southern California | Machine learning for digital pathology |
US10616482B2 (en) * | 2017-03-10 | 2020-04-07 | Gopro, Inc. | Image quality assessment |
WO2018222900A1 (en) * | 2017-05-31 | 2018-12-06 | Intel Corporation | Computationally-efficient quaternion-based machine-learning system |
US11200665B2 (en) * | 2017-08-02 | 2021-12-14 | Shanghai Sixth People's Hospital | Fundus image processing method, computer apparatus, and storage medium |
US10970425B2 (en) * | 2017-12-26 | 2021-04-06 | Seiko Epson Corporation | Object detection and tracking |
US11087130B2 (en) * | 2017-12-29 | 2021-08-10 | RetailNext, Inc. | Simultaneous object localization and attribute classification using multitask deep neural networks |
US10956714B2 (en) * | 2018-05-18 | 2021-03-23 | Beijing Sensetime Technology Development Co., Ltd | Method and apparatus for detecting living body, electronic device, and storage medium |
CN110832275B (zh) * | 2018-06-14 | 2021-05-18 | 北京嘀嘀无限科技发展有限公司 | 基于双目图像更新高分辨率地图的系统和方法 |
CN109191512B (zh) * | 2018-07-27 | 2020-10-30 | 深圳市商汤科技有限公司 | 双目图像的深度估计方法及装置、设备、程序及介质 |
-
2018
- 2018-07-27 CN CN201810847268.7A patent/CN109191512B/zh active Active
-
2019
- 2019-04-12 JP JP2020522837A patent/JP7123133B2/ja active Active
- 2019-04-12 SG SG11202003899WA patent/SG11202003899WA/en unknown
- 2019-04-12 WO PCT/CN2019/082549 patent/WO2020019765A1/zh active Application Filing
- 2019-07-24 TW TW108126234A patent/TWI721510B/zh active
-
2020
- 2020-04-27 US US16/858,824 patent/US11295466B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2509324A1 (en) * | 2011-04-08 | 2012-10-10 | Thomson Licensing | Method and apparatus for analyzing stereoscopic or multi-view images |
US20130107207A1 (en) * | 2011-11-02 | 2013-05-02 | Intuitive Surgical Operations, Inc. | Method and system for stereo gaze tracking |
CN102523464A (zh) * | 2011-12-12 | 2012-06-27 | 上海大学 | 一种双目立体视频的深度图像估计方法 |
CN102609936A (zh) * | 2012-01-10 | 2012-07-25 | 四川长虹电器股份有限公司 | 基于置信度传播的图像立体匹配方法 |
CN103424105A (zh) * | 2012-05-16 | 2013-12-04 | 株式会社理光 | 对象检测方法和装置 |
US20180211402A1 (en) * | 2012-08-21 | 2018-07-26 | Fotonation Cayman Limited | Systems and Methods for Estimating Depth and Visibility from a Reference Viewpoint for Pixels in a Set of Images Captured from Different Viewpoints |
CN104662896A (zh) * | 2012-09-06 | 2015-05-27 | 诺基亚技术有限公司 | 用于图像处理的装置、方法和计算机程序 |
CN103731651A (zh) * | 2012-10-10 | 2014-04-16 | 索尼公司 | 图像处理装置、图像处理方法和程序 |
US20140267243A1 (en) * | 2013-03-13 | 2014-09-18 | Pelican Imaging Corporation | Systems and Methods for Synthesizing Images from Image Data Captured by an Array Camera Using Restricted Depth of Field Depth Maps in which Depth Estimation Precision Varies |
CN105096300A (zh) * | 2014-05-08 | 2015-11-25 | 株式会社理光 | 对象检测方法和设备 |
CN106683182A (zh) * | 2017-01-12 | 2017-05-17 | 南京大学 | 一种权衡立体匹配和视觉外形的三维重建方法 |
CN108269273A (zh) * | 2018-02-12 | 2018-07-10 | 福州大学 | 一种全景纵向漫游中极线匹配的置信传播方法 |
Non-Patent Citations (5)
Title |
---|
AMIT SHAKED ET AL: "Improved Stereo Matching with Constant Highway Networks and Reflective Confidence Learning", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
E.ALAZAWI ET AL: "Adaptive depth map estimation from 3D integral image", 《2013 IEEE INTERNATIONAL SYMPOSIUM ON BROADBAND MULTIMEDIA SYSTEMS AND BROADCASTING (BMSB)》 * |
SUNOK KIM ET AL: "Deep stereo confidence prediction for depth estimation", 《2017 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 》 * |
朱俊鹏等: "基于卷积神经网络的视差图生成技术", 《计算机应用》 * |
闫磊: "基于双目视觉的机器人目标定位技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11295466B2 (en) | 2018-07-27 | 2022-04-05 | Shenzhen Sensetime Technology Co., Ltd. | Method and apparatus for estimating depth of binocular image, device, program, and medium |
WO2020019765A1 (zh) * | 2018-07-27 | 2020-01-30 | 深圳市商汤科技有限公司 | 双目图像的深度估计方法及装置、设备、程序及介质 |
CN109887019A (zh) * | 2019-02-19 | 2019-06-14 | 北京市商汤科技开发有限公司 | 一种双目匹配方法及装置、设备和存储介质 |
CN111723926A (zh) * | 2019-03-22 | 2020-09-29 | 北京地平线机器人技术研发有限公司 | 用于确定图像视差的神经网络模型的训练方法和训练装置 |
CN111723926B (zh) * | 2019-03-22 | 2023-09-12 | 北京地平线机器人技术研发有限公司 | 用于确定图像视差的神经网络模型的训练方法和训练装置 |
CN110148179A (zh) * | 2019-04-19 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | 一种训练用于估计图像视差图的神经网络模型方法、装置及介质 |
CN113538575A (zh) * | 2020-04-20 | 2021-10-22 | 辉达公司 | 使用一个或更多个神经网络进行距离确定 |
CN112116639A (zh) * | 2020-09-08 | 2020-12-22 | 苏州浪潮智能科技有限公司 | 一种图像配准方法、装置及电子设备和存储介质 |
CN112116639B (zh) * | 2020-09-08 | 2022-06-07 | 苏州浪潮智能科技有限公司 | 一种图像配准方法、装置及电子设备和存储介质 |
CN112634341A (zh) * | 2020-12-24 | 2021-04-09 | 湖北工业大学 | 多视觉任务协同的深度估计模型的构建方法 |
CN112634341B (zh) * | 2020-12-24 | 2021-09-07 | 湖北工业大学 | 多视觉任务协同的深度估计模型的构建方法 |
CN113706599A (zh) * | 2021-10-29 | 2021-11-26 | 纽劢科技(上海)有限公司 | 一种基于伪标签融合的双目深度估计方法 |
CN114565656A (zh) * | 2022-02-10 | 2022-05-31 | 北京箩筐时空数据技术有限公司 | 相机位姿预测方法及装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
TWI721510B (zh) | 2021-03-11 |
TW202008310A (zh) | 2020-02-16 |
US20200258250A1 (en) | 2020-08-13 |
WO2020019765A1 (zh) | 2020-01-30 |
US11295466B2 (en) | 2022-04-05 |
CN109191512B (zh) | 2020-10-30 |
SG11202003899WA (en) | 2020-05-28 |
JP2021502626A (ja) | 2021-01-28 |
JP7123133B2 (ja) | 2022-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109191512B (zh) | 双目图像的深度估计方法及装置、设备、程序及介质 | |
CN109035319B (zh) | 单目图像深度估计方法及装置、设备、程序及存储介质 | |
CN108229479B (zh) | 语义分割模型的训练方法和装置、电子设备、存储介质 | |
US11170210B2 (en) | Gesture identification, control, and neural network training methods and apparatuses, and electronic devices | |
EP3576017B1 (en) | Method and system for determining pose of object in image, and storage medium | |
EP3295426B1 (en) | Edge-aware bilateral image processing | |
US10970821B2 (en) | Image blurring methods and apparatuses, storage media, and electronic devices | |
US11004179B2 (en) | Image blurring methods and apparatuses, storage media, and electronic devices | |
US20200175700A1 (en) | Joint Training Technique for Depth Map Generation | |
EP3968280A1 (en) | Target tracking method and apparatus, storage medium and electronic device | |
US9679387B2 (en) | Depth-weighted group-wise principal component analysis for video foreground/background separation | |
CN108229591A (zh) | 神经网络自适应训练方法和装置、设备、程序和存储介质 | |
CN109300151B (zh) | 图像处理方法和装置、电子设备 | |
CN108228700B (zh) | 图像描述模型的训练方法、装置、电子设备及存储介质 | |
CN106251365A (zh) | 多曝光视频融合方法及装置 | |
US20210358092A1 (en) | Correcting Dust and Scratch Artifacts in Digital Images | |
US11694331B2 (en) | Capture and storage of magnified images | |
US11669977B2 (en) | Processing images to localize novel objects | |
CN113947768A (zh) | 一种基于单目3d目标检测的数据增强方法和装置 | |
CN109543556B (zh) | 动作识别方法、装置、介质及设备 | |
CN108898557B (zh) | 图像恢复方法及装置、电子设备、计算机程序及存储介质 | |
TWI638338B (zh) | 多場景的移動物體偵測方法及其影像處理裝置 | |
CN110232407B (zh) | 图像处理方法和装置、电子设备和计算机存储介质 | |
CN117649575A (zh) | 图像处理网络模型的训练方法、装置、介质和设备 | |
CN114758258A (zh) | 基于几何外观特征推断垃圾位置的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 518054 Guangdong city of Shenzhen province Qianhai Shenzhen Hong Kong cooperation zone before Bay Road No. 1 building 201 room A Patentee after: SHENZHEN SENSETIME TECHNOLOGY Co.,Ltd. Address before: Hisoar Plaza 1052 No. 518000 Guangdong city of Shenzhen province Nanshan District South Road 712 Patentee before: SHENZHEN SENSETIME TECHNOLOGY Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |