CN110009675B - 生成视差图的方法、装置、介质及设备 - Google Patents
生成视差图的方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN110009675B CN110009675B CN201910267616.8A CN201910267616A CN110009675B CN 110009675 B CN110009675 B CN 110009675B CN 201910267616 A CN201910267616 A CN 201910267616A CN 110009675 B CN110009675 B CN 110009675B
- Authority
- CN
- China
- Prior art keywords
- image
- disparity map
- parallax
- point cloud
- cloud data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Abstract
本公开的实施方式公开了一种生成视差图的方法和装置、电子设备、计算机可读存储介质以及计算机程序,其中的生成视差图的方法包括:获取待处理双目图像的预测视差图和待处理双目图像对应的点云数据;其中,所述双目图像包括:第一目图像和第二目图像;根据所述点云数据获取投影视差图;根据所述预测视差图中的视差值和所述投影视差图中的视差值,确定所述待处理双目图像的视差图。
Description
技术领域
本公开涉及计算机视觉技术,尤其是涉及一种生成视差图的方法、生成视差图的装置、电子设备、计算机可读存储介质以及计算机程序。
背景技术
立体匹配技术是指,从相同场景的多个视角图像中找到匹配的像素。匹配的像素之间的距离可以形成视差图。在一些应用场景中,往往需要利用大量的包含视差图样本的数据样本,来训练神经网络。
发明内容
本公开实施方式提供一种生成视差图的技术方案。
根据本公开实施方式其中一方面,提供一种生成视差图的方法,包括:获取待处理双目图像的预测视差图和待处理双目图像对应的点云数据;其中,所述双目图像包括:第一目图像和第二目图像;根据所述点云数据获取投影视差图;根据所述预测视差图中的视差值和所述投影视差图中的视差值,确定所述待处理双目图像的视差图。
在本公开一实施方式中,所述获取待处理双目图像的预测视差图,包括:获取第一目图像和第二目图像的匹配像素位置相关信息;根据所述匹配像素位置相关信息,获取所述待处理双目图像的预测视差图。
在本公开又一实施方式中,所述获取第一目图像和第二目图像的匹配像素位置相关信息,包括:获取第一目图像的特征信息和第二目图像的特征信息;对所述第一目图像的特征信息和第二目图像的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像和第二目图像的匹配像素位置相关信息。
在本公开再一实施方式中,在所述第一目图像被作为主视角图像的情况下,所述根据所述匹配像素位置相关信息,获取所述待处理双目图像的预测视差图,包括:将所述匹配像素位置相关信息与所述第一目图像的特征信息进行拼接;对所述拼接后的信息进行编解码处理,根据编解码处理的结果,获得所述待处理双目图像的预测视差图。
在本公开再一实施方式中,所述待处理双目图像对应的点云数据包括:所述待处理双目图像对应的至少两帧点云数据;所述根据所述点云数据获取投影视差图包括:根据采集所述至少两帧点云数据的设备位置变化信息,对所述至少两帧点云数据进行数据增强的融合处理,获得所述待处理双目图像的融合点云数据;根据所述融合点云数据,获取投影视差图。
在本公开再一实施方式中,所述待处理双目图像对应的至少两帧点云数据包括:所述待处理双目图像的点云数据;以及,在时序上,与所述待处理双目图像相邻、且位于所述待处理双目图像的点云数据之前和/或之后的至少一帧点云数据。
在本公开再一实施方式中,所述设备位置变化信息包括:设备位移变化量,和/或,姿态角度变化量。
在本公开再一实施方式中,所述根据采集所述至少两帧点云数据的设备位置变化信息,对所述至少两帧点云数据进行数据增强的融合处理,包括:根据采集所述至少两帧点云数据的设备位置变化信息,对其中的至少一帧点云数据进行变换处理;利用变换处理后的点云数据,对所述待处理双目图像的点云数据进行数据积累处理,获得所述融合点云数据。
在本公开再一实施方式中,所述根据所述融合点云数据,获取投影视差图,包括:根据获得所述待处理双目图像的摄像装置参数、所述摄像装置的双目标定参数以及采集所述点云数据的设备参数,对所述融合点云数据进行投影处理,获得投影视差图。
在本公开再一实施方式中,所述根据所述投影视差图中的视差值以及所述预测视差图中的视差值,确定所述待处理双目图像的视差图,包括:根据所述预测视差图中的视差值对所述投影视差图中的视差值进行过滤,获得所述待处理双目图像的视差图。
在本公开再一实施方式中,所述根据所述预测视差图中的视差值对所述投影视差图中的视差值进行过滤,包括:针对所述投影视差图中的任一像素而言,确定所述预测视差图中的该像素的视差值与所述投影视差图中的该像素的视差值的差异;在所述差异满足预定差异要求的情况下,保留所述投影视差图中的该像素的视差值,否则,不保留所述投影视差图中的该像素的视差值。
在本公开再一实施方式中,所述方法还包括:根据所述待处理双目图像和所述待处理双目图像的视差图,形成第一数据集;其中,所述待处理双目图像被作为第一数据集中的双目图像样本,所述待处理双目图像的视差图被作为第一数据集中的图像样本的视差图样本。
在本公开再一实施方式中,所述获取待处理双目图像的预测视差图,由神经网络系统实现;所述神经网络系统的训练方法包括:利用第二数据集,对所述神经网络系统进行预训练;其中,所述第二数据集包括:双目图像样本和视差图样本,所述双目图像样本包括:第一目图像样本和第二目图像样本。
在本公开再一实施方式中,所述利用第二数据集,对所述神经网络系统进行预训练,包括:将第二数据集中的双目图像样本输入至待训练的神经网络系统中;经由所述神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对所述第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对所述匹配像素位置相关信息与所述第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;根据基于编解码的结果获得的待处理双目图像的预测视差图与第二数据集中的视差图样本的差异,对所述神经网络系统的网络参数进行调整。
在本公开再一实施方式中,所述神经网络系统的训练方法还包括:利用第一数据集,对所述神经网络系统进行调优训练;且利用调优训练后的神经网络,再次获得的双目图像样本的预测视差图,用于与所述投影视差图一起再次获得双目图像样本的视差图。
在本公开再一实施方式中,所述利用第一数据集,对所述神经网络系统进行调优训练,包括:将第一数据集中的双目图像样本输入至预训练后的神经网络系统中;经由所述神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对所述第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对所述匹配像素位置相关信息与所述第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;根据基于编解码的结果获得的双目图像样本的预测视差图与第一数据集中的视差图样本的差异,对所述神经网络系统的网络参数进行调整。
在本公开再一实施方式中,所述获取待处理双目图像的预测视差图和待处理双目图像对应的点云数据,包括:基于数据采集设备上设置的摄像装置和雷达设备,获取真实场景双目图像以及所述真实场景双目图像对应的至少两帧点云数据;所述根据所述点云数据获取投影视差图还包括:基于数据采集设备上设置的测量位姿装置,获取雷达设备位置变化信息。
在本公开再一实施方式中,所述确定所述待处理双目图像的视差图包括:确定所述真实场景图像的视差图;所述方法还包括:将所述真实场景图像和所述真实场景图像的视差图,作为数据样本添加在第一数据集中,所述视差图样本中的视差值被作为视差值标签。
在本公开再一实施方式中,所述数据采集设备包括:车辆;所述摄像装置、雷达设备以及测量位姿装置固定设置在车辆的顶部;其中,所述雷达设备在获得点云数据时,触发摄像装置获取图像。
在本公开再一实施方式中,所述真实场景图像包括:真实道路场景图像。
在本公开再一实施方式中,所述方法还包括:获取待评价的视差预测系统针对所述第一数据集中的至少一图像样本,形成的至少一预测视差图;根据所述至少一图像样本中的像素所属的深度范围,确定至少一预测视差图中的属于相应深度范围的预测视差值及其数量、以及至少一图像样本中的属于相应深度范围的视差值标签及其数量;根据所述属于该深度范围的预测视差值及其数量和所述属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统的相对视差偏差评价指标。
在本公开再一实施方式中,所述根据所述属于该深度范围的预测视差值及其数量和所述属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统的相对视差偏差评价指标,包括:针对任一深度范围,根据属于该深度范围的预测视差值及其数量和属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统在该深度范围上的相对视差偏差评价指标。
在本公开再一实施方式中,所述根据所述属于该深度范围的预测视差值及其数量和所述属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统的相对视差偏差评价指标,还包括:根据所述待评价的视差预测系统在多个深度范围上的相对视差偏差评价指标,确定待评价的视差预测系统在预测视差图上的相对视差偏差评价指标。
在本公开再一实施方式中,所述方法还包括:获取待评价的视差预测系统针对所述第一数据集中的至少一图像样本,形成的至少一预测视差图;根据至少一图像样本中的像素所属的对象类别,获取至少一预测视差图中的属于相应对象类别的像素的预测视差值、以及至少一视差图样本中的属于相应对象类别的像素的视差值标签;针对任一对象类别,根据属于所述对象类别的像素的预测视差值和属于所述对象类别的像素的视差值标签,确定成功立体匹配的视差值,并根据成功立体匹配的视差值,确定所述待评价的视差预测系统在该对象类别上的立体匹配率评价指标。
根据本公开实施方式其中再一方面,提供一种生成视差图的装置,包括:第一获取模块,用于获取待处理双目图像的预测视差图和待处理双目图像对应的点云数据;其中,所述双目图像包括:第一目图像和第二目图像;第二获取模块,用于根据所述点云数据获取投影视差图;确定视差图模块,用于根据所述预测视差图中的视差值和所述投影视差图中的视差值,确定所述待处理双目图像的视差图。
在本公开一实施方式中,所述第一获取模块包括:第一子模块,用于获取第一目图像和第二目图像的匹配像素位置相关信息;第二子模块,用于根据所述匹配像素位置相关信息,获取所述待处理双目图像的预测视差图。
在本公开又一实施方式中,所述第一子模块进一步用于:获取第一目图像的特征信息和第二目图像的特征信息;对所述第一目图像的特征信息和第二目图像的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像和第二目图像的匹配像素位置相关信息。
在本公开再一实施方式中,在所述第一目图像被作为主视角图像的情况下,第二子模块将所述匹配像素位置相关信息与所述第一目图像的特征信息进行拼接,并对所述拼接后的信息进行编解码处理,根据编解码处理的结果,获得所述待处理双目图像的预测视差图。
在本公开再一实施方式中,所述待处理双目图像对应的点云数据包括:所述待处理双目图像对应的至少两帧点云数据;所述第二获取模块包括:第三子模块,用于根据采集所述至少两帧点云数据的设备位置变化信息,对所述至少两帧点云数据进行数据增强的融合处理,获得所述待处理双目图像的融合点云数据;第四子模块,用于根据所述融合点云数据,获取投影视差图。
在本公开再一实施方式中,所述待处理双目图像对应的至少两帧点云数据包括:所述待处理双目图像的点云数据;以及在时序上,与所述待处理双目图像相邻、且位于所述待处理双目图像的点云数据之前和/或之后的至少一帧点云数据。
在本公开再一实施方式中,所述设备位置变化信息包括:设备位移变化量,和/或,姿态角度变化量。
在本公开再一实施方式中,所述第三子模块进一步用于:根据采集所述至少两帧点云数据的设备位置变化信息,对其中的至少一帧点云数据进行变换处理;利用变换处理后的点云数据,对所述待处理双目图像的点云数据进行数据积累处理,获得所述融合点云数据。
在本公开再一实施方式中,所述第四子模块进一步用于:根据获得所述待处理双目图像的摄像装置参数、所述摄像装置的双目标定参数以及采集所述点云数据的设备参数,对所述融合点云数据进行投影处理,获得投影视差图。
在本公开再一实施方式中,所述确定视差图模块包括:第五子模块,用于根据所述预测视差图中的视差值对所述投影视差图中的视差值进行过滤,获得所述待处理双目图像的视差图。
在本公开再一实施方式中,所述第五子模块进一步用于:针对所述投影视差图中的任一像素而言,确定所述预测视差图中的该像素的视差值与所述投影视差图中的该像素的视差值的差异;在所述差异满足预定差异要求的情况下,保留所述投影视差图中的该像素的视差值,否则,不保留所述投影视差图中的该像素的视差值。
在本公开再一实施方式中,所述装置还包括:形成数据集模块,用于根据所述待处理双目图像和所述待处理双目图像的视差图,形成第一数据集;其中,所述待处理双目图像被作为第一数据集中的双目图像样本,所述待处理双目图像的视差图被作为第一数据集中的图像样本的视差图样本。
在本公开再一实施方式中,所述装置包括:用于获取预测视差图的神经网络系统以及训练模块;所述训练模块用于,利用第二数据集,对所述神经网络系统进行预训练;其中,所述第二数据集包括:双目图像样本和视差图样本,所述双目图像样本包括:第一目图像样本和第二目图像样本。
在本公开再一实施方式中,所述训练模块将第二数据集中的双目图像样本输入至待训练的神经网络系统中;经由所述神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对所述第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对所述匹配像素位置相关信息与所述第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;所述训练模块根据基于编解码的结果获得的待处理双目图像的预测视差图与第二数据集中的视差图样本的差异,对所述神经网络系统的网络参数进行调整。
在本公开再一实施方式中,所述装置还包括:调优训练模块用于:利用第一数据集,对所述神经网络系统进行调优训练;且所述调优训练模块利用调优训练后的神经网络,再次获得的双目图像样本的预测视差图,用于与所述投影视差图一起再次获得双目图像样本的视差图。
在本公开再一实施方式中,所述调优训练模块将第一数据集中的双目图像样本输入至预训练后的神经网络系统中;经由所述神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对所述第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对所述匹配像素位置相关信息与所述第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;所述调优训练模块根据基于编解码的结果获得的双目图像样本的预测视差图与第一数据集中的视差图样本的差异,对所述神经网络系统的网络参数进行调整。
在本公开再一实施方式中,所述第一获取模块基于数据采集设备上设置的摄像装置和雷达设备,获取真实场景双目图像以及所述真实场景双目图像对应的至少两帧点云数据;所述第三子模块基于数据采集设备上设置的测量位姿装置,获取雷达设备位置变化信息。
在本公开再一实施方式中,所述确定视差图模块用于:确定所述真实场景图像的视差图;所述装置还包括:形成真实数据集模块,用于将所述真实场景图像和所述真实场景图像的视差图,作为数据样本添加在第一数据集中,所述视差图样本中的视差值被作为视差值标签。
在本公开再一实施方式中,所述数据采集设备包括:车辆;所述摄像装置、雷达设备以及测量位姿装置固定设置在车辆的顶部;其中,所述雷达设备在获得点云数据时,触发摄像装置获取图像。
在本公开再一实施方式中,所述真实场景图像包括:真实道路场景图像。
在本公开再一实施方式中,所述装置还包括:第一评价模块,用于获取待评价的视差预测系统针对所述第一数据集中的至少一图像样本,形成的至少一预测视差图;根据所述至少一图像样本中的像素所属的深度范围,确定至少一预测视差图中的属于相应深度范围的预测视差值及其数量、以及至少一图像样本中的属于相应深度范围的视差值标签及其数量;根据所述属于该深度范围的预测视差值及其数量和所述属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统的相对视差偏差评价指标。
在本公开再一实施方式中,针对任一深度范围,所述第一评价模块根据属于该深度范围的预测视差值及其数量和属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统在该深度范围上的相对视差偏差评价指标。
在本公开再一实施方式中,所述第一评价模块根据所述待评价的视差预测系统在多个深度范围上的相对视差偏差评价指标,确定待评价的视差预测系统在预测视差图上的相对视差偏差评价指标。
在本公开再一实施方式中,所述装置还包括:第二评价模块,用于获取待评价的视差预测系统针对所述第一数据集中的至少一图像样本,形成的至少一预测视差图;根据至少一图像样本中的像素所属的对象类别,获取至少一预测视差图中的属于相应对象类别的像素的预测视差值、以及至少一视差图样本中的属于相应对象类别的像素的视差值标签;针对任一对象类别,根据属于所述对象类别的像素的预测视差值和属于所述对象类别的像素的视差值标签,确定成功立体匹配的视差值,并根据成功立体匹配的视差值,确定所述待评价的视差预测系统在该对象类别上的立体匹配率评价指标。
根据本公开实施方式再一方面,提供一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开任一方法实施方式。
根据本公开实施方式再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本公开任一方法实施方式。
根据本公开实施方式的再一个方面,提供一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现本公开任一方法实施方式。
基于本公开提供的生成视差图的方法和装置、电子设备、计算机可读存储介质以及计算机程序,本公开通过利用点云数据的投影视差图和待处理双目图像的预测视差图一起来确定待处理双目图像的视差图,有利于快速准确的获得待处理双目图像的视差图。由此可知,本公开提供的技术方案在有利于提高生成视差图的效率以及准确性。
下面通过附图和实施方式,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施方式,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的生成视差图的方法一个实施方式的流程图;
图2为本公开的待处理双目图像的视差图的一个例子的示意图;
图3为本公开的利用神经网络系统获得待处理双目图像的预测视差图一个实施方式的示意图;
图4为本公开的生成视差图的方法另一个实施方式的示意图;
图5为本公开的数据集制作方法一个实施方式的流程图;
图6为本公开的生成视差图的装置一个实施方式的结构示意图;
图7为实现本公开实施方式的一示例性设备的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。应当注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统及服务器等电子设备,其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子,包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境等。
终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性实施例
图1为本公开生成视差图的方法一个实施例的流程图。如图1所示,该实施例的方法包括:S100、S110以及S120。下面对各步骤进行详细描述。
S100、获取待处理双目图像的预测视差图和待处理双目图像对应的点云数据。
在一个可选示例中,本公开中的待处理双目图像包括但不限于:利用摄像装置拍摄的照片、或者利用摄像装置拍摄的视频中的视频帧等。例如,设置在可移动的物体上的双目摄像装置所拍摄的照片或者所拍摄的视频中的视频帧等。本公开的可移动的物体可以包括但不限于:车辆、机器人、机械臂或者滑轨等。本公开中的摄像装置可以包括但不限于:IR(Infrared Ray,红外线)摄像头、或者RGB(Red Green Blue,红绿蓝)摄像头等。另外,本公开中的摄像装置可以为基于双目的摄像装置。
在一个可选示例中,本公开中的待处理双目图像包括:第一目图像和第二目图像。双目图像可以为左目图像(也可以称为左视角图像)和右目图像(也可以称为右视角图像),例如,第一目图像为左目图像,第二目图像为右目图像。虽然本申请可以利用基于双目的摄像装置(即包括左目摄像头和右目摄像头的摄像装置)进行拍摄,而直接获得待处理双目图像,但是,本公开也可以采用其他方式来获得双目图像,例如,先利用摄像装置(如单目摄像装置)进行拍摄,而获得一单目图像,然后,通过对该单目图像进行变换处理,获得另一单目图像,从而获得待处理双目图像。对单目图像进行变换处理的实现方式包括但不限于:将单目图像输入神经网络中,经由神经网络对该单目图像进行变换处理。本公开中的待处理双目图像的预测视差图是用于描述待处理双目图像的视差的信息。
在一个可选示例中,本公开可以采用多种方式获得待处理双目图像的预测视差图。例如,首先,获取第一目图像以及第二目图像的匹配像素位置相关信息,然后,根据匹配像素位置相关信息,获得待处理双目图像的预测视差图。
可选的,获取第一目图像和第二目图像的匹配像素位置相关信息的实现方式包括但不限于:
首先,获取第一目图像的特征信息,并获取第二目图像的特征信息。
例如,将第一目图像和第二目图像分别输入卷积神经网络(ConvolutionalNeural Networks,CNN)中,经由该卷积神经网络对第一目图像和第二目图像进行特征提取处理,从而根据卷积神经网络输出的信息,获得第一目图像的特征信息和第二目图像的特征信息。
其次,对第一目图像的特征信息和第二目图像的特征信息进行匹配代价相关运算,从而可以根据匹配代价相关运算的结果,获得第一目图像和第二目图像的匹配像素位置相关信息。
例如,针对第一目图像的特征信息和第二目图像的特征信息,进行像素相似度计算,从而根据计算出的像素之间的相似度,可以获得第一目图像和第二目图像的匹配像素位置相关信息。本公开可以利用相关层(Correlation Layer)来执行匹配代价相关运算操作,例如,将第一目图像的特征信息和第二目图像的特征信息分别输入至相关层中,经由该相关层进行像素相似度计算,根据该相关层输出的相关图(Correlation Map),可以获得第一目图像和第二目图像的匹配像素位置相关信息。
可选的,根据匹配像素位置相关信息,获取待处理双目图像的预测视差图的实现方式可以为:在第一目图像被作为主视角图像的情况下,将匹配像素位置相关信息与第一目图像的特征信息进行拼接,之后,对拼接后的信息进行编码处理(即特征提取处理),并对编码处理后的信息进行视差解码处理,从而可以根据解码处理的结果,获得待处理双目图像的预测视差图。
本公开可以采用神经网络系统还获得待处理双目图像的预测视差图。利用神经网络系统获得待处理双目图像的预测视差图的一个例子如下述针对图3的描述。
在一个可选示例中,本公开中的待处理双目图像对应的点云数据可以为至少两帧点云数据。可选的,待处理双目图像对应的至少两帧点云数据不仅可以包括:待处理双目图像的点云数据,还可以包括:在时序上,与待处理双目图像的点云数据相邻,且位于待处理双目图像的点云数据之前和/或之后的至少一帧点云数据。
例如,待处理双目图像对应的至少两帧点云数据包括两部分,其中一部分为:待处理双目图像的点云数据;其中另一部分为:在时序上,与待处理双目图像的点云数据相邻,且位于待处理双目图像的点云数据之前的至少一帧点云数据。
再例如,待处理双目图像对应的至少两帧点云数据包括两部分,其中一部分为待处理双目图像的点云数据;其中另一部分为:在时序上,与待处理双目图像的点云数据相邻,且位于待处理双目图像的点云数据之后的至少一帧点云数据。
再例如,待处理双目图像对应的至少两帧点云数据包括三部分,其中第一部分为:待处理双目图像的点云数据;第二部分为:在时序上,与待处理双目图像的点云数据相邻,位于待处理双目图像的点云数据之前的至少一帧点云数据;第三部分为:在时序上,与待处理双目图像的点云数据相邻,位于待处理双目图像的点云数据之后的至少一帧点云数据。
本公开中的点云数据是三维数据,由于雷达设备等因素,本公开中的待处理双目图像对应的至少两帧点云数据可以均为稀疏点云数据。即点云数据中存在一些空缺的三维激光点位。点云数据中的每一个三维激光点处的数值通常表示该三维激光点位置处的深度值。
在一个可选示例中,待处理双目图像的点云数据可以是:与待处理双目图像同场景、同视角且同时间点拍摄获得的点云数据。例如,本公开可以将摄像装置(如基于双目的摄像装置)和雷达设备分别固定在数据采集车的顶部,且两者具有相同的视角,本公开可以在触发雷达设备进行连续采集多帧点云数据的同时,触发摄像装置进行图像拍摄,与摄像装置所拍摄的图像具有相同采集时间点的点云数据,即为摄像装置拍摄的图像的点云数据(即待处理双目图像的点云数据),而该帧点云数据之前的N1帧点云数据以及之后的N2帧点云数据,即为在时序上,与待处理双目图像的点云数据相邻,且位于待处理双目图像的点云数据之前和之后的至少一帧点云数据。其中,N1和N2均为不小于零的正整数。
可选的,本公开可以利用数据采集车采集多种道路场景和不同气象条件的图像。在本公开的技术应用于生成数据集的应用场景中时,有利于为面向智能驾驶场景的如神经网络等各种类型的模型训练和/或测试等,提供更为丰富的数据样本。
S110、根据上述获取的点云数据,获取投影视差图。
在一个可选示例中,在本公开获得的待处理双目图像对应的点云数据是多帧点云数据的情况下,本公开可以对多帧点云数据进行融合处理,并在融合处理所获得的点云数据的基础上,获取投影视差图。例如,本公开可以根据采集点云数据的设备位置变化信息,对至少两帧点云数据进行数据增强的融合处理,从而获得待处理双目图像的融合点云数据。
在一个可选示例中,本公开中的采集点云数据的设备位置变化信息可以是:在雷达设备采集待处理双目图像对应的至少两帧点云数据的过程中,雷达设备的位置变化信息。雷达设备的位置变化信息可以从雷达设备的位移和雷达设备的视角变化,这两方面中的至少一方面来表示。可选的,本公开可以将拍摄待处理双目图像的点云数据时,雷达设备的位置信息作为初始点。在拍摄待处理双目图像的点云数据的之前帧或之后帧的点云数据时,雷达设备的位置信息往往会在初始点的基础上发生变化,相对于初始点的变化量即为设备位置变化信息。
可选的,从不同帧的点云数据的时序上而言,采集点云数据的设备位置变化信息可以包括:不同时序的点云数据分别与待处理双目图像的点云数据之间的设备位置变化信息。例如,假定待处理双目图像的点云数据为第i帧点云数据,待处理双目图像对应的至少两帧点云数据包括:第i-2帧点云数据、第i-1帧点云数据、第i帧点云数据、第i+1帧点云数据以及第i+2帧点云数据,在上述假定情况下,采集点云数据的设备位置变化信息包括:采集第i-2帧点云数据与采集第i帧点云数据时的设备位置变化信息、采集第i-1帧点云数据与采集第i帧点云数据时的设备位置变化信息、采集第i+1帧点云数据与采集第i帧点云数据时的设备位置变化信息、以及采集第i+2帧点云数据与采集第i帧点云数据时的设备位置变化信息。
在一个可选示例中,采集点云数据的设备位置变化信息包括但不限于:设备位移变化量和姿态角度变化量中的至少一个。设备位移变化量是指由于设备移动而产生的两点之间的距离。设备位移变化量也可以称为设备移动距离。姿态角度变化量是指由于设备移动而使设备的采集视角产生的旋转变化,该姿态角度变化量可以为旋转角度或者旋转弧度等。姿态角度变化量也可以称为设备采集视角旋转量或者设备朝向旋转量等。可选的,姿态角度变化量可以为雷达设备的三维坐标系中的Z轴指向的旋转量。
可选的,设置有摄像装置和雷达设备的数据采集车,在行进过程中进行图像和点云数据的采集,数据数据采集车由于前进、变道、转弯等因素,会使雷达设备发生位移以及采集视角变化,本公开可以根据雷达设备发生的位移以及采集视角的变化,获得采集点云数据的设备位置变化信息。
在一个可选示例中,从不同帧的点云数据的时序上而言,采集点云数据的设备位置变化信息可以包括:不同时序的点云数据分别与待处理双目图像的点云数据之间的设备位移变化量以及姿态角度变化量。例如,假定待处理双目图像的点云数据为第i帧点云数据,且该待处理双目图像对应的至少两帧点云数据包括:第i-2帧点云数据、第i-1帧点云数据、第i帧点云数据、第i+1帧点云数据以及第i+2帧点云数据,在上述假定情况下,采集点云数据的设备位置变化信息可以包括:采集第i-2帧点云数据与采集第i帧点云数据时的设备位移变化量、采集第i-2帧点云数据与采集第i帧点云数据时的姿态角度变化量、采集第i-1帧点云数据与采集第i帧点云数据时的设备位移变化量、采集第i-1帧点云数据与采集第i帧点云数据时的姿态角度变化量、采集第i+1帧点云数据与采集第i帧点云数据时的设备位移变化量、采集第i+1帧点云数据与采集第i帧点云数据时的姿态角度变化量、采集第i+2帧点云数据与采集第i帧点云数据时的设备位移变化量以及采集第i+2帧点云数据与采集第i帧点云数据时的姿态角度变化量。
在一个可选示例中,本公开可以利用测量位姿装置实时获得雷达设备的位置信息,并针对相应的雷达设备的位置信息,进行计算,从而获得设备位置变化信息。上述测量位姿装置包括但不限于:惯性测量单元以及定位装置等。定位装置包括但不限于:GPS(Global Positioning System,全球定位系统)或者北斗卫星导航系统等。
在一个可选示例中,本公开可以对至少一帧点云数据进行变换处理,并利用变换处理后的点云数据对待处理双目图像的点云数据进行数据增强处理,从而获得待处理双目图像的融合点云数据。本公开中的数据增强处理可以包括但不限于下述两者中的至少一个:
a、利用变换处理后的至少一帧点云数据中的未空缺三维激光点的数值,来积累(如填补)待处理双目图像的点云数据中的空缺三维激光点的数值;
b、利用变换处理后的至少一帧点云数据中的未空缺三维激光点的数值,来调整待处理双目图像的点云数据中的相应三维激光点的数值。
本公开通过利用采集点云数据的设备位置变化信息,对相应帧的点云数据进行变换处理,并利用变换处理后的点云数据与待处理双目图像的点云数据进行融合处理,不仅可以自动高效的获得融合点云数据,而且有利于消除融合点云数据中的动态噪声,并有利于提高融合点云数据的稠密度以及准确度,从而有利于提高生成图像的视差图的效率以及准确性。
可选的,对至少一帧点云数据进行变换处理的一个例子为:根据至少一帧点云数据的设备位置变化信息,设置各帧点云数据的变换矩阵,将各帧点云数据与相应的变换矩阵相乘,从而获得变换处理后的各帧点云数据。本公开可以将待处理双目图像的点云数据、变换处理后的点云数据进行叠加,从而获得待处理双目图像的融合点云数据。融合点云数据为三维的点云数据。
可选的,本公开可以利用下述公式(1)获得待处理双目图像的融合点云数据:
在上述公式(1)中,表示待处理双目图像的融合点云数据,k表示待处理双目图像的点云数据为第k帧点云数据;表示第k+i帧点云数据;T(k+i)→k表示采集第k+i帧点云数据与采集第k帧点云数据时的设备位置变化信息所对应的变换矩阵,即第k+i帧点云数据的变换矩阵;m和n均为不小于零的正整数;且m表示在时序上位于待处理双目图像的点云数据之前的点云数据的帧数;n表示在时序上位于待处理双目图像的点云数据之后的点云数据的帧数。
在一个可选示例中,本公开可以根据获得待处理双目图像的摄像装置的参数(如摄像装置的内部参数)、摄像装置的双目标定参数以及获取点云数据的雷达设备的参数(如雷达设备的外部参数),对融合点云数据进行投影处理,即三维的点云数据被投影到待处理双目图像的图像平面,从而获得的投影视差图。
可选的,摄像装置的内部参数可以包括但不限于:摄像装置的畸变参数以及摄像装置的坐标系到图像坐标系的投影参数。摄像装置的双目标定参数包括但不限于:左目摄像头和右目摄像头的姿态变换矩阵。雷达设备的外部参数可以包括但不限:雷达设备的三维坐标系到摄像装置的三维坐标系的旋转平移变换矩阵。
可选的,本公开可以使用下述公式(2)和公式(3)实现对融合点云数据的投影处理:
pc=Prect×Rrect×(R|T)l→c×pl 公式(2)
Dc=f×b/depth 公式(3)
在上述公式(2)中,pc表示投影处理后的像素点的深度值;pl表示三维的点云数据中的三维激光点;Prect表示摄像装置的内部参数所形成的矩阵;Rrect表示摄像装置的双目标定参数所形成的矩阵,例如,左目摄像头和右目摄像头的姿态变换矩阵;(R|T)l→c表示摄像装置的内部参数和雷达设备的外部参数所形成的矩阵。
在上述公式(3)中,Dc表示投影视差图;f表示摄像装置的焦距;b表示摄像装置的基准线长度;depth表示投影处理后的像素点的深度值,即上述公式(2)中的pc。
通过利用上述公式(2)和公式(3)来实现投影处理,有利于快捷的获得投影视差图。
可选的,本公开中的投影视差图可以认为是其中的视差值需要进行校正处理的视差图。本公开通过对待处理双目图像的投影视差图中的视差值进行校正,从而形成待处理双目图像最终的视差图,有利于提高待处理双目图像的视差图的准确性。
S120、根据预测视差图中的视差值和投影视差图中的视差值,确定待处理双目图像的视差图。
在一个可选示例中,本公开可以根据预测视差图中的视差值对投影视差图中的视差值进行过滤处理,获得待处理双目图像的视差图。例如,对投影视差图中的视差值进行过滤的方式可以为:针对投影视差图中的任一像素而言,获取预测视差图中的该像素位置处的视差值(下述简称为第一视差值),并获取投影视差图中的该像素位置处的视差值(下述简称为第二视差值),然后,确定第一视差值和第二视差值之间的差异,并判断该差异是否满足预定差异要求,如果差异满足预定差异要求,则保留投影视差图中的该像素位置处的视差值(即保留第二视差值),如果差异不满足预定差异要求,则可以删除投影视差图中的该像素位置处的视差值(即删除第二视差值)。
可选的,本公开中的预定差异要求可以根据实际需要设置。例如,预定差异要求包括但不限于:两者的差值不大于预定差值。
可选的,本公开对投影视差图进行过滤的方式可以表示为下述公式(4)和公式(5)所示的形式:
Df=Dc∩Dg 公式(4)
在上述公式(4)和公式(5)中,Df表示过滤后获得的待处理双目图像的视差图;Dc表示投影视差图;Dg表示待处理双目图像的预测视差图;Dc∩Dg表示利用预测视差图对投影视差图进行过滤处理;dc表示投影视差图中的一像素位置处的视差值;dg表示待处理双目图像的预测视差图中的一像素位置处的视差值;1表示保留待处理双目图像的投影视差图中的该像素位置处的视差值dc;0表示不保留待处理双目图像的投影视差图中的该像素位置处的视差值dc;δd表示预定差值,为一常数值,δd的取值可以根据实际需求设置,例如,δd的取值范围可以为1-4。
在预测视差图和投影视差图中的相同像素位置处的视差值较为相近的情况下,投影视差图中的该像素位置处的视差值的可信度较高;而在预测视差图和投影视差图中的相同像素位置处的视差值相差相大的情况下,投影视差图中的该像素位置处的视差值的可信度较低。本公开通过保留可信度较高的像素的视差值,删除可信度较低的像素的视差值,有利于提高最终获得的待处理双目图像的视差图中的视差值的准确性。
在一个可选示例中,本公开中的待处理双目图像的视差图的一个例子如图2所示。图2中不同的灰度颜色表示不同的视差值。
在一个可选示例中,本公开中的待处理双目图像及其视差图可以用于形成第一数据集。例如,待处理双目图像被作为一条数据样本中的图像样本,待处理双目图像的视差图被作为该条数据样本中的视差图样本,该条数据样本,被添加在第一数据集中。视差图样本中的每一个视差值即被认为是一个视差标签(Label)。由此可知,本申请可以利用生成的视差图实现基于立体匹配的数据集制作。本公开中的立体匹配是指,对于相同场景的多个视角的图像(如双目图像),从中找到匹配的像素。
本公开通过利用设备位置变化信息进行点云数据的融合处理,有利于快速便捷的消除融合点云数据中的动态噪声;通过利用融合点云数据的投影视差图和待处理双目图像的预测视差图一起,来确定最终的视差图,有利于提高待处理双目图像的视差图的准确性。由此可知,本公开提供的技术方案在有利于提高生成视差图的效率以及准确性,从而有利于提高数据集的生成效率以及数据集的质量,进而有利于快速的生成大规模的数据集,有利于提高数据集的生成效率以及数据集的质量。
另外,本公开中的待处理双目图像的视差图可以被作为驾驶场景检测或测距模型的训练数据,也可以用于场景重建或者场景目标感知检测等应用中。
本公开利用神经网络系统获得待处理双目图像的预测视差图的过程如图3所示。图3所示的神经网络系统可以称为GuideNet(引导神经网络)。
图3中的GuideNet主要包括4部分,即卷积神经网络(CNN)、相关层(CorrelationLayer)、编码器以及解码器。其中的编码器可以为基于残差的编码器,也可以称为基于残差的编码模块等。图3中的GuideNet可以是预训练后的GuideNet,例如,利用第二数据集对GuideNet进行预训练,第二数据集包括但不限于:FlyingThings3D(飞行物三维)数据集等。
首先,左目图像Il和右目图像Ir为待处理双目图像,左目图像Il被作为主视角图像。左目图像Il和右目图像Ir分别被输入至卷积神经网络中。图3中的上下两个CNN是共享网络参数的卷积神经网络。共享网络参数的卷积神经网络可以认为是一个卷积神经网络。卷积神经网络对输入的左目图像Il和右目图像Ir分别进行特征提取处理。卷积神经网络针对左目图像Il的特征提取处理可以表示为Fl。卷积神经网络针对右目图像Ir的特征提取处理可以表示为Fr。卷积神经网络输出左目特征图(Left Feature Map)和右目特征图(RightFeature Map)。
其次,左目特征图和右目特征图被输入至相关层(Correlation Layer)中,由相关层针对左目特征图和右目特征图进行像素相似度计算。相关层针对左目特征图和右目特征图所执行的像素相似度计算可以表示为Fc。相关层输出相关图(Correlation Map),该相关图即左目图像Il和右目图像Ir的匹配像素位置相关信息。
再次,对左目特征图与相关图进行拼接处理。对左目特征图与相关图的拼接处理可表示为Fh。拼接处理后的信息被输入至编码器中,由编码器对拼接处理后的信息进行编码处理(如视差特征提取处理等)。编码器的编码处理可以表示为Fc。该编码器输出编码图(Encoder Map)。
最后,编码图被输入至解码器(Decoder)中,由解码器对输入的编码图进行解码处理,并输出左目图像Il和右目图像Ir的视差图,该视差图可以被作为待处理双目图像的预测视差图。
可选的,如果将GuideNet所执行的操作划分为三个阶段,则卷积神经网络所执行的操作属于第一阶段,即浅层特征提取阶段;相关层所执行的操作以及拼接操作属于第二阶段,即关联操作特征聚合阶段,编码器和解码器属于第三阶段,即编解码阶段。GuideNet所生成的视差图可以为密集视差图(Dense Disparity Map)。
需要特别说明的是,如果右目图像Ir被作为主视角图像,则图3左侧的中的左目图像Il和右目图像Ir需要上下换个位置。
可选的,GuideNet中的卷积神经网络可包括但不限于:3个卷积块、1个池化层和4个残差块。任一卷积块可以包括但不限于:1个卷积层、1个批规范化(BatchNormalization)层以及1个线性整流层(Rectified Linear Unit,ReLU)。任一残差块可以包括但不限于:多个卷积块,且残差块通常会采用跳连接(Skip Connection)。编码器和解码器包括但不限于:8个残差块和3个反卷积块。其中的反卷积块包括但不限于:1个反卷积层、1个批规范化层和1个线性整流层。GuideNet最终输出的视差图的大小与左目图像和右目图像的大小相同。
在采用GuideNet来获得待处理双目图像的预测视差图的情况下,本公开的生成视差图的方法的过程可以如图4所示。
图4中,左目图像和右目图像被作为待处理双目图像,被输入至预训练后的GuideNet中(图4中左侧的GuideNet),预训练后的GuideNet输出待处理双目图像的视差图。待处理双目图像对应的多帧点云数据(图4中的左侧示意性的示出了3帧点云数据),在利用雷达设备位置变化信息进行了融合处理后,获得图像的融合点云数据(如图4中的左侧第2列点云数据)。本公开在点云数据的融合处理过程中,不仅可以利用雷达设备位置变化信息消除运动噪声,还可以消除点云数据中的畸变(如长尾畸变(Long-Tail Distorition)等)。本公开利用融合点云数据可以获得投影视差图,利用预测视差图对该投影视差图进行过滤,可以获得待处理双目图像的视差图。
需要特别说明的是,待处理双目图像以及利用图4获得的视差图可以作为一条数据样本中的双目图像样本以及视差图样本,添加到第一数据集中。在第一数据集中具有相应数量的数据样本的情况下,本公开可以利用第一数据集中的数据样本对GuideNet进行调优训练,例如,将数据样本中的双目图像样本输入至GuideNet中,经由GuideNet对输入的双目图像样本进行特征提取、相关计算、拼接操作以及编解码处理等,并输出双目图像样本的预测视差图,本公开可以根据数据样本中的视差图样本与预测视差图之间的差异,利用损失函数对GuideNet中的网络参数(如卷积核的权重值等)进行调整,从而实现对GuideNet的调优训练。
在一个可选示例中,调优训练后的GuideNet可以再次应用于图4中,即左目图像和右目图像再次被作为待处理双目图像,输入至调优训练后的GuideNet中,由调优训练后的GuideNet输出待处理双目图像的视差图。待处理双目图像对应的多帧点云数据在利用雷达设备位置变化信息进行融合处理后,获得图像的融合点云数据,利用融合点云数据可以获得投影视差图,利用预测视差图对该投影视差图进行过滤,可以获得待处理双目图像的视差图。由此可知,本公开可以再次利用图4获得待处理双目图像的视差图,本次获得的视差图可以用于替换第一数据集中的相应数据样本中的视差图样本。
可选的,本公开可以多次迭代上述调优训练和形成视差图样本的过程,从而不仅有利于提高GuideNet的性能,而且,有利于提高第一数据集中的数据样本的准确性。
图5为将本公开的生成视差图的技术方案应用于数据集制作应用中的一个实施例的流程图,可以认为:图5是本公开提供的数据集制作方法一个实施例的流程图。
如图5所示,该实施例方法包括:S500、S510、S520、S530、S540以及S550。下面对各步骤进行详细描述。
S500、基于数据采集设备上设置的摄像装置和雷达设备,获取真实场景图像以及真实场景图像对应的至少两帧点云数据。
可选的,数据采集设备可以为数据采集车,该数据采集车的顶部固定设置有基于双目的摄像装置、雷达设备以及测量位姿装置(也可以称为组合导航装置)。其中的测量位姿装置可以包括但不限于:定位装置(如GPS)以及IMU(Inertial Measurement Unit,惯性测量单元,如陀螺仪等)。本公开中的摄像装置、雷达设备以及测量位姿装置预先进行了空间位置的精确标定。而且,本公开中的摄像装置、雷达设备以及测量位姿装置的时钟同步,如均采用GPS时间。本公开可以由激光雷达设备来触发摄像装置进行图像拍摄,以保证摄像装置与雷达设备之间同步进行数据采集。
可选的,数据采集车的顶部设置的基于双目的摄像装置分别采集左右视角的图像。激光雷达采集三维的点云数据。定位装置采集车体当前的位置信息和当前车体的朝向信息。车体当前的位置信息即雷达设备当前位置信息。当前车体的朝向信息即雷达设备当前朝向信息。利用车体当前的位置信息可以获得设备位移,利用当前车体的朝向信息可以获得姿态角度变化量。本公开不仅可以利用设备位移和姿态角度变化量进行多帧点云数据的融合处理,还可以利用设备位移和姿态角度变化量辅助激光雷达进行数据的运动补偿。运动补偿的方式可以采用现有的多种方式,在此不再详细说明。
可选的,本公开可以利用数据采集车收集多种道路场景在不同气象条件下的图像以及点云数据。例如,采集市区、郊区、高速公路、高架桥路以及乡间道路等多种道路场景,同时,可在晴天、雨天、阴天、雾天以及黄昏多种气象条件下进行道路场景的数据采集,从而有利于丰富数据集中的数据样本。
S510、基于数据采集设备上设置的测量位姿装置,获取雷达设备位置变化信息。
S520、根据采集点云数据的雷达设备位置变化信息,对至少两帧点云数据,进行数据增强的融合处理,获得图像的融合点云数据。
S530、根据融合点云数据,获取投影视差图。
S540、根据投影视差图和预测视差图,确定双目图像的视差图。
上述S510-S540可以参见上述方法实施方式中S100-S120中的描述,在此不再详细说明。
S550、将双目图像和双目图像的视差图,作为数据样本中的图像样本和视差图样本添加在第一数据集中。视差图样本中的视差值被作为视差值标签。
由于本公开中的第一数据集中的图像样本是采集到的真实场景图像,且在图像采集过程中,可以通过考虑采集的时间以及区域等,因此,本公开可以获得内容丰富的真实场景的图像样本。由于本公开生成图像样本的视差图的方式不需要介入手工操作等人为因素,且能够自动快捷的消除点云数据中的动态噪声,因此,本公开可以实现大规模的数据集的制作,即本公开有利于自动快速的建立数据样本丰富的第一数据集,从而有利于提高数据集的生成效率以及数据集的质量。
在一个可选示例中,本公开中的第一数据集不但可以用于提供丰富的数据样本,还可以用于对视差预测系统的性能进行评价。本公开提供了两种评价方式,即基于距离感知的评价方式、以及基于语义感知的评价方式。这两种评价方式均可以单独使用,也可以相互结合使用,还可以与现有的至少一种评价方式结合使用。
在一个可选示例中,本公开的基于距离感知的评价方式,包括下述步骤:
步骤1、获取待评价的视差预测系统针对第一数据集中的至少一图像样本,形成的预测视差图。
可选的,本公开中的待评价的视差预测系统包括但不限于:利用第一数据集进行训练的视差预测系统。该视差预测系统用于预测输入图像的视差图,本公开将视差预测系统预测获得的视差图称为预测视差图,该预测视差图通常与输入图像的大小相同。该预测视差图可以包括多个像素位置处的视差值。本公开不限制待评价的视差预测系统进行视差预测的实现方式。
步骤2、根据至少一图像样本中的像素所属的深度范围,确定至少一预测视差图中的属于相应深度范围的预测视差值的数量、以及至少一图像样本中的属于相应深度范围的视差值标签的数量。
可选的,本公开预先设置有多个深度范围,每个深度范围的深度距离区间可以表示为:Rk=[k-r,k+r];其中的k表示该距离区间的中点。深度范围的深度距离区间以及深度范围的数量可以根据实际需求设置。
可选的,针对任一深度范围而言,本公开均可以统计出至少一图像样本(通常为多个图像样本)中的属于该深度范围的视差值标签的数量,并统计出至少一预测视差图(预测视差图的数量与图像样本的数量相同)中的属于该深度范围的预测视差值的数量。
步骤3、针对任一深度范围,根据属于该深度范围的预测视差值及其数量以及属于该深度范围的像素的视差值标签及其数量,确定待评价的视差预测系统的相对视差偏差评价指标。
可选的,待评价的视差预测系统的相对视差偏差评价指标可以包括:待评价的视差预测系统在一深度范围上的相对视差偏差评价指标、以及待评价的视差预测系统在预测视差图上的相对视差偏差评价指标中的至少一个。
可选的,本公开可以利用下述公式(6)计算出待评价的视差预测系统在任一深度范围上的相对视差偏差评价指标:
在上述公式(6)中,ARDk表示距离区间的中点为k的深度范围的相对视差偏差评价指标;表示距离区间的中点为k的深度范围内的预测视差值的数量;dp表示距离区间的中点为k的深度范围内的一像素位置处的预测视差值;dg表示相应的视差图样本中的上述像素位置处的视差值标签;|dp-dg|表示dp和dg的差值的绝对值。
可选的,本公开还可以根据多个深度范围的相对视差偏差评价指标,确定出待评价的视差预测系统在预测视差图上的相对视差偏差评价指标。
例如,本公开可以计算多个(如所有)深度范围的相对视差偏差评价指标之和,并将和作为待评价的视差预测系统在预测视差图上的相对视差偏差评价指标。该方式利用公式(7)表示为如下:
在上述公式(7)中,GD表示预测视差图的相对视差偏差评价指标;ARDk表示距离区间的中点为k的深度范围的相对视差偏差评价指标;K表示所有距离区间的中点集合。
再例如,本公开可以计算多个(如所有)深度范围的相对视差偏差评价指标的均值,并将均值作为待评价的视差预测系统在预测视差图上的相对视差偏差评价指标。
本公开通过在不同深度范围上统计待评价的视差预测系统的相对视差偏差,可以从深度角度衡量待评价的视差预测系统的性能,从而有利于丰富视差预测系统的评价方式。
在一个可选示例中,本公开的基于语义感知的评价方式,包括下述步骤:
步骤1、获取待评价的视差预测系统针对第一数据集中的至少一图像样本,形成的至少一预测视差图。
可选的,本公开中的待评价的视差预测系统包括但不限于:利用第一数据集进行训练的视差预测系统。该视差预测系统用于预测输入图像的视差图,本公开将视差预测系统预测获得的视差图称为预测视差图,该预测视差图通常与输入图像的大小相同。该预测视差图可以包括多个像素位置处的视差值。本公开不限制待评价的视差预测系统进行视差预测的实现方式。
步骤2、根据至少一图像样本中的像素所属的对象类别,获取至少一预测视差图中的属于相应对象类别的像素的预测视差值、以及至少一图像样本中的属于相应对象类别的像素的视差值标签。
可选的,本公开中的对象类别可以包括:路面、植被、建筑物、行人、车辆以及其他类别等多种类别。每一种类别可以认为是一种语义。例如,本公开可以从多张图像样本中挑选出属于行人这一类别的视差值标签,并从多张预测视差图中挑选出属于行人这一类别的预测视差值。
步骤3、针对任一对象类别,根据属于该对象类别的像素的预测视差值和属于该对象类别的像素的视差值标签,确定成功立体匹配的视差值,并根据成功立体匹配的视差值,确定待评价的视差预测系统在该对象类别上的立体匹配率评价指标。
可选的,本公开可以将预测视差图中的属于一对象类别的视差值与视差图样本中的属于该对象类别的相应位置处的视差值标签进行比较,在根据比较结果确定出两者的差距符合预定差距要求的情况下,认为预测视差图中的该视差值属于立体匹配成功的视差值。本公开通过对立体匹配成功的视差值以及立体匹配未成功的视差值的数量进行统计,从而可以获得待评价的视差预测系统在该对象类别上的立体匹配率评价指标。
例如,本公开可以利用下述公式(8)计算待评价的视差预测系统在对象类别的立体匹配率评价指标:
在上述公式(8)中,i表示第i种对象类别;MRi表示视差预测系统在第i种对象类别的立体匹配率评价指标;MRi:%of dp表示针对第i种对象类别,在至少一预测视差图上的立体匹配成功概率;表示取和之中的最大值;θ表示预先设置的一已知常数值,例如,θ的取值包括但不限于:1.1或者1.2等。
本公开通过在不同对象类别上统计待评价的视差预测系统的立体匹配率评价指标,可以从语义角度衡量待评价的视差预测系统的性能,从而有利于丰富视差预测系统的评价方式。
图6为本公开生成视差图的装置一个实施例的结构示意图。图6所示的装置可包括:第一获取模块600、第二获取模块610和确定视差图模块620。可选的,该装置还可以包括:形成数据集模块630、训练模块640、调优训练模块650、第一评价模块660以及第二评价模块670中的至少一个。下面对各模块分别进行详细描述。
第一获取模块600用于获取待处理双目图像的预测视差图和待处理双目图像对应的点云数据。
可选的,第一获取模块600可以基于数据采集设备上设置的摄像装置和雷达设备,获取真实场景双目图像以及真实场景双目图像对应的至少两帧点云数据。其中的数据采集设备可以包括:车辆、以及固定设置在车辆的顶部的摄像装置、雷达设备和测量位姿装置。其中的雷达设备在获得点云数据时,触发摄像装置获取图像。其中的真实场景图像可以包括:真实道路场景图像。本公开中的待处理双目图像可以包括:第一目图像和第二目图像;其中的待处理双目图像对应的点云数据包括:待处理双目图像对应的至少两帧点云数据。待处理双目图像对应的至少两帧点云数据可包括:两大部分,一部分为:待处理双目图像的点云数据;另一部分为:在时序上,与待处理双目图像相邻、且位于待处理双目图像的点云数据之前和/或之后的至少一帧点云数据。
可选的,第一获取模块600可以包括:第一子模块和第二子模块。其中的第一子模块用于获取第一目图像和第二目图像的匹配像素位置相关信息。例如,第一子模块可以获取第一目图像的特征信息和第二目图像的特征信息,然后,第一子模块对第一目图像的特征信息和第二目图像的特征信息进行匹配代价相关运算,第一子模块根据匹配代价相关运算的结果,获得第一目图像和第二目图像的匹配像素位置相关信息。其中的第二子模块用于根据匹配像素位置相关信息,获取待处理双目图像的预测视差图。例如,在第一目图像被作为主视角图像的情况下,第二子模块可以将该匹配像素位置相关信息与第一目图像的特征信息进行拼接,并对拼接后的信息进行编解码处理,第二子模块根据编解码处理的结果,获得待处理双目图像的预测视差图。第一获取模块600及其包含的各子模块所执行的操作可以参见上述方法实施例中针对S100的相关描述。在此不再重复说明。
第二获取模块610用于根据点云数据获取投影视差图。
可选的,第二获取模块610可以包括:第三子模块和第四子模块。其中的第三子模块用于根据采集至少两帧点云数据的设备位置变化信息,对至少两帧点云数据进行数据增强的融合处理,获得待处理双目图像的融合点云数据。例如,第三子模块可以基于数据采集设备上设置的测量位姿装置,获取雷达设备位置变化信息。本公开中的设备位置变化信息可包括:设备位移变化量以及姿态角度变化量中的至少一个。例如,第三子模块可以根据采集至少两帧点云数据的设备位置变化信息,对其中的至少一帧点云数据进行变换处理,然后,第三子模块利用变换处理后的点云数据,对待处理双目图像的点云数据进行数据积累处理,获得融合点云数据。其中的第四子模块用于根据融合点云数据,获取投影视差图。第四子模块可以根据获得待处理双目图像的摄像装置参数、摄像装置的双目标定参数以及采集点云数据的设备参数,对融合点云数据进行投影处理,获得投影视差图。第二获取模块610及包含的各子模块所执行的操作可以参见上述方法实施例中针对S110的相关描述。在此不再重复说明。
确定视差图模块620用于根据预测视差图中的视差值和所述投影视差图中的视差值,确定待处理双目图像的视差图。
可选的,确定视差图模块620确定出的待处理双目图像可以是真实场景图像的视差图。确定视差图模块620可以包括:第五子模块。第五子模块用于根据预测视差图中的视差值对投影视差图中的视差值进行过滤,获得待处理双目图像的视差图。例如,针对投影视差图中的任一像素而言,第五子模块可以先确定预测视差图中的该像素的视差值与投影视差图中的该像素的视差值的差异,在差异满足预定差异要求的情况下,第五子模块保留投影视差图中的该像素的视差值,否则,第五子模块不保留投影视差图中的该像素的视差值。确定视差图模块620及其包含的各子模块所执行的操作可以参见上述方法实施例中针对S120的相关描述。在此不再重复说明。
形成数据集模块630用于根据待处理双目图像和待处理双目图像的视差图,形成第一数据集。其中的待处理双目图像被作为第一数据集中的双目图像样本,待处理双目图像的视差图被作为第一数据集中的图像样本的视差图样本。例如,形成数据集模块630将真实场景图像和真实场景图像的视差图,作为数据样本添加在第一数据集中,其中的视差图样本中的视差值被作为视差值标签。形成数据集模块630具体执行的操作可以参见上述方法实施例中针对图5的相关描述。在此不再重复说明。
训练模块640用于利用第二数据集,对神经网络系统进行预训练。该神经网络系统用于实现本公开的装置所执行的部分操作,如第一获取模块600获取预测视差图的操作。第二数据集包括:双目图像样本和视差图样本。其中的双目图像样本可以包括:第一目图像样本和第二目图像样本。例如,训练模块640可以将第二数据集中的双目图像样本输入至待训练的神经网络系统中,经由神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对匹配像素位置相关信息与第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;之后,训练模块640根据基于编解码的结果获得的待处理双目图像的预测视差图与第二数据集中的视差图样本的差异,对神经网络系统的网络参数进行调整。训练模块640具体执行的操作可以参见上述方法实施例中的相关描述。在此不再重复说明。
调优训练模块650用于利用第一数据集,对神经网络系统进行调优训练。调优训练模块650利用调优训练后的神经网络,再次获得的双目图像样本的预测视差图,用于与投影视差图一起再次获得双目图像样本的视差图。
可选的,调优训练模块650将第一数据集中的双目图像样本输入至预训练后的神经网络系统中;经由神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对匹配像素位置相关信息与第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;调优训练模块根据基于编解码的结果获得的双目图像样本的预测视差图与第一数据集中的视差图样本的差异,对神经网络系统的网络参数进行调整。调优训练模块650具体执行的操作可以参见上述方法实施例中的相关描述。在此不再重复说明。
第一评价模块660用于获取待评价的视差预测系统针对第一数据集中的至少一图像样本,形成的至少一预测视差图;之后,第一评价模块660根据至少一图像样本中的像素所属的深度范围,确定至少一预测视差图中的属于相应深度范围的预测视差值及其数量、以及至少一图像样本中的属于相应深度范围的视差值标签及其数量;再后,第一评价模块660根据属于该深度范围的预测视差值及其数量和属于该深度范围的像素的视差值标签及其数量,确定待评价的视差预测系统的相对视差偏差评价指标。
可选的,针对任一深度范围,第一评价模块660根据属于该深度范围的预测视差值及其数量和属于该深度范围的像素的视差值标签及其数量,确定待评价的视差预测系统在该深度范围上的相对视差偏差评价指标。例如,第一评价模块660根据待评价的视差预测系统在多个深度范围上的相对视差偏差评价指标,确定待评价的视差预测系统在预测视差图上的相对视差偏差评价指标。第一评价模块660具体执行的操作可以参见上述方法实施例中的相关描述。在此不再重复说明。
第二评价模块670用于获取待评价的视差预测系统针对第一数据集中的至少一图像样本,形成的至少一预测视差图;之后,第二评价模块670根据至少一图像样本中的像素所属的对象类别,获取至少一预测视差图中的属于相应对象类别的像素的预测视差值、以及至少一视差图样本中的属于相应对象类别的像素的视差值标签;针对任一对象类别,第二评价模块670根据属于对象类别的像素的预测视差值和属于对象类别的像素的视差值标签,确定成功立体匹配的视差值,并根据成功立体匹配的视差值,确定待评价的视差预测系统在该对象类别上的立体匹配率评价指标。第二评价模块670具体执行的操作可以参见上述方法实施例中的相关描述。在此不再重复说明。
示例性设备
图7示出了适于实现本公开的示例性设备700,设备700可以是汽车中配置的控制系统/电子系统、移动终端(例如,智能移动电话等)、个人计算机(PC,例如,台式计算机或者笔记型计算机等)、平板电脑以及服务器等。
图7中,设备700包括一个或者多个处理器、通信部等,所述一个或者多个处理器可以为:一个或者多个中央处理单元(CPU)701,和/或,一个或者多个加速单元(如图像处理器,GPU)713等,处理器可以根据存储在只读存储器(ROM)702中的可执行指令或者从存储部分708加载到随机访问存储器(RAM)703中的可执行指令而执行各种适当的动作和处理。通信部712可以包括但不限于网卡,所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器702和/或随机访问存储器703中通信以执行可执行指令,通过总线704与通信部712相连、并经通信部712与其他目标设备通信,从而完成本公开中的相应步骤。
上述各指令所执行的操作可以参见上述方法实施例中的相关描述,在此不再详细说明。此外,在RAM703中,还可以存储有装置操作所需的各种程序以及数据。CPU701、ROM702以及RAM703通过总线704彼此相连。
在有RAM703的情况下,ROM702为可选模块。RAM703存储可执行指令,或在运行时向ROM702中写入可执行指令,可执行指令使中央处理单元701执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口705也连接至总线704。通信部712可以集成设置,也可以设置为具有多个子模块(例如,多个IB网卡),并分别与总线连接。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装在存储部分708中。
需要特别说明的是,如图7所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图7的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如,加速单元713和CPU701可分离设置,再如理,可将加速单元713集成在CPU701上,通信部可分离设置,也可集成设置在CPU701或加速单元713上等。这些可替换的实施方式均落入本公开的保护范围。
特别地,根据本公开的实施方式,下文参考流程图描述的过程可以被实现为计算机软件程序,例如,本公开实施方式包括一种计算机程序产品,其包含有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的步骤的程序代码,程序代码可包括对应执行本公开提供的方法中的步骤对应的指令。
在这样的实施方式中,该计算机程序可以通过通信部分709从网络上被下载及安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本公开中记载的实现上述相应步骤的指令。
在一个或多个可选实施方式中,本公开实施例还提供了一种计算机程序程序产品,用于存储计算机可读指令,所述指令被执行时使得计算机执行上述任意实施例中所述的生成视差图的方法。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选例子中,所述计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
在一个或多个可选实施方式中,本公开实施例还提供了另一种视觉跟踪方法和神经网络的训练方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品,其中的方法包括:第一装置向第二装置发送生成视差图的指示,该指示使得第二装置执行上述任一可能的实施例中的生成视差图的方法;第一装置接收第二装置发送的生成视差图的结果。
在一些实施例中,该视生成视差图的指示可以具体为调用指令,第一装置可以通过调用的方式指示第二装置执行生成视差图的操作,相应地,响应于接收到调用指令,第二装置可以执行上述生成视差图的方法中的任意实施例中的步骤和/或流程。
应理解,本公开实施例中的“第一”、“第二”等术语仅仅是为了区分,而不应理解成对本公开实施例的限定。还应理解,在本公开中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。还应理解,对于本公开中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
可能以许多方式来实现本公开的方法和装置、电子设备以及计算机可读存储介质。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施方式中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
本公开的描述,是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言,是显然的。选择和描述实施方式是为了更好说明本公开的原理以及实际应用,并且使本领域的普通技术人员能够理解本公开实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。
Claims (49)
1.一种生成视差图的方法,其特征在于,包括:
获取待处理双目图像的预测视差图和待处理双目图像对应的点云数据;其中,所述双目图像包括:第一目图像和第二目图像;
根据所述点云数据获取投影视差图;
根据所述预测视差图中的视差值和所述投影视差图中的视差值,确定所述待处理双目图像的视差图;
其中,所述根据所述投影视差图中的视差值以及所述预测视差图中的视差值,确定所述待处理双目图像的视差图,包括:
根据所述预测视差图中的视差值对所述投影视差图中的视差值进行过滤,获得所述待处理双目图像的视差图。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理双目图像的预测视差图,包括:
获取第一目图像和第二目图像的匹配像素位置相关信息;
根据所述匹配像素位置相关信息,获取所述待处理双目图像的预测视差图。
3.根据权利要求2所述的方法,其特征在于,所述获取第一目图像和第二目图像的匹配像素位置相关信息,包括:
获取第一目图像的特征信息和第二目图像的特征信息;
对所述第一目图像的特征信息和第二目图像的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像和第二目图像的匹配像素位置相关信息。
4.根据权利要求2所述的方法,其特征在于,在所述第一目图像被作为主视角图像的情况下,所述根据所述匹配像素位置相关信息,获取所述待处理双目图像的预测视差图,包括:
将所述匹配像素位置相关信息与所述第一目图像的特征信息进行拼接;
对所述拼接后的信息进行编解码处理,根据编解码处理的结果,获得所述待处理双目图像的预测视差图。
5.根据权利要求1所述的方法,其特征在于,所述待处理双目图像对应的点云数据包括:所述待处理双目图像对应的至少两帧点云数据;
所述根据所述点云数据获取投影视差图包括:
根据采集所述至少两帧点云数据的设备位置变化信息,对所述至少两帧点云数据进行数据增强的融合处理,获得所述待处理双目图像的融合点云数据;
根据所述融合点云数据,获取投影视差图。
6.根据权利要求5所述的方法,其特征在于,所述待处理双目图像对应的至少两帧点云数据包括:
所述待处理双目图像的点云数据;以及
在时序上,与所述待处理双目图像相邻、且位于所述待处理双目图像的点云数据之前和/或之后的至少一帧点云数据。
7.根据权利要求5所述的方法,其特征在于,所述设备位置变化信息包括:设备位移变化量,和/或,姿态角度变化量。
8.根据权利要求5所述的方法,其特征在于,所述根据采集所述至少两帧点云数据的设备位置变化信息,对所述至少两帧点云数据进行数据增强的融合处理,包括:
根据采集所述至少两帧点云数据的设备位置变化信息,对其中的至少一帧点云数据进行变换处理;
利用变换处理后的点云数据,对所述待处理双目图像的点云数据进行数据积累处理,获得所述融合点云数据。
9.根据权利要求5所述的方法,其特征在于,所述根据所述融合点云数据,获取投影视差图,包括:
根据获得所述待处理双目图像的摄像装置参数、所述摄像装置的双目标定参数以及采集所述点云数据的设备参数,对所述融合点云数据进行投影处理,获得投影视差图。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述根据所述预测视差图中的视差值对所述投影视差图中的视差值进行过滤,包括:
针对所述投影视差图中的任一像素而言,确定所述预测视差图中的该像素的视差值与所述投影视差图中的该像素的视差值的差异;
在所述差异满足预定差异要求的情况下,保留所述投影视差图中的该像素的视差值,否则,不保留所述投影视差图中的该像素的视差值。
11.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
根据所述待处理双目图像和所述待处理双目图像的视差图,形成第一数据集;
其中,所述待处理双目图像被作为第一数据集中的双目图像样本,所述待处理双目图像的视差图被作为第一数据集中的图像样本的视差图样本。
12.根据权利要求1至9中任一项所述的方法,其特征在于,所述获取待处理双目图像的预测视差图,由神经网络系统实现;所述神经网络系统的训练方法包括:
利用第二数据集,对所述神经网络系统进行预训练;
其中,所述第二数据集包括:双目图像样本和视差图样本,所述双目图像样本包括:第一目图像样本和第二目图像样本。
13.根据权利要求12所述的方法,其特征在于,所述利用第二数据集,对所述神经网络系统进行预训练,包括:
将第二数据集中的双目图像样本输入至待训练的神经网络系统中;
经由所述神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对所述第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对所述匹配像素位置相关信息与所述第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;
根据基于编解码的结果获得的待处理双目图像的预测视差图与第二数据集中的视差图样本的差异,对所述神经网络系统的网络参数进行调整。
14.根据权利要求12所述的方法,其特征在于,所述神经网络系统的训练方法还包括:
利用第一数据集,对所述神经网络系统进行调优训练;
且利用调优训练后的神经网络,再次获得的双目图像样本的预测视差图,用于与所述投影视差图一起再次获得双目图像样本的视差图。
15.根据权利要求14所述的方法,其特征在于,所述利用第一数据集,对所述神经网络系统进行调优训练,包括:
将第一数据集中的双目图像样本输入至预训练后的神经网络系统中;
经由所述神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对所述第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对所述匹配像素位置相关信息与所述第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;
根据基于编解码的结果获得的双目图像样本的预测视差图与第一数据集中的视差图样本的差异,对所述神经网络系统的网络参数进行调整。
16.根据权利要求5或6所述的方法,其特征在于,所述获取待处理双目图像的预测视差图和待处理双目图像对应的点云数据,包括:
基于数据采集设备上设置的摄像装置和雷达设备,获取真实场景双目图像以及所述真实场景双目图像对应的至少两帧点云数据;
所述根据所述点云数据获取投影视差图还包括:
基于数据采集设备上设置的测量位姿装置,获取雷达设备位置变化信息。
17.根据权利要求16所述的方法,其特征在于,所述确定所述待处理双目图像的视差图包括:
确定所述真实场景图像的视差图;
所述方法还包括:
将所述真实场景图像和所述真实场景图像的视差图,作为数据样本添加在第一数据集中,所述视差图样本中的视差值被作为视差值标签。
18.根据权利要求16所述的方法,其特征在于,所述数据采集设备包括:车辆;所述摄像装置、雷达设备以及测量位姿装置固定设置在车辆的顶部;
其中,所述雷达设备在获得点云数据时,触发摄像装置获取图像。
19.根据权利要求16所述的方法,其特征在于,所述真实场景图像包括:真实道路场景图像。
20.根据权利要求11所述的方法,其特征在于,所述方法还包括:
获取待评价的视差预测系统针对所述第一数据集中的至少一图像样本,形成的至少一预测视差图;
根据所述至少一图像样本中的像素所属的深度范围,确定至少一预测视差图中的属于相应深度范围的预测视差值及其数量、以及至少一图像样本中的属于相应深度范围的视差值标签及其数量;
根据所述属于该深度范围的预测视差值及其数量和所述属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统的相对视差偏差评价指标。
21.根据权利要求20所述的方法,其特征在于,所述根据所述属于该深度范围的预测视差值及其数量和所述属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统的相对视差偏差评价指标,包括:
针对任一深度范围,根据属于该深度范围的预测视差值及其数量和属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统在该深度范围上的相对视差偏差评价指标。
22.根据权利要求21所述的方法,其特征在于,所述根据所述属于该深度范围的预测视差值及其数量和所述属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统的相对视差偏差评价指标,还包括:
根据所述待评价的视差预测系统在多个深度范围上的相对视差偏差评价指标,确定待评价的视差预测系统在预测视差图上的相对视差偏差评价指标。
23.根据权利要求20所述的方法,其特征在于,所述方法还包括:
获取待评价的视差预测系统针对所述第一数据集中的至少一图像样本,形成的至少一预测视差图;
根据至少一图像样本中的像素所属的对象类别,获取至少一预测视差图中的属于相应对象类别的像素的预测视差值、以及至少一视差图样本中的属于相应对象类别的像素的视差值标签;
针对任一对象类别,根据属于所述对象类别的像素的预测视差值和属于所述对象类别的像素的视差值标签,确定成功立体匹配的视差值,并根据成功立体匹配的视差值,确定所述待评价的视差预测系统在该对象类别上的立体匹配率评价指标。
24.一种生成视差图的装置,其特征在于,包括:
第一获取模块,用于获取待处理双目图像的预测视差图和待处理双目图像对应的点云数据;其中,所述双目图像包括:第一目图像和第二目图像;
第二获取模块,用于根据所述点云数据获取投影视差图;
确定视差图模块,用于根据所述预测视差图中的视差值和所述投影视差图中的视差值,确定所述待处理双目图像的视差图;
其中,所述确定视差图模块包括:
第五子模块,用于根据所述预测视差图中的视差值对所述投影视差图中的视差值进行过滤,获得所述待处理双目图像的视差图。
25.根据权利要求24所述的装置,其特征在于,所述第一获取模块包括:
第一子模块,用于获取第一目图像和第二目图像的匹配像素位置相关信息;
第二子模块,用于根据所述匹配像素位置相关信息,获取所述待处理双目图像的预测视差图。
26.根据权利要求25所述的装置,其特征在于,所述第一子模块进一步用于:
获取第一目图像的特征信息和第二目图像的特征信息;
对所述第一目图像的特征信息和第二目图像的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像和第二目图像的匹配像素位置相关信息。
27.根据权利要求25所述的装置,其特征在于,在所述第一目图像被作为主视角图像的情况下,第二子模块将所述匹配像素位置相关信息与所述第一目图像的特征信息进行拼接,并对所述拼接后的信息进行编解码处理,根据编解码处理的结果,获得所述待处理双目图像的预测视差图。
28.根据权利要求24所述的装置,其特征在于,所述待处理双目图像对应的点云数据包括:所述待处理双目图像对应的至少两帧点云数据;
所述第二获取模块包括:
第三子模块,用于根据采集所述至少两帧点云数据的设备位置变化信息,对所述至少两帧点云数据进行数据增强的融合处理,获得所述待处理双目图像的融合点云数据;
第四子模块,用于根据所述融合点云数据,获取投影视差图。
29.根据权利要求28所述的装置,其特征在于,所述待处理双目图像对应的至少两帧点云数据包括:
所述待处理双目图像的点云数据;以及
在时序上,与所述待处理双目图像相邻、且位于所述待处理双目图像的点云数据之前和/或之后的至少一帧点云数据。
30.根据权利要求28所述的装置,其特征在于,所述设备位置变化信息包括:设备位移变化量,和/或,姿态角度变化量。
31.根据权利要求28所述的装置,其特征在于,所述第三子模块进一步用于:
根据采集所述至少两帧点云数据的设备位置变化信息,对其中的至少一帧点云数据进行变换处理;
利用变换处理后的点云数据,对所述待处理双目图像的点云数据进行数据积累处理,获得所述融合点云数据。
32.根据权利要求28所述的装置,其特征在于,所述第四子模块进一步用于:
根据获得所述待处理双目图像的摄像装置参数、所述摄像装置的双目标定参数以及采集所述点云数据的设备参数,对所述融合点云数据进行投影处理,获得投影视差图。
33.根据权利要求24-32之一所述的装置,其特征在于,所述第五子模块进一步用于:
针对所述投影视差图中的任一像素而言,确定所述预测视差图中的该像素的视差值与所述投影视差图中的该像素的视差值的差异;
在所述差异满足预定差异要求的情况下,保留所述投影视差图中的该像素的视差值,否则,不保留所述投影视差图中的该像素的视差值。
34.根据权利要求24至32中任一项所述的装置,其特征在于,所述装置还包括:
形成数据集模块,用于根据所述待处理双目图像和所述待处理双目图像的视差图,形成第一数据集;
其中,所述待处理双目图像被作为第一数据集中的双目图像样本,所述待处理双目图像的视差图被作为第一数据集中的图像样本的视差图样本。
35.根据权利要求24至32中任一项所述的装置,其特征在于,所述装置包括:用于获取预测视差图的神经网络系统以及训练模块;
所述训练模块用于,利用第二数据集,对所述神经网络系统进行预训练;
其中,所述第二数据集包括:双目图像样本和视差图样本,所述双目图像样本包括:第一目图像样本和第二目图像样本。
36.根据权利要求35所述的装置,其特征在于:
所述训练模块将第二数据集中的双目图像样本输入至待训练的神经网络系统中;
经由所述神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对所述第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对所述匹配像素位置相关信息与所述第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;
所述训练模块根据基于编解码的结果获得的待处理双目图像的预测视差图与第二数据集中的视差图样本的差异,对所述神经网络系统的网络参数进行调整。
37.根据权利要求35所述的装置,其特征在于,所述装置还包括:调优训练模块用于:利用第一数据集,对所述神经网络系统进行调优训练;
且所述调优训练模块利用调优训练后的神经网络,再次获得的双目图像样本的预测视差图,用于与所述投影视差图一起再次获得双目图像样本的视差图。
38.根据权利要求37所述的装置,其特征在于:
所述调优训练模块将第一数据集中的双目图像样本输入至预训练后的神经网络系统中;
经由所述神经网络系统获取第一目图像样本的特征信息和第二目图像样本的特征信息,并对所述第一目图像样本的特征信息和第二目图像样本的特征信息进行匹配代价相关运算,根据所述匹配代价相关运算的结果,获得第一目图像样本和第二目图像样本的匹配像素位置相关信息,对所述匹配像素位置相关信息与所述第一目图像样本的特征信息拼接后的信息进行编解码,并输出编解码的结果;
所述调优训练模块根据基于编解码的结果获得的双目图像样本的预测视差图与第一数据集中的视差图样本的差异,对所述神经网络系统的网络参数进行调整。
39.根据权利要求28或29所述的装置,其特征在于:
所述第一获取模块基于数据采集设备上设置的摄像装置和雷达设备,获取真实场景双目图像以及所述真实场景双目图像对应的至少两帧点云数据;
所述第三子模块基于数据采集设备上设置的测量位姿装置,获取雷达设备位置变化信息。
40.根据权利要求39所述的装置,其特征在于,所述确定视差图模块用于:确定所述真实场景图像的视差图;
所述装置还包括:
形成真实数据集模块,用于将所述真实场景图像和所述真实场景图像的视差图,作为数据样本添加在第一数据集中,所述视差图样本中的视差值被作为视差值标签。
41.根据权利要求39所述的装置,其特征在于,所述数据采集设备包括:车辆;所述摄像装置、雷达设备以及测量位姿装置固定设置在车辆的顶部;
其中,所述雷达设备在获得点云数据时,触发摄像装置获取图像。
42.根据权利要求39所述的装置,其特征在于,所述真实场景图像包括:真实道路场景图像。
43.根据权利要求34所述的装置,其特征在于,所述装置还包括:第一评价模块,用于
获取待评价的视差预测系统针对所述第一数据集中的至少一图像样本,形成的至少一预测视差图;
根据所述至少一图像样本中的像素所属的深度范围,确定至少一预测视差图中的属于相应深度范围的预测视差值及其数量、以及至少一图像样本中的属于相应深度范围的视差值标签及其数量;
根据所述属于该深度范围的预测视差值及其数量和所述属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统的相对视差偏差评价指标。
44.根据权利要求43所述的装置,其特征在于:
针对任一深度范围,所述第一评价模块根据属于该深度范围的预测视差值及其数量和属于该深度范围的像素的视差值标签及其数量,确定所述待评价的视差预测系统在该深度范围上的相对视差偏差评价指标。
45.根据权利要求44所述的装置,其特征在于:
所述第一评价模块根据所述待评价的视差预测系统在多个深度范围上的相对视差偏差评价指标,确定待评价的视差预测系统在预测视差图上的相对视差偏差评价指标。
46.根据权利要求43所述的装置,其特征在于,所述装置还包括:第二评价模块,用于
获取待评价的视差预测系统针对所述第一数据集中的至少一图像样本,形成的至少一预测视差图;
根据至少一图像样本中的像素所属的对象类别,获取至少一预测视差图中的属于相应对象类别的像素的预测视差值、以及至少一视差图样本中的属于相应对象类别的像素的视差值标签;
针对任一对象类别,根据属于所述对象类别的像素的预测视差值和属于所述对象类别的像素的视差值标签,确定成功立体匹配的视差值,并根据成功立体匹配的视差值,确定所述待评价的视差预测系统在该对象类别上的立体匹配率评价指标。
47.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-23中任一项所述的方法。
48.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述权利要求1-23中任一项所述的方法。
49.一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现上述权利要求1-23中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910267616.8A CN110009675B (zh) | 2019-04-03 | 2019-04-03 | 生成视差图的方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910267616.8A CN110009675B (zh) | 2019-04-03 | 2019-04-03 | 生成视差图的方法、装置、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110009675A CN110009675A (zh) | 2019-07-12 |
CN110009675B true CN110009675B (zh) | 2021-05-18 |
Family
ID=67169761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910267616.8A Active CN110009675B (zh) | 2019-04-03 | 2019-04-03 | 生成视差图的方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110009675B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782412B (zh) * | 2019-10-28 | 2022-01-28 | 深圳市商汤科技有限公司 | 图像处理方法及装置、处理器、电子设备及存储介质 |
CN111091532B (zh) * | 2019-10-30 | 2023-07-18 | 中国四维测绘技术有限公司 | 一种基于多层感知机的遥感影像色彩评价方法和系统 |
CN110889901B (zh) * | 2019-11-19 | 2023-08-08 | 北京航空航天大学青岛研究院 | 基于分布式系统的大场景稀疏点云ba优化方法 |
CN111096796B (zh) * | 2019-12-30 | 2021-11-19 | 哈尔滨工业大学 | 全自动静脉穿刺机器人多层控制系统 |
CN111601097B (zh) * | 2020-04-10 | 2020-12-18 | 熵智科技(深圳)有限公司 | 基于双投射器的双目立体匹配方法、装置、介质和设备 |
CN116030247B (zh) * | 2023-03-20 | 2023-06-27 | 之江实验室 | 一种医学图像样本生成方法、装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104463890A (zh) * | 2014-12-19 | 2015-03-25 | 北京工业大学 | 一种立体图像显著性区域检测方法 |
CN109285185A (zh) * | 2017-07-19 | 2019-01-29 | 上海盟云移软网络科技股份有限公司 | 应用于全息立体匹配的改进视差图算法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9342888B2 (en) * | 2014-02-08 | 2016-05-17 | Honda Motor Co., Ltd. | System and method for mapping, localization and pose correction of a vehicle based on images |
CN104915988A (zh) * | 2015-06-29 | 2015-09-16 | 北京建筑大学 | 一种摄影测量密集点云生成方法 |
CN105374043B (zh) * | 2015-12-02 | 2017-04-05 | 福州华鹰重工机械有限公司 | 视觉里程计背景过滤方法及装置 |
US11025882B2 (en) * | 2016-04-25 | 2021-06-01 | HypeVR | Live action volumetric video compression/decompression and playback |
CN106796728A (zh) * | 2016-11-16 | 2017-05-31 | 深圳市大疆创新科技有限公司 | 生成三维点云的方法、装置、计算机系统和移动设备 |
CN206611521U (zh) * | 2017-04-12 | 2017-11-03 | 吉林大学 | 一种基于多传感器的车载环境识别系统及全方位视觉模块 |
CN107886477B (zh) * | 2017-09-20 | 2020-07-14 | 武汉环宇智行科技有限公司 | 无人驾驶中立体视觉与低线束激光雷达的融合矫正方法 |
CN107958461A (zh) * | 2017-11-14 | 2018-04-24 | 中国航空工业集团公司西安飞机设计研究所 | 一种基于双目视觉的载机目标跟踪方法 |
CN107945220B (zh) * | 2017-11-30 | 2020-07-10 | 华中科技大学 | 一种基于双目视觉的重建方法 |
CN108648161B (zh) * | 2018-05-16 | 2020-09-01 | 江苏科技大学 | 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 |
-
2019
- 2019-04-03 CN CN201910267616.8A patent/CN110009675B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104463890A (zh) * | 2014-12-19 | 2015-03-25 | 北京工业大学 | 一种立体图像显著性区域检测方法 |
CN109285185A (zh) * | 2017-07-19 | 2019-01-29 | 上海盟云移软网络科技股份有限公司 | 应用于全息立体匹配的改进视差图算法 |
Also Published As
Publication number | Publication date |
---|---|
CN110009675A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009675B (zh) | 生成视差图的方法、装置、介质及设备 | |
Park et al. | High-precision depth estimation using uncalibrated LiDAR and stereo fusion | |
US11064178B2 (en) | Deep virtual stereo odometry | |
CN108519102B (zh) | 一种基于二次投影的双目视觉里程计算方法 | |
CN112207821B (zh) | 视觉机器人的目标搜寻方法及机器人 | |
CN108648216B (zh) | 一种基于光流与深度学习的视觉里程计实现方法和系统 | |
CN113029128B (zh) | 视觉导航方法及相关装置、移动终端、存储介质 | |
CN112269851A (zh) | 地图数据更新方法、装置、存储介质与电子设备 | |
CN110751123B (zh) | 一种单目视觉惯性里程计系统及方法 | |
CN111008660A (zh) | 语义地图的生成方法、装置、系统、存储介质及电子设备 | |
CN111325782A (zh) | 一种基于多尺度统一的无监督单目视图深度估计方法 | |
US20230298344A1 (en) | Method and device for determining an environment map by a server using motion and orientation data | |
CN112815923A (zh) | 视觉定位方法和装置 | |
CN116469079A (zh) | 一种自动驾驶bev任务学习方法及相关装置 | |
CN114812558A (zh) | 一种结合激光测距的单目视觉无人机自主定位方法 | |
CN113240813B (zh) | 三维点云信息确定方法及装置 | |
CN113984037A (zh) | 一种基于任意方向目标候选框的语义地图构建方法 | |
CN116824433A (zh) | 基于自监督神经网络的视觉-惯导-雷达融合自定位方法 | |
CN111417016A (zh) | 一种姿态估计方法、服务器和网络设备 | |
CN112419411B (zh) | 一种基于卷积神经网络和光流特征视觉里程计的实现方法 | |
CN109379577B (zh) | 一种虚拟视点的视频生成方法、装置及设备 | |
CN109089100B (zh) | 一种双目立体视频的合成方法 | |
CN113011212A (zh) | 图像识别方法、装置及车辆 | |
CN112001970A (zh) | 一种基于点线特征的单目视觉里程计方法 | |
CN112344922B (zh) | 单目视觉里程计定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |