发明内容
本申请的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本申请的第一个目的在于提出一种基于门控成像的双目深度估计方法,以克服激光雷达在恶劣天气和复杂光照下难以成像的问题,并利用双目门控相机的成像特性,充分融合门控图像信息和双目立体信息,完成准确精细的场景深度估计。
本申请的第二个目的在于提出一种基于门控成像的双目深度估计装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种基于门控成像的双目深度估计方法,所述方法应用于双目门控成像相机系统,所述双目门控成像相机系统包括第一门控相机和第二门控相机,所述方法包括:
获取所述第一门控相机和第二门控相机下曝光的双目图像对;
分别对所述第一门控相机和第二门控相机各自采集的门控图像组进行深度估计,获取两个视点分别对应的初始深度信息;
对每一对不同门控时刻的近红外图像进行双目深度估计,获得每个门控曝光对应的双目立体匹配深度结果;以及
根据所述两个视点分别对应的初始深度信息和所述双目立体匹配深度结果,获得当前场景下的双目深度信息。
为达上述目的,本申请第二方面实施例提出了一种基于门控成像的双目深度估计装置,包括:
所述装置应用于双目门控成像相机系统,所述双目门控成像相机系统包括第一门控相机和第二门控相机,所述装置包括:
第一获取模块,用于获取所述第一门控相机和第二门控相机下曝光的双目图像对;
第二获取模块,用于分别对所述第一门控相机和第二门控相机各自采集的门控图像组进行深度估计,获取两个视点分别对应的初始深度信息;
第三获取模块,用于对每一对不同门控时刻的近红外图像进行双目深度估计,获得每个门控曝光对应的双目立体匹配深度结果;以及
第四获取模块,用于根据所述两个视点分别对应的初始深度信息和所述双目立体匹配深度结果,获得当前场景下的双目深度信息。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面实施例所述的基于门控成像的双目深度估计方法。
为达上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请第一方面实施例所述的基于门控成像的双目深度估计方法。
根据本申请实施例的技术方案,通过获取所述第一门控相机和第二门控相机下曝光的双目图像对,并分别对所述第一门控相机和第二门控相机各自采集的门控图像组进行深度估计,获取两个视点分别对应的初始深度信息,对每一对不同门控时刻的近红外图像进行双目深度估计,获得每个门控曝光对应的双目立体匹配深度结果,以用于细化前门控深度估计部分获得的初始深度,并根据两个视点分别对应的初始深度信息和双目立体匹配深度结果,获得当前场景下的双目深度信息。由此,本申请通过设计双目门控成像相机系统,并充分利用双目立体匹配信息和融合门控曝光的场景深度信息,完成快速精准的双目深度估计算法,实现适用多种复杂场景的基于门控成像的优质双目深度相机。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于门控成像的双目深度估计方法、装置、计算机设备和存储介质。
首先,需要说明的是,本申请实施例的基于门控成像的双目深度估计方法可应用于双目门控成像相机系统,该双目门控成像相机系统可包括第一门控相机和第二门控相机。例如,可先设计双目门控成像相机系统,该设计需求可包括相机和光源的选择,比如需保证光源发射光线波段在近红外波段、较为单一且不易受到杂光影响;同时,光源功率需足够实现成像噪点低的门控成像且需满足在道路行人的人眼安全功率以内;包括采集过程需满足两个门控相机同步触发,以保证可靠的对应相同门控时间的成像;包括双目基线距离设计以保证足够距离的深度估计能力;包括双目门控成像相机系统标定流程,为采集的数据提供可靠的相机标定参数(即相机参数,包括相机内参和双目的相对外参);包括数据存储和供电等部分,保证系统能稳定地获取并存储数据等。
作为一种示例,对近红外光源的选择需要足够功率和合适的谱段能够采集到门控图像,同时需要保证在人眼的安全公里范围之内,可以参考808nm的近红外谱段以及脉冲光源功率500W的选取。同时需保证门控相机同步触发,即能够在不同的门控触发时间同时曝光,确保采集到相同精神范围的物体。其中,对于距离为r的朗伯反射物体在门控函数g(t-ξ)下的曝光特性由以下公式(1) 给出:
其中,ξ为门控延迟开启时间,决定了采集场景的范围;κ(t,r)是时间-场景响应函数;α是该物体的反照率;C(r)给出了距离-强度函数。由上式可以得到,可以利用采集到的图像记录的强度来推测场景物体与相机之间的距离即深度信息。
在本申请实施例中,双目门控成像相机系统需包含足够的双目基线距离设计;双目门控成像相机系统标定流程、数据存储和供电等部分,保证系统采集过程具有准确的相机参数并能够稳定地获取和存储数据等。
图1为本申请实施例所提供的一种基于门控成像的双目深度估计方法的流程示意图。作为一种示例,本申请实施例的基于门控成像的双目深度估计方法适用于无人驾驶的深度相机系统。
如图1所示,该基于门控成像的双目深度估计方法可以包括以下步骤。
在步骤101中,获取第一门控相机和第二门控相机下曝光的双目图像对。
可选地,获取第一门控相机下曝光的双目图像和第二门控相机下曝光的双目图像,将两个门控相机下曝光的双目图像作为双目图像对。
在本申请实施例中,在获得两个门控相机下曝光的双目图像对之后,可对不同门控曝光下的双目图像对进行畸变矫正和双目立体校正操作。作为一种示例,可利用预先标定得到的相机内参对第一门控相机和第二门控相机下曝光的双目图像对进行图像径向畸变、切向畸变等校正以将图像坐标变换到理想图像坐标系;利用预先标定得到的相机内参以及双目的相对外参计算得到使得对极线平行的变换矩阵及新的投影矩阵,再利用图像的变形插值方法获得矫正后的极线对齐的双目图像对。
在步骤102中,分别对第一门控相机和第二门控相机各自采集的门控图像组进行深度估计,获取两个视点分别对应的初始深度信息。
在本申请实施例中,可利用门控深度估计模型,分别对第一门控相机和第二门控相机各自采集的门控图像组进行深度估计,获取两个视点分别对应的初始深度信息;其中,门控深度估计模型的公式表示如下:
DepthGated=GatedDepthNet(Concat(Ii Gated)) (2)
其中,Ii Gated,i=1,...,δ为门控相机在不同延迟时间ξ下采集到的图像,Concat()为逐通道的串联,GatedDepthNet()为门控深度估计网络,DepthGated为输出的门控深度图像结果。
需要说明的是,门控深度估计模型可以是一个能对输入门控曝光切片进行深度估计的子网络模型。该模型可以利用现有的三维渲染虚拟数据来进行预训练,后通过实际带雷达激光点云的真实数据进行进一步的模型拟合。该门控深度估计模块使得在每组门控曝光下的每个视点都能得到一个初始的深度估计结果。由于固定时间内门控曝光数量受到成像和硬件的限制,该初始深度所给出的深度图不够精细和准确,故引入双目立体匹配深度结果来继续优化该初始深度。
作为一种示例,门控深度估计模型可以为一个以U-Net基础的深度卷积网络模型。该模型的输入为一个门控相机所采集到的门控曝光图像序列,输出为该视点下的稠密深度图,表示如上式(2)。其中,该门控深度估计模型可以利用三维虚拟场景数据渲染得到训练数据,即门控图像组以及对应的真实深度结果,来进行预训练。使网络学习到一定门控深度估计能力后,可通过实际带雷达激光点云的真实数据进行基于稀疏点的监督,以获得处理真实数据的能力。
将双目门控相机采集到的门控图像组输入到门控深度估计模型中,将获得两个视点分别的初始深度:
由于固定时间内门控曝光数量受到成像和硬件的限制,即门控切片数量δ的值为4左右,故其包含的深度分辨率其实不够准确,故需要考虑每个门控曝光对应的双目立体匹配深度结果,以提升估计结果的准确性和精确性。
在步骤103中,对每一对不同门控时刻的近红外图像进行双目深度估计,获得每个门控曝光对应的双目立体匹配深度结果。
在本申请实施例中,可分别对每个门控曝光采集到双目立体矫正的图像进行水平极线上的匹配,在给定的视差范围内,利用神经网络的卷积激活操作提取图像特征,以构建描述双目视点上像素之间匹配程度的代价体,并利用三维卷积及可微Softmax操作逐像素获得代价最小位置对应的视差值,得到对应每个门控曝光的双目立体匹配深度结果。
在步骤104中,根据两个视点分别对应的初始深度信息和双目立体匹配深度结果,获得当前场景下的双目深度信息。
可选地,在本申请实施例中,可利用残差网络将双目立体匹配深度结果中的深度信息迁移至两个视点分别对应的初始深度信息中,获得当前场景下的双目深度信息。
需要说明的是,可预先建立门控成像双目深度估计网络,通过对门控成像双目深度估计网络进行训练,以使得门控成像双目深度估计网络学习得到双目视点的门控图像组与当前场景下的双目深度信息之间的映射关系。其中,该门控成像双目深度估计网络可包括门控深度估计模块、双目立体匹配深度估计模块和联合优化模块。
作为一种示例,门控深度估计模块,可以为一个以U-Net基础的深度卷积网络模型。该模型的输入为一个门控相机所采集到的门控曝光图像序列,输出为该视点下的稠密深度图,表示如上式(2)所示。该门控深度估计网络可以利用三维虚拟场景数据渲染得到训练数据,即门控图像组以及对应的真实深度结果,来进行预训练。使网络学习到一定门控深度估计能力后,可通过实际带雷达激光点云的真实数据进行基于稀疏点的监督,以获得处理真实数据的能力。
将双目采集到的门控图像组输入到门控深度估计网络中,将获得两个视点分别的初始深度:
由于固定时间内门控曝光数量受到成像和硬件的限制,即门控切片数量δ的值为4左右,故其包含的深度分辨率其实不够准确,故需要利用双目立体匹配深度估计模块来提升获得的深度结果的准确性和精确性。
双目立体匹配深度估计模块将进一步估计不同门控曝光下双目图像对的立体匹配结果。在某个门控曝光ξ下,以经过立体矫正的双目图像对作为输入,输出为两个视点各自的初始深度图。该模块高效地在双目立体校正的图像对
上做匹配,构建一个代表着每个像素点上视差概率值的代价 CostVol
Left(H,W,D),其大小为H×W×D,H、W分别为图像的高和宽,D为视差的候选值列表长度:
其中
为该双目立体匹配深度估计模块输出的两个视点各自的初始深度估计,argmin(·)为可微的soft argmin操作,是视差标签的概率求和。训练过程由开源的双目数据集进行学习,并在真实的数据上迁移数据特性。
联合优化模块包含双目优化子模块和互补验证子模块,融合双目立体匹配深度结果两个视点分别对应的初始深度信息
获取最终准确精细的稠密深度估计结果。其中双目优化子模块设计为多层级联的卷积联合优化网络,利用残差的方式引入经过双目立体配深度优化模块获得的额外的深度信息,具体表示如下:
其中,StereoRefineNet()为双目优化网络,可以设计为残差网络形式,以实现将双目立体匹配深度的高深度分辨率细节迁移到门控深度估计结果中;输出为经过各自双目立体匹配深度优化后的深度结果
最终的深度结果需保证在两个视点都得到优良的估计,故本申请进一步提出互补验证子模块来保证左右视点深度的一致性。
互补验证子模块利用反投影以保证两个视点获得的最终深度估计结果能够满足双目一致性:
整个网络以端到端的形式设计,深度图的损失在网络的输出端得到计算并在训练过程中通过反传来更新整个网络,其中损失代价设计为:
Lrec=λ1Lrec+λ2Lcomplentary.
这样,在测试阶段和实际应用中,输入为每一帧下双目视点的门控图像组,通过门控成像双目深度估计网络,估计得到该帧下双目视点下的深度,可以实现实时的无人驾驶场景下的稠密准确的深度估计。
根据本申请实施例的基于门控成像的双目深度估计方法,通过获取所述第一门控相机和第二门控相机下曝光的双目图像对,并分别对所述第一门控相机和第二门控相机各自采集的门控图像组进行深度估计,获取两个视点分别对应的初始深度信息,对每一对不同门控时刻的近红外图像进行双目深度估计,获得每个门控曝光对应的双目立体匹配深度结果,以用于细化前门控深度估计部分获得的初始深度,并根据两个视点分别对应的初始深度信息和双目立体匹配深度结果,获得当前场景下的双目深度信息。由此,本申请通过设计双目门控成像相机系统,并充分利用双目立体匹配信息和融合门控曝光的场景深度信息,完成快速精准的双目深度估计算法,实现适用多种复杂场景的基于门控成像的优质双目深度相机。
为了实现上述实施例,本申请还提出一种基于门控成像的双目深度估计装置。
图2为本申请实施例提供的一种基于门控成像的双目深度估计装置的结构示意图。该基于门控成像的双目深度估计装置200可应用于双目门控成像相机系统,双目门控成像相机系统包括第一门控相机和第二门控相机。如图2 所示,该基于门控成像的双目深度估计装置200可以包括:第一获取模块201、第二获取模块202、第三获取模块203和第四获取模块204。
具体地,第一获取模块201用于获取第一门控相机和第二门控相机下曝光的双目图像对。
第二获取模块202用于分别对第一门控相机和第二门控相机各自采集的门控图像组进行深度估计,获取两个视点分别对应的初始深度信息。
第三获取模块203用于对每一对不同门控时刻的近红外图像进行双目深度估计,获得每个门控曝光对应的双目立体匹配深度结果。
第四获取模块204用于根据两个视点分别对应的初始深度信息和双目立体匹配深度结果,获得当前场景下的双目深度信息。
需要说明的是,前述对基于门控成像的双目深度估计方法实施例的解释说明也适用于该实施例的基于门控成像的双目深度估计装置,此处不再赘述。
根据本申请实施例的基于门控成像的双目深度估计装置,通过获取所述第一门控相机和第二门控相机下曝光的双目图像对,并分别对所述第一门控相机和第二门控相机各自采集的门控图像组进行深度估计,获取两个视点分别对应的初始深度信息,对每一对不同门控时刻的近红外图像进行双目深度估计,获得每个门控曝光对应的双目立体匹配深度结果,以用于细化前门控深度估计部分获得的初始深度,并根据两个视点分别对应的初始深度信息和双目立体匹配深度结果,获得当前场景下的双目深度信息。由此,本申请通过设计双目门控成像相机系统,并充分利用双目立体匹配信息和融合门控曝光的场景深度信息,完成快速精准的双目深度估计算法,实现适用多种复杂场景的基于门控成像的优质双目深度相机。
为了实现上述实施例,本申请还提出一种计算机设备。
图3是根据本申请一个实施例的计算机设备的结构框图。如图3所示,该计算机设备300可包括:存储器301、处理器302及存储在存储器301上并可在处理器302上运行的计算机程序303,处理器302执行计算机程序303时,实现本申请上述任一实施例所述的基于门控成像的双目深度估计方法。
为了实现上述实施例,本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请上述任一实施例所述的基于门控成像的双目深度估计方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言, "计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器 (RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。