CN115359108B

CN115359108B - 焦点堆栈重建指导下的基于散焦的深度预测方法及系统

Info

Publication number: CN115359108B
Application number: CN202211125797.9A
Authority: CN
Inventors: 李学龙; 赵斌; 司浩哲
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2024-07-02
Anticipated expiration: 2042-09-15
Also published as: CN115359108A

Abstract

本发明涉及深度预测技术领域，提出一种焦点堆栈重建指导下的基于散焦的深度预测方法及系统。该方法包括下列步骤：进行数据处理，其中对颜色‑深度数据集进行点扩散函数渲染以生成焦点堆栈数据集；向神经网络中输入所述焦点堆栈数据集以生成预测深度和预测全焦点图像；根据所述预测深度和所述预测全焦点图像生成重建焦点堆栈；以及对所述预测深度、所述预测全焦点图像以及所述重建焦点堆栈进行自监督训练。本方法在进行基于散焦的深度预测时可以不依赖于全焦点(AIF)图像，而完全依靠焦点堆栈进行自监督训练，因此具有拥有强大的迁移能力、在工业上能够广泛的应用，并且随着使用的焦点堆栈大小增加可以获得更高的深度预测精度而增加模型大小。

Description

焦点堆栈重建指导下的基于散焦的深度预测方法及系统

技术领域

本发明总的来说涉及深度预测技术领域。具体而言，本发明涉及一种焦点堆栈重建指导下的基于散焦的深度预测方法及系统。

背景技术

在计算机视觉领域，深度预测的目的是通过单张或者多张图像信息进行深度的重建，其广泛运用在自动驾驶、三维重建等任务中。传统的深度预测方法包括基于立体视觉的深度预测方法、单目深度重建方法以及基于散焦的深度预测方法。

基于立体视觉的深度预测方法模仿人眼确定深度的原理，利用相机坐标变换和世界坐标变换等几何方法，通过多视角确定点在空间中的位置。基于立体视觉的深度预测方法可以从视频中获取数据，也可以从多目相机中获得多视角图片，其通常作为神经网络训练中的辅助正则，常用在相机对齐或者无监督的深度预测工作中。

单目深度重建方法是目前深度预测方向的主流任务，其目标是通过对单张图片的分析学习其深度信息。单目深度重建方法需要大量先验知识、例如平面预测等，并需要有监督学习。随着注意力机制及Vison Transformer的流行，单目深度重建方法性能大幅提升。但由于需要大量先验知识，其在特殊场景的迁移能力有待考证。

基于散焦的深度预测方法的原理是，由于散焦现象自然存在于相机摄影中，薄透镜的光学模型与点扩散函数(PSF)均为成体系的物理模型，因而深度信息自然包含在模糊度信息中。基于散焦的深度预测方法传统上可以划分为基于焦点的深度预测方法和基于模糊度的深度预测方法。基于焦点的深度预测方法通过观察稠密焦点堆栈中清晰的部分优化得出分辨率为焦点堆栈张数的深度图。基于模糊度的方法则通过观察单张图片的模糊度优化计算深度，目前该方向上基于深度学习的工作也源于这两种思路，且仅需要稀疏的焦点堆栈。基于散焦的深度预测方法的一大优势在于其可以利用其光学性质进行模型迁移与自监督训练。然而现有的基于散焦的深度预测方法仍然利用了全焦点(All-in-Focus)图像作为深度学习的模型输入或者监督对象，但在实际应用中，由于相机镜头的光学性质，设备往往无法获得理想的全焦点图，其导致现有的工作在理论上的成功与在实际应用中的实现存在一定的距离。

发明内容

为至少部分解决现有技术中的基于散焦的深度预测方法依赖于全焦点图像作为深度学习的模型输入或者监督对象的技术问题，本发明提出一种焦点堆栈重建指导下的基于散焦的深度预测方法，该方法包括下列步骤：

进行数据处理，其中对颜色-深度数据集进行点扩散函数渲染以生成焦点堆栈数据集；

向神经网络中输入所述焦点堆栈数据集以生成预测深度和预测全焦点图像；

根据所述预测深度和所述预测全焦点图像生成重建焦点堆栈；以及

对所述预测深度、所述预测全焦点图像以及所述重建焦点堆栈进行自监督训练。

在本发明一个实施例中规定，所述焦点堆栈数据集包括训练数据集以及测试数据集。

在本发明一个实施例中规定，所述神经网络包括DAIF-Net卷积神经网络，所述DAIF-Net卷积神经网络包括多个U-Net编码器，其中所述DAIF-Net卷积神经网络被配置为通过最大值融合合并卷积神经网络各层的特征以作为残差连接输入所述U-Net解码器中。

在本发明一个实施例中规定，生成重建焦点堆栈包括下列步骤：

使用薄透镜模型，根据所述焦点堆栈数据集中的焦平面距离以及所述预测深度计算散度图；以及

对所述散度图以及所述预测全焦点图像进行点扩散函数渲染以生成所述重建焦点堆栈。

在本发明一个实施例中规定，所述深度预测方法还包括：

基于所述散度图以及所述焦点堆栈数据集生成粗糙全焦点图像，并且对所述粗糙全焦点图像进行自监督训练。

在本发明一个实施例中规定，进行自监督训练包括优化所述重建焦点堆栈与所述焦点堆栈数据集之间的相似度和锐化程度、优化所述预测深度的平滑程度、优化所述预测全焦点图像的清晰度、优化所述预测全焦点图像与所述粗糙全焦点图像的相似度以及优化所述粗糙全焦点图像的清晰度。

本发明提出一种焦点堆栈重建指导下的基于散焦的深度预测系统，其运行所述深度预测方法，所述深度预测系统包括：

数据处理模块，其被配置为对颜色-深度数据集进行点扩散函数渲染以生成焦点堆栈数据集；以及

模型训练模块，其被配置为执行下列动作：

本发明提出一种计算机系统，其包括：

处理器，其被配置为执行机器可执行指令；以及

存储器，其上存储有机器可执行指令，所述机器可执行指令在被处理器执行时执行所述深度预测方法的步骤。

本发明提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据所述深度预测方法的步骤。

本发明基于发明人的如下洞察：现有技术中的设备难以获得理想的全焦点图像，而只能小光圈镜头获取的图像作为全焦点图像的近似，然而小光圈镜头获取的图像的某些区域中模糊依然存在，并且在近距离中小光圈会导致相机曝光不足。而本申请的发明人在研究中发现，焦点堆栈中包含深度与全清晰图的共信息，因此可以提出一种焦点堆栈重建指导下的基于散焦的深度预测方法来同时预测深度图和全焦点图像，在进行模型训练的过程中不依赖于全焦点图像，使得数据的获取与训练在实际应用更加可行。

本发明的技术方案所得出的焦点堆栈重建指导下的基于散焦的深度预测方法可在深度领域中用于实现如下技术效果：可以仅依赖于焦点堆栈进行自监督训练，从而避免了现有的基于散焦的深度预测方法需要依赖全焦点图像来进行自监督训练，而目前的设备难以获取理想的全焦点图像的问题。其原理是利用焦点堆栈中包含深度与全清晰图的共信息来进行基于散焦的自监督深度预测训练。

本发明至少具有如下有益效果：本发明提出一种焦点堆栈重建指导下的基于散焦的深度预测方法及系统，其中在进行基于散焦的深度预测时可以不依赖于全焦点(AIF)图像，使得可以完全依靠焦点堆栈进行自监督训练。任何可以获得焦点堆栈的设备都基于本发明进行模型训练或微调，因此本发明具有拥有强大的迁移能力、在工业上能够广泛的应用。在另一方面，随着使用的焦点堆栈大小增加，本发明能够获得更高的深度预测精度，同时不增加模型大小，因此十分适合搭载在探测设备中。

附图说明

为进一步阐明本发明的各实施例中具有的及其它的优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出了实现根据本发明的系统和/或方法的计算机系统。

图2示出了本发明一个实施例中一个焦点堆栈重建指导下的基于散焦的深度预测方法的流程示意图。

图3示出了本发明一个实施例中进行深度预测的框架示意图。

图4示出了本发明一个实施例中进行模型训练的框架示意图。

图5A和图5B分别示出了本发明一个实施例中定量实验和定性实验的结果示意图。

具体实施方式

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。

在本发明中，除非特别指出，“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外，“布置在…上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在…下或下方”，反之亦然。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本申请的公开范围或记载范围。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。

另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。

下面结合具体实施方式参考附图进一步阐述本发明。

图1示出了实现根据本发明的系统和/或方法的计算机系统100。如非特殊说明，根据本发明的方法和/或系统可以在图1所示的计算机系统100中执行以实现本发明目的，或者本发明可以在多个根据本发明的计算机系统100中通过网络、如局域网或因特网分布式地实现。本发明的计算机系统100可以包括各种类型的计算机系统、例如手持式设备、膝上型计算机、个人数字助理(PDA)、多处理器系统、基于微处理器或可编程消费者电子设备、网络PC、小型机、大型机、网络服务器、平板计算机等等。

如图1所示，计算机系统100包括处理器111、系统总线101、系统存储器102、视频适配器105、音频适配器107、硬盘驱动器接口109、光驱接口113、网络接口114、通用串行总线(USB)接口112。系统总线101可以是若干种总线结构类型的任一种，例如存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。系统总线101用于各个总线设备之间的通信。除了图1中所示的总线设备或接口以外，其它的总线设备或接口也是可设想的。系统存储器102包括只读存储器(ROM)103和随机存取存储器(RAM)104，其中ROM 103例如可以存储用于在启动时实现信息传输的基本例程的基本输入/输出系统(BIOS)数据，而RAM 104用于为系统提供存取速度较快的运行内存。计算机系统100还包括用于对硬盘110进行读写的硬盘驱动器109、用于对诸如CD-ROM之类的光介质进行读写光驱接口113等等。硬盘110例如可以存储有操作系统和应用程序。驱动器及其相关联的计算机可读介质为计算机系统100提供了计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。计算机系统100还可以包括用于图像处理和/或图像输出的视频适配器105，其用于连接显示器106等输出设备。计算机系统100还可以包括用于音频处理和/或音频输出的音频适配器107，其用于连接扬声器108等输出设备。此外，计算机系统100还可以包括用于网络连接的网络接口114，其中网络接口114可以通过诸如路由器115之类的网络装置连接到因特网116，其中所述连接可以是有线或无线的。另外，此外，计算机系统100还可以包括用于连接外围设备的通用串行总线接口(USB)112，其中所述外围设备例如包括键盘117、鼠标118以及其它外围设备、例如麦克风、摄像头等。

当本发明在图1所述的计算机系统100上实现时，在进行基于散焦的深度预测时可以不依赖于全焦点(AIF)图像，使得可以完全依靠焦点堆栈进行自监督训练。任何可以获得焦点堆栈的设备都基于本发明进行模型训练或微调，因此本发明具有拥有强大的迁移能力、在工业上能够广泛的应用。在另一方面，随着使用的焦点堆栈大小增加，本发明能够获得更高的深度预测精度，同时不增加模型大小，因此十分适合搭载在探测设备中。

此外，可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，可以作为计算机程序产品下载各实施例，其中可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但这不是必需的。

图2示出了本发明一个实施例中一个焦点堆栈重建指导下的基于散焦的深度预测方法的流程示意图。如图2所示，该方法可以包括下列步骤：

步骤201、进行数据处理，其中对颜色-深度数据集进行点扩散函数渲染以生成焦点堆栈数据集。

步骤202、向神经网络中输入所述焦点堆栈数据集以生成预测深度和预测全焦点图像。

步骤203、根据所述预测深度和所述预测全焦点图像生成重建焦点堆栈。

步骤204、对所述预测深度、所述预测全焦点图像以及所述重建焦点堆栈进行自监督训练。

下面结合具体实施例说明本发明的技术方案。

图3示出了本发明一个实施例中进行深度预测的框架示意图。如图3所示，在进行深度预测的过程中包括数据处理、模型训练、实验验证三个阶段。

在数据处理阶段，可以使用颜色-深度数据集，通过PSF渲染的方式获得焦点堆栈及相关参数。为了使模型能够对于输入稀疏焦点堆栈的焦平面距离有鲁棒性，可以渲染稠密焦点堆栈，将其划分为五段范围，每次从各个范围中采样一张图片作为输入模型的稀疏焦点堆栈。可以采用了两组相机参数进行渲染以验证训练框架在不同相机参数下的性能。并且可以采用了颜色-深度数据集原本的训练集与测试集划分，并在训练测试集中进一步划分10％的验证数据集。

图4示出了本发明一个实施例中进行模型训练的框架示意图。如图4所示，模型训练的框架包括DAIF-Net、散焦重建以及自监督训练三个部分。

DAIF-Net是在U-Net上进行修改的神经网络，其有多个U-Net的编码器以接受焦点堆栈的输入。其中，所有的编码器共享相同的模型参数。在U-Net的编码器的基础上，该模型增加了全局最大池以收集模型各层间最大的特征值作为堆栈的全局信息，连接在编码器的本地特征后进行训练。借此，每个编码器在预测的时候都能接触到堆栈全局及照片局部的模糊度信息。在该模型中可以用过最大值融合的方式合并各层的特征作为残差连接输入U-Net的解码器中。模型输入为n张颜色-焦平面数据，其中n为堆栈大小；输出为AIF-深度图像。

散焦重建采用薄透镜模型，由焦平面距离及预测的深度计算散度图，再利用散度图与PSF渲染重建焦点堆栈。上述两个模型均模仿了成像中的物理过程，且仅需参与训练。此外，散度图代表了图像的模糊程度。因此，通过拼接焦点堆栈中模糊度最低的点，可以生成一张粗糙AIF用于接下来的自监督训练。

自监督训练针对生成的深度、AIF及重建的焦点堆栈进行了监督，其中包括优化重建堆栈与输入堆栈的相似度及锐化程度；优化预测深度的平滑程度；优化预测AIF的清晰度；优化预测AIF与粗糙AIF的相似度；优化粗糙AIF的清晰度。其中，优化粗糙AIF的清晰度是本申请的一项创新点，由于粗糙AIF的质量与预测的深度正相关，因此可以通过使粗糙AIF更加清晰，可以使深度的预测更加准确且更能保留细节。

完成模型训练后可以通过实际的实验验证来验证本申请的可行性和效果。在实验验证阶段选取其他的基于散度的深度预测方法进行定量实验与定性实验。

图5A和图5B分别示出了本发明一个实施例中定量实验和定性实验的结果示意图。如图5A所示，在定量实验中本方法在大部分指标上都达到了最好；如图5B所示，在定性实验中本申请的自监督预训练模型与其他有监督训练的模型达到了相同水准的结果。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种焦点堆栈重建指导下的基于散焦的深度预测方法，其特征在于，包括下列步骤：

对所述预测深度、所述预测全焦点图像以及所述重建焦点堆栈进行自监督训练；

其中所述神经网络包括DAIF-Net卷积神经网络，其有多个U-Net的编码器以接受焦点堆栈的输入，所有的编码器共享相同的模型参数，在U-Net的编码器的基础上，该模型增加了全局最大池以收集模型各层间最大的特征值作为堆栈的全局信息，连接在编码器的本地特征后进行训练，每个编码器在预测的时候都能接触到堆栈全局及照片局部的模糊度信息，在该模型中用最大值融合的方式合并各层的特征作为残差连接输入U-Net的解码器中，模型输入为n张颜色-焦平面数据，其中n为堆栈大小，输出为AIF-深度图像，其中AIF表示全焦点。

2.根据权利要求1所述的深度预测方法，其特征在于，所述焦点堆栈数据集包括训练数据集以及测试数据集。

3.根据权利要求1所述的深度预测方法，其特征在于，生成重建焦点堆栈包括下列步骤：

4.根据权利要求3所述的深度预测方法，其特征在于，还包括：

5.根据权利要求4所述的深度预测方法，其特征在于，进行自监督训练包括优化所述重建焦点堆栈与所述焦点堆栈数据集之间的相似度和锐化程度、优化所述预测深度的平滑程度、优化所述预测全焦点图像的清晰度、优化所述预测全焦点图像与所述粗糙全焦点图像的相似度以及优化所述粗糙全焦点图像的清晰度。

6.一种焦点堆栈重建指导下的基于散焦的深度预测系统，其特征在于，运行权利要求1-5之一所述的深度预测方法，所述深度预测系统包括：

模型训练模块，其被配置为执行下列动作：

7.一种计算机系统，其特征在于，包括：

处理器，其被配置为执行机器可执行指令；以及

存储器，其上存储有机器可执行指令，所述机器可执行指令在被处理器执行时执行根据权利要求1-5之一所述的方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据权利要求1-5之一所述的方法的步骤。