CN114760419A

CN114760419A - 一种基于深度学习的自动对焦方法及系统

Info

Publication number: CN114760419A
Application number: CN202210674506.5A
Authority: CN
Inventors: 许心文; 黄政林; 郭奇锋
Original assignee: Shenzhen Shenzhi Future Intelligence Co ltd
Current assignee: Shenzhen Shenzhi Future Intelligence Co ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-07-15
Anticipated expiration: 2042-06-15
Also published as: CN114760419B

Abstract

本发明公开了一种基于深度学习的自动对焦方法及系统，方法包括：获取摄像头拍摄的离焦图像，根据训练好的目标深度学习模型计算所述离焦图像的清晰度；获取电机步数范围，根据所述清晰度与电机步数范围，得到电机的移动步数，所述电机用于驱动摄像头移动；控制电机根据所述移动步数进行第一次移动；控制电机在预定的步数范围内进行第二次移动，获取所述第二次移动过程图像的清晰度最高时对应的目标位置，控制电机移动至所述目标位置，完成自动对焦。本发明实施例可利用网络的预测值快速地使电机移动到准焦位置，极大地提高了自动对焦的速度；减小了电机搜寻的范围，在极暗和多灯光场景均表现除了良好的对焦效果，提升了对焦效率。

Description

一种基于深度学习的自动对焦方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度学习的自动对焦方法及系统。

背景技术

基于数字图像处理的自动对焦方法，需要根据所获取的图像清晰度特征值来评价当前图像的清晰程度，从而推断出成像系统所处状态的离焦程度。自动对焦的目的就在于根据对焦评价函数的值寻找准焦位置，因此具有优良性能的对焦评价函数对自动对焦过程至关重要。理想的对焦评价函数应具有无偏性、单峰性、灵敏性、稳定性，实时性以及覆盖范围广的性质，无偏性是指当成像系统处于准焦状态时，评价函数的峰值在焦点位置；单峰性要求评价函数中有且仅有一个极值点；灵敏性即评价函数曲线升降的坡度应较大不应过于平缓；稳定性即评价函数具有较强的鲁棒性，尽量不受环境及系统因素的影响；实时性要求评价函数的计算量小、运算速度快；覆盖范围广是指当成像系统的调焦范围较大、步进电机大范围移动时所带来的最大模糊量较大时，评价函数应该仍有较高的区分度、具有覆盖范围广的性质。

常用的评价函数大概分为以下几类基于梯度信息的函数、基于频谱函数、基于熵函数。其中基于梯度信息的函数包括：Tenengrad函数、方差函数、能量梯度函数、Brenner函数、拉普拉斯函数、Robert函数；基于频谱的函数包络：傅里叶变换、离散余弦变换函数、小波变换；

普通梯度函数对噪声敏感、峰顶宽度相对较窄、调焦范围较小，当模糊量略大时，图像边缘的弥散情况较大，在对焦评价函数中体现为曲线过于平缓，无法确定步进电机的正确移动方向，从而导致对焦失误。

图像中存在噪声时，会引起评价函数曲线的波动，甚至出现较强的次峰，这对于准焦位置的搜索十分不利，会影响自动对焦的准确性，严重时甚至引起对焦失败。

现有的梯度算子都是处理相邻像素或单个像素之间的关系，仅适用于模糊量较小的情况，而一旦模糊量较大，图像边缘的弥散情况就相应地变大，相邻像素的差异被弱化，仅凭相邻像素不足以体现模糊程度，评价函数曲线过于平缓。

现有技术中的基于数字图像的自动对焦方法所用图像越多对焦精度越高，这个过程需要较多图像，一般需要达到10幅以上，所需要步数较多，对焦过程耗时较长。

因此现有技术还有待于进一步发展。

发明内容

针对上述技术问题，本发明实施例提供了一种基于深度学习的自动对焦方法及系统，能够解决现有技术中基于数字图像的自动对焦方法需要较多图像，对焦过程耗时较长的技术问题。

本发明实施例的第一方面提供一种基于深度学习的自动对焦方法，包括：

获取摄像头拍摄的离焦图像，根据训练好的目标深度学习模型计算所述离焦图像的清晰度；

获取电机步数范围，根据所述清晰度与电机步数范围，得到电机的移动步数，所述电机用于驱动摄像头移动；

控制电机根据所述移动步数进行第一次移动；

控制电机在预定的步数范围内进行第二次移动，获取所述第二次移动过程图像的清晰度最高时对应的目标位置，控制电机移动至所述目标位置，完成自动对焦。

可选地，获取摄像头拍摄的离焦图像，根据训练好的目标深度学习模型计算所述离焦图像的清晰度前，包括：

预先构建初始深度学习模型；

预先获取用于训练初始深度学习模型的训练样本及监督有效值；

根据训练样本、监督有效值对所述初始深度学习模型进行训练，生成训练好的目标深度学习模型。

可选地，预先获取用于训练初始深度学习模型的训练样本及监督有效值，包括：

预先采集摄像头不同场景、所有焦段且在电机有效步数范围内的所有图片；

对所有图片进行颜色空间转换,生成灰度图像；

获取灰度图像中图像均匀区域的每个像素的梯度值，对梯度值进行直方图统计，得到梯度阈值；

任意选取图像中的一对焦窗口，根据一像素框构建一图像块，计算所述图像块对应的梯度；

根据所述像素框遍历所述对焦窗口，得到若干个图像块对应的梯度值；

对所述若干个图像块对应的梯度值中小于梯度阈值的梯度值进行剔除；

将保留的梯度值进行求和，得到选取图像的最终评价值；

对同一焦段不同场景的所有图像计算最终评价值，选取不同场景的最终评价值的最大值和最小值；

对最终评价值的最大值和最小值进行归一化处理后，生成监督有效值。

可选地，根据训练样本、监督有效值对所述初始深度学习模型进行训练，生成训练好的目标深度学习模型，包括：

将所述灰度图像进行数据增强后，生成训练样本；

将所述训练样本输入初始深度学习模型，输出训练样本对应的输出评价值；

根据输出评价值与所述监督有效值计算对应的损失函数；

根据损失函数更新初始深度学习模型的网络参数，重复上述过程，直至生成训练好的目标深度学习模型。

可选地，所述获取电机步数范围，根据所述清晰度与电机步数范围，得到电机的移动步数，包括：

获取电机在当前场景当前焦段的电机步数范围，所述电机步数范围包括最小电机位置和最大电机位置；

获取当前电机位置的摄像头拍摄的离焦图像的清晰度；

获取当前电机位置；

根据所述清晰度、所述最小电机位置、最大电机位置及当前电机位置，得到电机的移动步数。

本发明实施例第二方面提供了一种基于深度学习的自动对焦系统，所述系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现以下步骤：

控制电机根据所述移动步数进行第一次移动；

可选地，所述计算机程序被所述处理器执行时还实现以下步骤：

预先构建初始深度学习模型；

对所有图片进行颜色空间转换,生成灰度图像；

将保留的梯度值进行求和，得到选取图像的最终评价值;

将所述灰度图像进行数据增强后，生成训练样本；

根据输出评价值与所述监督有效值计算对应的损失函数；

本发明实施例第三方面提供了一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于深度学习的自动对焦方法。

本发明实施例提供的技术方案中，获取摄像头拍摄的离焦图像，根据训练好的目标深度学习模型计算所述离焦图像的清晰度；获取电机步数范围，根据所述清晰度与电机步数范围，得到电机的移动步数，所述电机用于驱动摄像头移动；控制电机根据所述移动步数进行第一次移动；控制电机在所述在预定的步数范围内进行第二次移动，获取所述第二次移动过程图像的清晰度最高时对应的目标位置，控制电机移动至所述目标位置，完成自动对焦。本发明实施例可利用网络的预测值快速地使电机移动到准焦位置，极大地提高了自动对焦的速度；减小了电机搜寻的范围，解决了传统对焦的“拉风箱”问题；通过深度学习网络来预测图片清晰度，所以在极暗和多灯光场景均表现除了良好的对焦效果，提升了对焦效率。

附图说明

图1为本发明实施例中一种基于深度学习的自动对焦方法的一实施例的流程示意图；

图2为本发明实施例中一种基于深度学习的自动对焦系统的另一实施例的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图对本发明实施例进行详细的描述。

请参阅图1，图1为本发明实施例中一种基于深度学习的自动对焦方法的一个实施例的流程示意图。如图1所示，包括：

步骤S100、获取摄像头拍摄的离焦图像，根据训练好的目标深度学习模型计算所述离焦图像的清晰度；

步骤S200、获取摄像头拍摄的离焦图像，根据训练好的目标深度学习模型计算所述离焦图像的清晰度；

步骤S300、控制电机根据所述移动步数进行第一次移动；

步骤S400、控制电机在预定的步数范围内进行第二次移动，获取所述第二次移动过程图像的清晰度最高时对应的目标位置，控制电机移动至所述目标位置，完成自动对焦。

具体实施时，本发明实施例的自动对焦方法可运用于拍照，摄像相关系统及终端设备。本发明采用基于图像处理的自动对焦方法的灵活性与可操作性空间大，无需复杂的光学系统硬件设计，可极大程度降低成本，使其在自动对焦系统中得到了广泛应用。其对焦流程是建立在搜索过程中的对焦过程，在对焦过程中获取一系列清晰度不同的图像，并用对焦评价函数计算评价值，以此来指导对焦过程，再控制步进电机驱动成像镜头移动，直到镜头移到准焦位置。

本发明采用有监督的深度学习算法训练，先用深度学习模型计算出当前离焦图像的清晰度，然后根据模型计算清晰度与电机步数范围做运算估算电机的移动步数，最后再小范围移动，达到清晰度最高的准焦位置。

第一方面解决了常用评价函数在离焦程度大时函数曲线平缓和在有噪声情况下出现多个极值点的问题，当对焦评价函数曲线过于平滑的时候，会导致无法确定电机移动方向，而对焦评价曲线有多个极值点时很容易导致算法进入局部最优解。通过深度学习网络预测的图片清晰度则具有无偏性、单峰性、灵敏性、稳定性，实时性以及覆盖范围广的性质。

第二方面解决了基于数字图像处理的自动对焦方法对焦时间长的问题，基于数字图像处理的自动对焦需要不断地驱动电机，对每个电机位置地清晰度进行计算，直到找到清晰度最高的电机位置。本算法则可通过网络预测的清晰度来估算预测电机移动的步数，从而大大缩减了对焦时间。

进一步地，获取摄像头拍摄的离焦图像，根据训练好的目标深度学习模型计算所述离焦图像的清晰度前，包括：

预先构建初始深度学习模型；

具体实施时，预先根据需要构建初始深度学习模型，初始深度学习模型类型可根据需要进行选择。

本发明中采用有监督的训练方式，因此需要预先获取一些真实值作为训练样本并生成监督有效值，为训练过程中的网络参数进行更新提供方便。

根据获取训练样本、监督有效值对初始深度学习模型进行训练，得到目标深度学习模型，目标深度学习模型的鲁棒性更好。

进一步地，预先获取用于训练初始深度学习模型的训练样本及监督有效值，包括：

对所有图片进行颜色空间转换,生成灰度图像；

将保留的梯度值进行求和，得到选取图像的最终评价值；

具体地，采集相机不同场景，所有焦段，且在电机有效步数范围的所有图片；场景如天空，树林，建筑，行人，车辆等，是在当前场景中，其焦段范围为x1-x2，则让电机在x1-x2之间的每个焦距下移动到所有的有效电机位置，其中x1, x2由相机的自身特性所决定。

获取图片经过颜色空间转换RGB->GRAY, 记作gray_img；在一些其他的实施例中，所述颜色空间转换包括RGB->HSV，RGB->HSL，RGB->HSI，RGB->YUV，RGB->LAB;HSV->RGB,HSL->RGB, HSI->RGB, YUV->RGB, LAB->RGB等其他转换方式。

统计分析图像均匀区域的每个像素的梯度值T(i, j), 对T(i,j)进行直方图统计，得到阈值t,此步骤是为了去除噪声对梯度统计的影响（图像均匀区域即没有明显噪点，梯度值小，亮度均匀的区域）。因为是对图像均匀区域内的梯度值T(i, j)进行计算，像素的梯度值应该会比较小，但是对于图片中的噪声，其梯度值是比较大且数量较少，直方图统计后可直观得得到阈值t（值较大，数量较少）；

任意选取图像中的足K*K像素的对焦窗口，记为Ｃ，选取框位于对焦窗口左上角并以其第一个像素为起点，从左上角起用N*N的像素框去构建一个小图像块。计算这一小块的平均灰度值C_{(1, 1)},表示为：

（公式1）

将选取框分别移动至C_{(1, 1)}块的右侧和下侧，同样取N*N的像素块记为R_(1,1)和D_(1,1)，二者的平均灰度值如下公式计算：

,

（公式2）

得到C_{(1, 1)}，R_(1,1)，D_(1,1)后，则可根据下式求梯度值T_(1,1)：

（公式3）

其中I_i,j表示为在（i，j）的灰度值。

将选取框右移一个像素，使其左上角移至C_(2,1)用同样方法求出这一块的梯度值T_(2,1)。重复上述过程，遍历第一行像素，直到当前块的第一素为C_(1,K-2N+1),再右移则超出对焦窗口范围，用同样的方法计算出梯度值T_{(1, K-2N+1)}，再转到第二行第一列的像素。不断用上述方法移动选取框，直至取完第K-2N+1行，即第一个像素为Ｃ_{(K-2N+1,K-2N+1)}为止，然后将值大于t的梯度值去除掉，最后将已求所有块的梯度值T_(i,j)累加求和，得到最终评价值F，如下式：

（公式4）

此步骤是为了解决模糊量过大时采用单个相邻像素点得到的评价函数调焦范围小的问题。

对同一焦段同一场景的所有图片计算评价值F,，例如在场景A中采集了焦距x1-x2的所有电机位置的图片，则分别对每个焦距的所有图片计算评价值F；选取其中最大值F_max，最小值F_min，将所有图片的评价值归一化（0，1）之间，表示为F_gt，公式如下：

（公式5）。

进一步地，根据训练样本、监督有效值对所述初始深度学习模型进行训练，生成训练好的目标深度学习模型，包括：

将所述灰度图像进行数据增强后，生成训练样本；

根据输出评价值与所述监督有效值计算对应的损失函数；

具体实施时，把上述数据预处理后的gray_img经过一些数据增强送入设计的网络。数据增强method：a.水平垂直方向翻转 b.加轻微噪声 c.裁剪 d.旋转 e.变形；在一些其他的实施例中，还可Mixup增强（将随机的两张样本按比例混合，分类的结果按比例分配）、亮度增强等增强方式。

网络输出gray_img的评价值F_pred，F_pred的范围为（0，1）；

其中根据F_gt和网络输出F_pred计算出一组loss。

Loss可以是l1 loss,l1 loss公式为 |F_gt - F_pred|，其中||表示求绝对值，也可以是l2 loss, l2 loss的公式为（F_pred - F_gt）^2

根据loss更新网络模型参数，得到一个效果较好的目标深度学习模型。

进一步地，获取电机步数范围，根据所述清晰度与电机步数范围，得到电机的移动步数，包括：

获取当前电机位置的摄像头拍摄的离焦图像的清晰度；

获取当前电机位置；

具体实施时，从电机驱动获得当前场景当前焦段有效的电机步数范围，记作其中最小电机位置为step_min, 最大电机位置为step_max；获取当前电机位置的图片cur_rgb，经过数据预处理后记作cur_gray，送入训练好的网络预测得清晰度值为F_pred；

获取当前电机位置记作cur_step；

根据Fpred推算电机需要移动到的位置step_pos，其公式如下：

（公式6）

将电机移动到steppos位置，然后用传统对焦算法在steppos左右两侧小范围搜寻清晰度最高的准焦位置。

本发明实施例解决了传统对焦常用评价函数在离焦程度大时函数曲线平缓和在有噪声情况下出现多个极值点的问题；且可利用网络地预测值快速地使电机移动到准焦位置，极大地提高了自动对焦地速度；效果方面，本算法减小了电机搜寻的范围，解决了传统对焦的“拉风箱”问题。因是采集深度学习网络来预测图片清晰度，所以在极暗和多灯光场景均表现除了良好的对焦效果。

需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。

上面对本发明实施例中的基于深度学习的自动对焦方法进行了描述，下面对本发明实施例中的基于深度学习的自动对焦系统进行描述，请参阅图2，图2是本发明实施例中一种基于深度学习的自动对焦系统的另一实施例的硬件结构示意图，如图2所示，系统10包括：存储器101、处理器102及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器101执行时实现以下步骤：

控制电机根据所述移动步数进行第一次移动；

具体的实施步骤与方法实施例相同，此处不再赘述。

可选地，计算机程序被处理器101执行时还实现以下步骤：

预先构建初始深度学习模型；

具体的实施步骤与方法实施例相同，此处不再赘述。

可选地，计算机程序被处理器101执行时还实现以下步骤：

对所有图片进行颜色空间转换,生成灰度图像；

将保留的梯度值进行求和，得到选取图像的最终评价值；

具体的实施步骤与方法实施例相同，此处不再赘述。

可选地，计算机程序被处理器101执行时还实现以下步骤：

将所述灰度图像进行数据增强后，生成训练样本；

根据输出评价值与所述监督有效值计算对应的损失函数；

具体的实施步骤与方法实施例相同，此处不再赘述。

可选地，计算机程序被处理器101执行时还实现以下步骤：

获取当前电机位置的摄像头拍摄的离焦图像的清晰度；

获取当前电机位置；

具体的实施步骤与方法实施例相同，此处不再赘述。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S400。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器 (RAM) 。通过说明并非限制，RAM可以以诸如同步 RAM(SRAM)、动态 RAM 、(DRAM)、同步DRAM (SDRAM)、双数据速率SDRAM (DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM (SLDRAM) 以及直接Rambus(兰巴斯) RAM (DRRAM) 之类的许多形式得到。本发明实施例中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的自动对焦方法，其特征在于，包括：

控制电机根据所述移动步数进行第一次移动；

2.根据权利要求1所述的基于深度学习的自动对焦方法，其特征在于，所述获取摄像头拍摄的离焦图像，根据训练好的目标深度学习模型计算所述离焦图像的清晰度前，包括：

预先构建初始深度学习模型；

3.根据权利要求2所述的基于深度学习的自动对焦方法，其特征在于，所述预先获取用于训练初始深度学习模型的训练样本及监督有效值，包括：

对所有图片进行颜色空间转换,生成灰度图像；

将保留的梯度值进行求和，得到选取图像的最终评价值;

4.根据权利要求3所述的基于深度学习的自动对焦方法，其特征在于，所述根据训练样本、监督有效值对所述初始深度学习模型进行训练，生成训练好的目标深度学习模型，包括：

将所述灰度图像进行数据增强后，生成训练样本；

根据输出评价值与所述监督有效值计算对应的损失函数；

5.根据权利要求4所述的基于深度学习的自动对焦方法，其特征在于，所述获取电机步数范围，根据所述清晰度与电机步数范围，得到电机的移动步数，包括：

获取当前电机位置的摄像头拍摄的离焦图像的清晰度；

获取当前电机位置；

6.一种基于深度学习的自动对焦系统，其特征在于，所述系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现以下步骤：

控制电机根据所述移动步数进行第一次移动；

7.根据权利要求6所述的基于深度学习的自动对焦系统，其特征在于，所述计算机程序被所述处理器执行时还实现以下步骤：

预先构建初始深度学习模型；

8.根据权利要求7所述的基于深度学习的自动对焦系统，其特征在于，所述计算机程序被所述处理器执行时还实现以下步骤：

对所有图片进行颜色空间转换,生成灰度图像；

将保留的梯度值进行求和，得到选取图像的最终评价值;

9.根据权利要求8所述的基于深度学习的自动对焦系统，其特征在于，所述计算机程序被所述处理器执行时还实现以下步骤：

将所述灰度图像进行数据增强后，生成训练样本；

根据输出评价值与所述监督有效值计算对应的损失函数；

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-5任一项所述的基于深度学习的自动对焦方法。