CN113747041A

CN113747041A - 一种摄像机对焦方法及基于循环神经网络的对焦方法

Info

Publication number: CN113747041A
Application number: CN202010477808.4A
Authority: CN
Inventors: 陈宾朋
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2021-12-03
Anticipated expiration: 2040-05-29
Also published as: CN113747041B

Abstract

本申请实施例提供了一种摄像机对焦方法及基于循环神经网络的对焦方法。方法包括：获取摄像机采集的当前图像，以及摄像机的镜头的当前位置，当前位置为当前镜头相对于摄像机的图像传感器的位置；将当前图像划分为多个图像区域，作为目标图像区域，并计算每个目标图像区域的目标清晰度评价值；将多个目标清晰度评价值和当前位置输入预先训练好的对焦模型，得到当前图像对应的多个预设清晰点状态的目标预测值；基于多个预设清晰点状态的目标预测值，调节镜头的位置，以使镜头到达清晰点。应用本申请实施例提供的技术方案，能够减少对焦过程中图像画面震荡，提高对焦速度，提高对焦的准确率。

Description

一种摄像机对焦方法及基于循环神经网络的对焦方法

技术领域

本申请涉及视频监控技术领域，特别是涉及一种摄像机对焦方法及基于循环神经网络的对焦方法。

背景技术

摄像机采集不同应用场景的图像时，需要对摄像机对焦，调整摄像机的镜头和图像传感器间的距离，以保证图像的清晰度。

目前，主要采用反差式自动对焦方法对摄像机对焦，具体的包括：采集当前帧图像，计算当前帧图像的清晰度评价值，对比当前帧图像的清晰度评价值和上一帧图像的清晰度评价值，确定摄像机采集图像的清晰度评价值是否达到最大值；如果未达到最大值，则驱动电机，以调整摄像机的镜头位置，即调整摄像机的镜头与图像传感器间的距离，进而重新采集图像，直至达到最大值，结束摄像机对焦流程。这里，清晰度评价值达到最大值时摄像机的镜头相对于图像传感器的位置可以称为清晰点。

上述摄像机对焦方法中，只是考虑了当前帧图像的清晰度评价值和上一帧图像的清晰度评价值。而在实际应用场景中，受外部因素干扰，导致图像的信噪比较低。这使得采用上述摄像机对焦方法对摄像机对焦的过程中容易出现图像画面震荡，对焦速度缓慢。

此外，上述摄像机对焦方法中，计算整张图像的清晰度评价值的方式较为单一，容易将正常特征和噪声特征混合在一起，进而导致无法准确地预测出清晰点，或错误地确定清晰点。

发明内容

本申请实施例提供一种摄像机对焦方法及基于循环神经网络的对焦方法，以减少对焦过程中图像画面震荡，提高对焦速度，提高对焦的准确率。具体技术方案如下：

第一方面，本申请实施例提供了一种摄像机对焦方法，所述方法包括：

获取所述摄像机采集的当前图像，以及所述摄像机的镜头的当前位置，所述当前位置为当前所述镜头相对于所述摄像机的图像传感器的位置；

将所述当前图像划分为多个图像区域，作为目标图像区域，并计算每个所述目标图像区域的目标清晰度评价值；

将多个所述目标清晰度评价值和所述当前位置输入预先训练好的对焦模型，得到所述当前图像对应的多个预设清晰点状态的目标预测值；所述对焦模型为基于预设训练集对循环神经网络进行训练得到的模型，所述预设训练集包括样本图像的多个图像区域的样本清晰度评价值、所述摄像机采集所述样本图像时所述镜头相对于所述图像传感器的样本位置、以及所述样本图像对应的所述多个预设清晰点状态的标注值，所述预设清晰点状态用于指示清晰点相对于所述镜头所在位置的状态，所述清晰点为所述摄像机采集图像的清晰度评价值达到最大值时所述镜头相对于所述图像传感器的位置；

基于所述多个预设清晰点状态的目标预测值，调节所述镜头的位置，以使所述镜头到达所述清晰点。

可选的，所述多个预设清晰点状态包括清晰点方向和清晰点距离，所述清晰点方向指示所述镜头相对于所述图像传感器的运动方向以到达所述清晰点，所述清晰点距离指示所述镜头所在位置与所述清晰点间的距离；

所述基于所述多个预设清晰点状态的目标预测值，调节所述摄像机的镜头位置，以使所述镜头到达所述清晰点的步骤，包括：

基于预先设定的清晰点距离的值与移动速度的对应关系，确定所述清晰点距离的目标预测值对应的目标移动速度；

控制所述镜头以所述目标移动速度，沿所述清晰点方向的目标预测值所指示的运动方向移动，以使所述镜头到达所述清晰点。

可选的，所述清晰点方向的取值范围为x₁～x₂，所述控制所述镜头以所述目标移动速度，沿所述清晰点方向的目标预测值所指示的运动方向移动的步骤，包括：

若所述清晰点方向的目标预测值大于等于x₁且小于等于δ₁，或所述清晰点方向的目标预测值大于等于δ₂且小于等于x₂之间，则控制所述镜头以所述目标移动速度，沿所述清晰点方向的目标预测值所指示的运动方向移动，δ₁<δ₂；

若所述清晰点方向的目标预测值位于大于δ₁且小于δ₂，则控制所述镜头随机移动，并重新执行所述获取所述摄像机采集的当前图像的步骤。

可选的，所述多个预设清晰点状态还包括清晰点特征和噪声点特征，所述清晰点特征指示所述镜头所在位置是否已越过所述清晰点，所述噪声点特征指示所述对焦模型的输入数据是否为噪声数据；

所述控制所述镜头以所述目标移动速度，沿所述清晰点方向的目标预测值所指示的运动方向移动，以使所述镜头到达所述清晰点的步骤，包括：

若所述清晰点特征的目标预测值指示所述镜头所在位置未越过所述清晰点，和/或所述噪声点特征的目标预测值指示所述对焦模型的输入数据为噪声数据，则控制所述镜头以所述目标移动速度，沿所述清晰点方向的目标预测值所指示的运动方向移动，并重新执行所述获取所述摄像机采集的当前图像的步骤；

若所述清晰点特征的目标预测值指示所述镜头所在位置已越过所述清晰点，且所述噪声点特征的目标预测值指示所述对焦模型的输入数据不是噪声数据，则将在所述镜头移动至所述当前位置的过程中最大清晰度评价值对应的目标位置为清晰点，并控制所述镜头移动至所述目标位置。

可选的，所述清晰点特征的取值范围为x₃～x₄，噪声点特征的取值范围为x₅～x₆；

所述若所述清晰点特征的目标预测值指示所述镜头所在位置未越过所述清晰点，和/或所述噪声点特征的目标预测值指示所述对焦模型的输入数据为噪声数据，则控制所述镜头以所述目标移动速度，沿所述清晰点方向的目标预测值所指示的运动方向移动的步骤，包括：

若所述清晰点特征的目标预测值大于等于x₃且小于等于δ₃，和/或所述噪声点特征的目标预测值大于等于δ₄且小于等于x₆，则控制所述镜头以所述目标移动速度，沿所述清晰点方向的目标预测值所指示的运动方向移动；

所述若所述清晰点特征的目标预测值指示所述镜头所在位置已越过所述清晰点，且所述噪声点特征的目标预测值指示所述对焦模型的输入数据不是噪声数据，则将在所述镜头移动至所述当前位置的过程中最大清晰度评价值对应的目标位置为清晰点，并控制所述镜头移动至所述目标位置的步骤，包括：

若所述清晰点特征的目标预测值大于δ₃且小于等于x₄，且所述噪声点特征的目标预测值大于等于x₅且小于δ₄，则将在所述镜头移动至所述当前位置的过程中最大清晰度评价值对应的目标位置为清晰点，并控制所述镜头移动至所述目标位置。

可选的，所述方法还包括：

获取所述预设训练集，所述预设训练集包括所述样本图像的多个图像区域的样本清晰度评价值、所述摄像机采集所述样本图像时所述镜头相对于所述图像传感器的样本位置、以及所述样本图像对应的所述多个预设清晰点状态的标注值；

获取预设结构的循环神经网络，所述循环神经网络的输出层包括多个独立的输出分支，且所述输出分支与所述预设清晰点状态一一对应；

将多个样本清晰度评价值和所述样本位置输入所述循环神经网络，得到所述样本图像对应的多个预设清晰点状态的样本预测值；

基于所述多个预设清晰点状态的标注值和样本预测值，确定损失值；

若基于所述损失值确定所述循环神经网络收敛，则调整所述循环神经网络的参数，并返回所述将多个样本清晰度评价值和所述样本位置输入所述循环神经网络，得到所述样本图像对应的多个预设清晰点状态的样本预测值的步骤；

若基于所述损失值确定所述循环神经网络收敛，则结束训练，将当前循环神经网络作为对焦模型。

可选的，所述预设训练集包括的清晰度评价值和样本镜头位置对应至少一组样本图像，每组样本图像为所述镜头相对于所述图像传感器移动过程中连续采集的多张图像。

可选的，在获取所述预设训练集之前，所述方法还包括：

控制所述镜头从第一极限位置向第二极限位置移动，并实时获取所述摄像机采集的候选图像；

从获取的候选图像中随机选取至少一组连续采集的多张候选图像，作为至少一组样本图像；

其中，若所述第一极限位置为所述镜头距离所述图像传感器最近的位置，则所述第二极限位置为所述镜头距离所述图像传感器最远的位置；若所述第一极限位置为所述镜头距离所述摄像机的图像传感器最远的位置，则所述第二极限位置为所述镜头距离所述图像传感器最近的位置。

第二方面，本申请实施例提供了一种基于循环神经网络的对焦方法，所述方法包括：

当摄像机的电机处于第一位置时，采集图像；

将所述图像划分为多个图像分块，计算每一图像分块的第一清晰度评价值；

基于预设的循环神经网络，输入所述第一位置和多个第一清晰度评价值，输出第一数值和第二数值，其中，所述第一数值用于指示所述电机的运动方向以到达清晰点，所述第二数值用于指示所述第一位置与清晰点对应的电机位置之间的距离值，所述清晰点为所述摄像机采集图像的清晰度评价值达到最大值时所述摄像机的镜头相对于所述摄像机的图像传感器的位置；

基于所述第一数值和第二数值，驱动所述电机运动以使所述镜头到达所述清晰点；

在所述镜头到达所述清晰点后，采集对焦后的图像。

可选的，所述第一数值和所述第二数值的取值范围为0～1，所述第一数值小于0.5时，所述第一数值用于指示所述电机由所述第一位置沿着使所述镜头靠近所述图像传感器的方向运动；所述第一数值大于0.5时，所述第一数值用于指示所述电机由所述第一位置沿着使所述镜头远离所述图像传感器的方向运动。

可选的，所述方法还包括：

基于所述循环神经网络，输入所述第一位置和所述多个第一清晰度评价值，输出第三数值和第四数值，其中，所述第三数值用于指示所述第一位置是否已越过所述清晰点对应的电机位置，所述第四数值用于指示所述输入的所述第一位置和所述多个第一清晰度评价值是否为噪声；

所述基于所述第一数值和第二数值，驱动所述电机运动以使所述镜头到达所述清晰点的步骤，包括：

基于所述第一数值、第二数值、第三数值和第四数值，驱动所述电机运动以使所述镜头到达所述清晰点。

可选的，所述第三数值和所述第四数值的取值范围为0～1，所述第三数值越大则指示所述第一位置已越过所述清晰点对应的电机位置的概率越大；所述第四数值越大则指示所述输入的所述第一位置和所述多个第一清晰度值为噪声的概率越大。

可选的，所述基于所述第一数值、第二数值、第三数值和第四数值，驱动所述电机运动以使所述镜头到达所述清晰点的步骤，包括：

基于预先设定的距离值与速度的对应关系，确定所述第二数值对应的目标速度；

若所述第一数值大于等于第一预设阈值且小于等于第二预设阈值，则调整所述第一位置，并重新执行所述当摄像机的电机处于第一位置时，采集第一图像的步骤；

若所述第一数值小于所述第一预设阈值或所述第一数值大于所述第二预设阈值，则在所述第三数值小于等于第三预设阈值，和/或所述第四数值大于等于第四预设阈值的情况下，调整所述第一位置，并重新执行所述当摄像机的电机处于第一位置时，采集第一图像的步骤；

若所述第一数值小于所述第一预设阈值或所述第一数值大于所述第二预设阈值，则在所述第三数值大于所述第三预设阈值，和/或所述第四数值小于所述第四预设阈值的情况下，驱动所述电机以所述目标速度，沿所述第一数值所指示的方向运动，以使所述镜头到达所述清晰点。

可选的，所述循环神经网络包括输入层和输出层，所述输入层用于接收多个清晰度评价值和一个电机的位置，所述输出层用于独立输出多个数值，所述多个数值包括用于指示所述电机的运动方向以到达所述清晰点的数值、用于指示输入的位置与所述清晰点对应的电机位置之间的距离值的数值、用于指示输入的位置是否已越过所述清晰点对应的电机位置的数值、用于指示输入的数据是否为噪声。

可选的，所述方法还包括：

获取预设训练集，所述预设训练集包括所述样本图像的多个图像区域的样本清晰度评价值、所述摄像机采集所述样本图像时所述电机的样本位置、以及所述样本图像对应的多个标注值；

获取所述循环神经网络；

将多个样本清晰度评价值和所述样本位置输入所述循环神经网络，得到多个预测值；

基于所述多个标注值和多个预测值，确定损失值；

若基于所述损失值确定所述循环神经网络未收敛，则调整所述循环神经网络的参数，并返回所述将多个样本清晰度评价值和所述样本位置输入所述循环神经网络，得到多个预测值的步骤；

若基于所述损失值确定所述循环神经网络收敛，则结束训练。

可选的，所述预设训练集包括的清晰度评价值和样本位置对应至少一组样本图像，每组样本图像为所述电机移动过程中连续采集的多张图像。

可选的，在获取所述预设训练集之前，所述方法还包括：

控制所述电机从第一极限位置向第二极限位置移动，并实时获取所述摄像机采集的候选图像；

其中，若所述第一极限位置为使所述镜头距离所述图像传感器最近的电机位置，则所述第二极限位置为使所述镜头距离所述图像传感器最远的电机位置；若所述第一极限位置为使所述镜头距离所述摄像机的图像传感器最远的电机位置，则所述第二极限位置为使所述镜头距离所述图像传感器最近的电机位置。

第三方面，本申请实施例提供了一种摄像机对焦装置，所述装置包括：

第一获取单元，用于获取所述摄像机采集的当前图像，以及所述摄像机的镜头的当前位置，所述当前位置为当前所述镜头相对于所述摄像机的图像传感器的位置；

划分单元，用于将所述当前图像划分为多个图像区域，作为目标图像区域，并计算每个所述目标图像区域的目标清晰度评价值；

第一预测单元，用于将多个所述目标清晰度评价值和所述当前位置输入预先训练好的对焦模型，得到所述当前图像对应的多个预设清晰点状态的目标预测值；所述对焦模型为基于预设训练集对循环神经网络进行训练得到的模型，所述预设训练集包括样本图像的多个图像区域的样本清晰度评价值、所述摄像机采集所述样本图像时所述镜头相对于所述图像传感器的样本位置、以及所述样本图像对应的所述多个预设清晰点状态的标注值，所述预设清晰点状态用于指示清晰点相对于所述镜头所在位置的状态，所述清晰点为所述摄像机采集图像的清晰度评价值达到最大值时所述镜头相对于所述图像传感器的位置；

对焦单元，用于基于所述多个预设清晰点状态的目标预测值，调节所述镜头的位置，以使所述镜头到达所述清晰点。

所述对焦单元，具体用于：

可选的，所述清晰点方向的取值范围为x₁～x₂，所述对焦单元，具体用于：

所述对焦单元，具体用于：

可选的，所述装置还包括：

第二获取单元，用于获取所述预设训练集，所述预设训练集包括所述样本图像的多个图像区域的样本清晰度评价值、所述摄像机采集所述样本图像时所述镜头相对于所述图像传感器的样本位置、以及所述样本图像对应的所述多个预设清晰点状态的标注值；

第三获取单元，用于获取预设结构的循环神经网络，所述循环神经网络的输出层包括多个独立的输出分支，且所述输出分支与所述预设清晰点状态一一对应；

第二预测单元，用于将多个样本清晰度评价值和所述样本位置输入所述循环神经网络，得到所述样本图像对应的多个预设清晰点状态的样本预测值；

确定单元，用于基于所述多个预设清晰点状态的标注值和样本预测值，确定损失值；

处理单元，用于若基于所述损失值确定所述循环神经网络收敛，则调整所述循环神经网络的参数，并返回所述将多个样本清晰度评价值和所述样本位置输入所述循环神经网络，得到所述样本图像对应的多个预设清晰点状态的样本预测值的步骤；若基于所述损失值确定所述循环神经网络收敛，则结束训练，将当前循环神经网络作为对焦模型。

可选的，所述装置还包括：

控制单元，用于在获取所述预设训练集之前，控制所述镜头从第一极限位置向第二极限位置移动，并实时获取所述摄像机采集的候选图像；其中，若所述第一极限位置为所述镜头距离所述图像传感器最近的位置，则所述第二极限位置为所述镜头距离所述图像传感器最远的位置；若所述第一极限位置为所述镜头距离所述摄像机的图像传感器最远的位置，则所述第二极限位置为所述镜头距离所述图像传感器最近的位置；

选取单元，用于从获取的候选图像中随机选取至少一组连续采集的多张候选图像，作为至少一组样本图像。

第四方面，本申请实施例提供了一种基于循环神经网络的对焦装置，所述装置包括：

第一采集单元，用于当摄像机的电机处于第一位置时，采集图像；

划分单元，用于将所述图像划分为多个图像分块，计算每一图像分块的第一清晰度评价值；

第一预测单元，用于基于预设的循环神经网络，输入所述第一位置和多个第一清晰度评价值，输出第一数值和第二数值，其中，所述第一数值用于指示所述电机的运动方向以到达清晰点，所述第二数值用于指示所述第一位置与清晰点对应的电机位置之间的距离值，所述清晰点为所述摄像机采集图像的清晰度评价值达到最大值时所述摄像机的镜头相对于所述摄像机的图像传感器的位置；

驱动单元，用于基于所述第一数值和第二数值，驱动所述电机运动以使所述镜头到达所述清晰点；

第二采集单元，用于在所述镜头到达所述清晰点后，采集对焦后的图像。

可选的，所述第一预测单元，还用于基于所述循环神经网络，输入所述第一位置和所述多个第一清晰度评价值，输出第三数值和第四数值，其中，所述第三数值用于指示所述第一位置是否已越过所述清晰点对应的电机位置，所述第四数值用于指示所述输入的所述第一位置和所述多个第一清晰度评价值是否为噪声；

所述驱动单元，具体用于：

可选的，所述驱动单元，具体用于：

可选的，所述装置还包括：

第一获取单元，用于获取预设训练集，所述预设训练集包括所述样本图像的多个图像区域的样本清晰度评价值、所述摄像机采集所述样本图像时所述电机的样本位置、以及所述样本图像对应的多个标注值；

第二获取单元，用于获取所述循环神经网络；

第二预测单元，用于将多个样本清晰度评价值和所述样本位置输入所述循环神经网络，得到多个预测值；

确定单元，用于基于所述多个标注值和多个预测值，确定损失值；

处理单元，用于若基于所述损失值确定所述循环神经网络未收敛，则调整所述循环神经网络的参数，并返回所述将多个样本清晰度评价值和所述样本位置输入所述循环神经网络，得到多个预测值的步骤；若基于所述损失值确定所述循环神经网络收敛，则结束训练。

可选的，所述装置还包括：

控制单元，用于在获取预设训练集之前，控制所述电机从第一极限位置向第二极限位置移动，并实时获取所述摄像机采集的候选图像；

选取单元，用于从获取的候选图像中随机选取至少一组连续采集的多张候选图像，作为至少一组样本图像；

第五方面，本申请实施例提供了一种电子设备，包括处理器和存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现第一方面提供的任一方法步骤。

第六方面，本申请实施例提供了一种电子设备，包括处理器和存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现第二方面提供的任一方法步骤。

第七方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的任一方法步骤。

第八方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第二方面提供的任一方法步骤。

第九方面，本申请实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行第一方面提供的任一方法步骤。

第十方面，本申请实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行第二方面提供的任一方法步骤。

本申请实施例有益效果：

本申请实施例提供的技术方案中，利用训练数据训练循环神经网络，得到对焦模型。循环神经网络具有记忆功能，利用训练数据训练循环神经网络得到的对焦模型也就是具有了记忆功能，并且记忆了所有训练数据。对焦模型可利用记忆的所有信息以及当前输入的信息，调节镜头的位置，以使镜头到达清晰点，增加了确定清晰点的参考信息，提高了图像的信噪比，减少了对焦过程中图像画面震荡，提高了对焦速度。

此外，本申请实施例中，在对焦过程中，对焦模型以多个清晰度评价值和镜头的位置作为输入，增加了推测预设清晰点状态的信息维度，此外，对焦模型以多个预设清晰点状态的预测值作为输出，增加了确定清晰点的信息维度，通过多个维度的信息，能够有效区分出正常特征和噪声特征，提高了对焦的准确率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为清晰度评价值的上凸曲线的一种示意图；

图2a为图像模糊区域引起画面震荡的一种示意图；

图2b为场景变动引起画面震荡的一种示意图；

图3为正常特征和噪声特征混合的一种示意图；

图4为本申请实施例提供的摄像机对焦方法的第一种流程示意图；

图5为本申请实施例提供的清晰度评价值的上凸曲线的变化趋势的一种示意图；

图6为本申请实施例提供的摄像机对焦方法的第二种流程示意图；

图7为本申请实施例提供的摄像机对焦方法的第三种流程示意图；

图8为本申请实施例提供的摄像机对焦方法的第四种流程示意图；

图9为本申请实施例提供的摄像机对焦方法的第五种流程示意图；

图10为本申请实施例提供的对焦模型训练方法的一种流程示意图；

图11为本申请实施例提供的循环神经网络的一种结构示意图；

图12为本申请实施例提供的循环神经网络的另一种结构示意图；

图13为本申请实施例提供的摄像机对焦装置的一种结构示意图；

图14为本申请实施例提供的对焦模型训练装置的一种结构示意图；

图15为本申请实施例提供的基于循环神经网络的对焦方法的一种流程示意图；

图16为本申请实施例提供的基于循环神经网络的对焦装置的一种结构示意图；

图17为本申请实施例提供的循环神经网络训练装置的一种结构示意图；

图18为本申请实施例提供的电子设备的一种结构示意图；

图19为本申请实施例提供的电子设备的另一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于理解，下面对本申请实施例中出现的词语进行解释说明。

镜头位置：指摄像机的镜头相对于摄像机的图像传感器的位置，也可以理解为镜头与图像传感器间的距离。此外，镜头与图像传感器间距离的变化可通过电机控制镜头移动或图像传感器移动来实现，基于此，上述镜头位置又可以称为电机位置或马达位置。

自动对焦：指摄像机自主调节镜头位置使采集的图像清晰的过程。

清晰度评价值：为反映图像清晰度的量。清晰度评价值又可以称为对焦值(FocusValue，FV)。清晰度评价值越高，图像越清晰。清晰度评价值可以利用频域、灰度梯度、信息熵等评价函数计算得出。

理想情况下，清晰度评价值随镜头位置的变化趋势为近似正态分布的上凸曲线。该上凸曲线的峰值即为清晰度评价值达到最大值，而该清晰度评价值的最大值对应的镜头位置为清晰点。

摄像机对焦的过程即为使镜头停在上述上凸曲线的峰值对应的镜头位置处的过程。具体的镜头位置的调节方式有两种，包括：(1)图像传感器不动，电机带动镜头移动；(2)镜头不动，电机带动图像传感器移动。这两种调节方式均可实现镜头位置的调节，达到摄像机对焦的目的。

为了提高对焦效率，对清晰点相对于镜头位置的方向进行判断，使电机移动(也可以理解为镜头移动)较短的行程，镜头就能够达到清晰点。例如，镜头正向移动一步，移动后图像的清晰度评价值变大，则可确定当前镜头位置位于上述上凸曲线的峰值的左侧，清晰点在当前镜头位置的正方向。这里，镜头移动指镜头相对于图像传感器的移动，镜头移动可以通过上述(1)和(2)两种镜头位置的调节方式实现。

在一次摄像机对焦过程中，如果图像的清晰度评价值一直上升再下降，则说明镜头位置已越过清晰点，且峰值对应的镜头位置即为清晰点。利用这样的先验信息，可避免电机的无效运动，大大提升了对焦效率。

目前，反差式自动对焦方法就是基于上述原理，考虑当前帧图像的清晰度评价值和上一帧图像的清晰度评价值，对摄像机对焦，以提高对焦效率。然而实际应用场景中，在低照度、亮度突变等外部因素干扰，导致图像中包含的噪声点增多，图像的信噪比较低，清晰度评价值的上凸曲线呈现锯齿状的毛刺，或断崖式的增大或减小，如图1所示，图1中横坐标为镜头位置，纵坐标为清晰度评价值。这对清晰点的预测识别带来了困难。只考虑了当前帧图像的清晰度评价值和上一帧图像的清晰度评价值，在对摄像机对焦的过程中容易出现图像画面震荡。

如图2a和2b所示，其中，图2a为图像模糊区域引起画面震荡的一种示意图，图2b为场景变动引起画面震荡的一种示意图。图2a和2b中横坐标为镜头位置，纵坐标为清晰度评价值，矩形框区域为画面震荡区域。在画面震荡区域中，会出现镜头向左侧移动后，确定上一帧图像的清晰度评价值大于当前帧图像的清晰度评价值，之后镜头向右侧移动，又确定上一帧图像的清晰度评价值大于当前帧图像的清晰度评价值，此时，镜头再次向左侧移动。这样，在一个位置区间内，镜头往返的反复移动，出现画面震荡的问题，进而使得对焦速度缓慢。

此外，反差式自动对焦方法中，清晰度评价值是对整个图像进行计算得到。在光学成像范围内，物体的分布存在很大的局限性。不同图像区域的镜头可能针对不同的物体，不同物体的细节纹理可能有较大差异；另外，也存在灯光等特殊场景。以上种种差异会导致各图像区域的清晰度评价值的上凸曲线的差异，尤其是上凸曲线的峰值点的差异。基于此，采用单一维度的信息，即整张图像的清晰度评价值，容易将正常特征和噪声特征混合在一起，如图3所示。这将导致无法准确地预测出清晰点，或错误地确定清晰点。

为解决上述问题，本申请实施例提供了一种摄像机对焦方法。该摄像机对焦方法可以应用于摄像机、与摄像机连接的设备等。

本申请实施例提供的摄像机对焦方法中，利用训练数据训练循环神经网络，得到对焦模型。循环神经网络具有记忆功能，利用训练数据训练循环神经网络得到的对焦模型也就是具有了记忆功能，并且记忆了所有训练数据。对焦模型可利用记忆的所有信息以及当前输入的信息，调节镜头的位置，以使镜头到达清晰点，增加了确定清晰点的参考信息，提高了图像的信噪比，减少了对焦过程中图像画面震荡，提高了对焦速度。

下面通过具体实施例，对本申请实施例提供的摄像机对焦方法进行说明。

如图4所示，图4为本申请实施例提供的摄像机对焦方法的第一种流程示意图。为便于理解，下面以摄像机为执行主体进行说明，并不起限定作用。该方法包括如下步骤。

步骤41，获取摄像机采集的当前图像，以及摄像机的镜头的当前位置。其中，当前位置为当前摄像机的镜头相对于摄像机的图像传感器的位置。

摄像机在需要采集某一场景的清晰图像时，固定摄像机的镜头对准该场景，对该摄像机进行对焦。具体的，摄像机实时采集该场景的图像，并获取采集图像时镜头的位置。本申请实施例中，镜头的位置即为镜头位置。

步骤42，将当前图像划分为多个图像区域，作为目标图像区域，并计算每个目标图像区域的目标清晰度评价值。

本申请实施例中，每张图像划分成的图像区域个数可以根据实际需求进行设定。例如，图像划分成的图像区域个数可以为4*4＝16、5*5＝25等。一个图像中多个图像区域的大小可以相同，也可以不同。摄像机在获取到当前图像后，将当前图像划分为多个图像区域。每一个图像区域作为一个目标图像区域。针对每一个目标图像区域，计算该目标图像区域的清晰度评价值，作为目标清晰度评价值。摄像机得到了多个目标图像区域，进而可以得到多个目标清晰度评价值。

本申请实施例中，对图像进行了区域划分，分别统计了各个图像区域的清晰度评价值，每一个图像区域的清晰度评价值均作为一个独立的信息维度，用于描述图像的清晰度评价值。基于多个清晰度评价值对摄像机对焦，增加了确定推测预设清晰点状态的信息维度，提高了确定预设清晰点状态的准确度。

步骤43，将多个目标清晰度评价值和当前位置输入预先训练好的对焦模型，得到当前图像对应的多个预设清晰点状态的目标预测值。

其中，对焦模型为基于预设训练集对循环神经网络(Recurrent Neural Network，RNN)进行训练得到的模型，预设训练集包括样本图像的多个图像区域的样本清晰度评价值、摄像机采集样本图像时镜头的样本位置、以及样本图像对应的多个预设清晰点状态的标注值。对焦模型的训练过程下面会进行详细说明，此处不做展开描述。

RNN具有记忆功能，利用训练数据训练RNN得到的对焦模型也就是具有了记忆功能，并且记忆了所有训练数据。这样，对焦模型就学习到了清晰度评价值的上凸曲线的变化趋势。如图5所示，图5为本申请实施例提供的清晰度评价值的变化趋势的一种示意图。图5中横坐标为镜头位置，纵坐标为清晰度评价值。基于图5所示，清晰度评价值的变化趋势可依次分为无趋势、缓慢上升、快速上升、峰值、下降、噪声等。基于学习到的变化趋势，在对焦过程中，对焦模型可利用历史输入的数据以及当前输入的数据，确定本次对焦过程已输入的数据对应的清晰度评价值的变化趋势是否符合无趋势、缓慢上升、快速上升、峰值、下降、噪声等变化趋势，进而确定多个预设清晰点状态的目标预测值。

例如，确定本次对焦过程已输入的数据对应的清晰度评价值的变化趋势是否符合缓慢上升再到快速上升的变化趋势，则确定当前镜头移动方向正确，当前当前镜头移动方向为清晰点方向。再例如，确定本次对焦过程已输入的数据对应的清晰度评价值的变化趋势是否符合噪声的变化趋势，则确定当前输入的数据为噪声，当前输入的数据符合噪声点特征。

另外，预设清晰点状态用于指示清晰点相对于镜头所在位置的状态。预设清晰点状态可以包括但不限于清晰点方向、清晰点距离、清晰点特征和噪声点特征等。

其中，清晰点方向指示镜头相对于图像传感器的运动方向以使镜头到达清晰点。清晰点方向可以用于判断镜头位置位于清晰点的哪一侧，以确定电机要带动镜头移动的方向，以使镜头远离图像传感器或靠近图像传感器。

一个示例中，清晰点方向的取值范围为0-1。清晰点方向的预测值大于0.5时，表示清晰点在镜头的当前位置的右侧，即镜头相对于图像传感器的运动方向为靠近图像传感器的方向，清晰点方向的预测值越大，这一结论越可靠，即预测的清晰点在镜头的当前位置的右侧的这一结果越准确；反之，清晰点方向的预测值小于0.5时，表示清晰点在镜头的当前位置的左侧，即镜头相对于图像传感器的运动方向为远离图像传感器的方向，清晰点方向的预测值越小，这一结论越可靠，即预测的清晰点在镜头的当前位置的左侧的这一结果越准确。

一个示例中，清晰点方向的取值范围为0-1。清晰点方向的预测值小于0.5时，表示清晰点在镜头的当前位置的右侧，清晰点方向的预测值越大，这一结论越可靠；反之，清晰点方向的预测值大于0.5时，表示清晰点在镜头的当前位置的左侧，清晰点方向的预测值越小，这一结论越可靠。

具体的，清晰点方向的取值大小与清晰点在镜头的当前位置的哪一侧的对应关系，由对焦模型训练是清晰点方向的标注值相对应。

清晰点特征指示镜头所在位置是否已越过清晰点。清晰点特征，用于判断在对焦并移动镜头的过程中镜头当前位置是否已经越过清晰度评价值的峰值对应的镜头位置，以确定对焦步骤的转变。清晰点特征可以理解为在对焦并移动镜头的过程中获取的图像的清晰度评价值的变化趋势与预设变化趋势的相似程度，如图5所示的无趋势、缓慢上升、快速上升、峰值和下降等变化趋势。清晰点特征的预测值的大小表征在对焦并移动镜头的过程中获取的图像的清晰度评价值的变化趋势与预设变化趋势的相似程度的大小，镜头所在位置是否已越过清晰点的概率的大小。

一个示例中，清晰点特征的取值范围为0-1。清晰点特征的预测值越大，表示当前镜头所在位置已越过清晰点的概率越大；反之，清晰点特征的预测值越小，表示当前镜头所在位置已越过清晰点的概率越小。

另一个示例中，清晰点特征的取值范围为0-1。清晰点特征的预测值越小，表示当前镜头所在位置已越过清晰点的概率越大；反之，清晰点特征的预测值越大，表示当前镜头所在位置已越过清晰点的概率越小。

具体的，清晰点特征的取值大小与当前镜头所在位置是否已越过清晰点的对应关系，由对焦模型训练是清晰点特征的标注值相对应。

噪声点特征指示对焦模型的输入数据是否为噪声数据。噪声点特征用于区分当前输入对焦模型的数据是否有效，确定在对焦过程中是否采用当前输入对焦模型的数据，以降低和排除噪声干扰。噪声点特征可以理解为在对焦并移动镜头的过程中当前图像的清晰度评价值的变化趋势与预设噪声变化趋势的相似程度，如图5所示的噪声区域的变化趋势。噪声点特征的预测值的大小表征在对焦并移动镜头的过程中当前图像的清晰度评价值的变化趋势与预设噪声变化趋势的相似程度的大小，对焦模型的输入数据为噪声数据的概率的大小。

一个示例中，噪声点特征的取值范围为0-1。噪声点特征的预测值越大，表示当前对焦模型的输入数据为噪声数据的概率越大。噪声点特征的预测值越小，表示当前对焦模型的输入数据为噪声数据的概率越小。

另一个示例中，噪声点特征的取值范围为0-1。噪声点特征的预测值越小，表示当前对焦模型的输入数据为噪声数据的概率越大。噪声点特征的预测值越大，表示当前对焦模型的输入数据为噪声数据的概率越小。

具体的，噪声点特征的取值大小与对焦模型的输入数据是否为噪声数据的对应关系，由对焦模型训练是噪声点特征的标注值相对应。

清晰点距离指示镜头所在位置与清晰点间的距离。清晰度评价值的上凸曲线具有一定的规律，对焦模型通过学习到的清晰度评价值的上凸曲线的规律，以及本次对焦获得的所有输入数据，可预测出清晰点距离的值。清晰点距离的预测值越大，表明镜头的当前位置距离清晰越远，清晰点距离的预测值越小，表明镜头的当前位置距离清晰越近。

本申请实施例中，预设清晰点状态还可以包括其他指示清晰点相对于镜头所在位置的状态，对此不做具体限定。

本申请实施例中，摄像机在得到多个目标清晰度评价值和镜头的当前位置后，可基于多个个目标清晰度评价值和镜头的当前位置，确定当前图像对应的目标输入特征向量。

例如，当前图像划分为4个目标图像区域，分别为目标图像区域A、目标图像区域B、目标图像区域C和目标图像区域D。目标图像区域A的目标清晰度评价值为0.75，目标图像区域B的目标清晰度评价值为0.35，目标图像区域C的目标清晰度评价值为0.2，目标图像区域D的目标清晰度评价值为0.6，镜头的当前位置为-2000。则确定目标输入特征向量为{0.75,0.35,032,0.6,-2000}。

摄像机可将目标输入特征向量输入对焦模型，得到多个预设清晰点状态的目标预测值。这里，对焦模型具有循环神经网络的记忆功能，对焦模型记忆了所有信息，充分学习到清晰度评价值的变化趋势等信息。对焦模型利用记忆的所有信息以及当前输入的信息，调节镜头的位置使镜头到达清晰点，增加了确定清晰点的参考信息，提高了图像的信噪比，减少了对焦过程中图像画面震荡，进而提高了对焦速度。

步骤44，基于多个预设清晰点状态的目标预测值，调节镜头的位置，以使镜头到达清晰点。

本申请实施例中，摄像机在得到对焦模型输出的多个预设清晰点状态的目标预测值后，基于多个预设清晰点状态的目标预测值，确定清晰点，进而调节镜头的位置，以使镜头到达清晰点，实现摄像机的自动对焦。

在本申请的一个实施例中，预设清晰点状态包括：清晰点方向和清晰点距离。这种情况下，如图6所示，上述步骤44可以细化为步骤441和步骤442。具体如下。

步骤441，基于预先设定的清晰点距离的值与移动速度的对应关系，确定清晰点距离的目标预测值对应的目标移动速度。

摄像机中预先设定了清晰点距离的值与移动速度的对应关系。摄像机在得到清晰点距离的目标预测值后，可以从预先设定的清晰点距离的值与移动速度的对应关系中，确定包括清晰点距离的目标预测值的对应关系，该确定的对应关系包括的移动速度即为目标移动速度。

本申请实施例中，预先设定的清晰点距离的值与移动速度的对应关系中，清晰点距离的值越大，该清晰点距离的值对应的移动速度越大，清晰点距离的值越小，该清晰点距离的值对应的移动速度越小。也就是，镜头的当前位置距离清晰点较远时，镜头以较大的移动速度运动，可以保证镜头快速的移动至清晰点；而镜头的当前位置距离清晰点较近时，镜头以较小的移动速度运动，可以避免镜头因移动速度过大，在清晰点附近做往返运动，出现画面震荡的问题。

步骤442，控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，以使镜头到达清晰点。

在确定目标移动速度后，摄像机可控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，以使镜头到达清晰点。

例如，目标移动速度为v₁，清晰点方向的目标预测值所指示的运动方向为镜头远离图像传感器的方向。则摄像机控制镜头以速度v₁向移动远离图像传感器的方向移动，以使镜头到达清晰点。

本申请实施例中，摄像机可基于清晰点距离的目标预测值，以相应的速度控制镜头沿清晰点方向的目标预测值所指示的运动方向移动，提高了对焦的效率，并提高了对焦的准确度。

在本申请的一个实施例中，清晰点方向的取值范围为x₁～x₂。这里，x₁和x₂的大小根据对焦模型训练时清晰点方向的最小标注值和最大标注值确定。一个示例中，x₁为0，x₂为1。这种情况下，如图7所示，上述步骤442可以细化为步骤4421和步骤4422。

步骤4421，若清晰点方向的目标预测值大于等于x₁且小于等于δ₁，或清晰点方向的目标预测值大于等于δ₂且小于等于x₂之间，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，δ₁<δ₂。δ₁和δ₂的大小可以根据实际需要进行设定。

步骤4422，若清晰点方向的目标预测值位于大于δ₁且小于δ₂，则控制镜头随机移动，并重新执行步骤41。

本申请实施例中，摄像机在得到清晰点方向的目标预测值后，比较清晰点方向的目标预测值与x₁、δ₁、δ₂和x₂的大小。若清晰点方向的目标预测值位于(δ₁,δ₂)区间内时，则可确定当前无法准确的预测出镜头相对于图像传感器的运动方向，镜头沿清晰点方向的目标预测值所指示的运动方向移动没有任何意义，此时，控制镜头随机移动，重新执行步骤41，继续获取图像，直至能够准确的预测出镜头相对于图像传感器的运动方向。

若清晰点方向的目标预测值位于[x₁,δ₁]或[δ₂,x₂]区间内，则可确定当前预测出镜头相对于图像传感器的运动方向是准确的，为了快速的实现对焦，控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动。

例如，清晰点方向的取值范围为0～1，δ₁为0.1，δ₂为0.9。此外，清晰点方向的取值大于0.5时，表示镜头相对于图像传感器的运动方向为靠近图像传感器的方向，清晰点方向的取值小于0.5时，表示镜头相对于图像传感器的运动方向为远离图像传感器的方向。若清晰点方向的目标预测值y∈(0.1,0.9)，则控制镜头随机移动，并重新获取图像，基于重新获取的图像继续预测清晰点方向。

若清晰点方向的目标预测值y∈[0,0.1]，则控制镜头以目标移动速度，沿远离图像传感器的方向移动。在控制镜头到达清晰点的过程中，摄像可以继续获取图像，基于重新获取的图像继续预测清晰点方向和清晰点距离，以使镜头准确的到达清晰点，实现对焦。

若清晰点方向的目标预测值y∈[0.9,1]，则控制镜头以目标移动速度，沿靠近图像传感器的方向移动。在控制镜头到达清晰点的过程中，摄像可以继续获取图像，基于重新获取的图像继续预测清晰点方向和清晰点距离，以使镜头准确的到达清晰点，实现对焦。

本申请实施例中，上述比较清晰点方向的目标预测值与x₁、δ₁、δ₂和x₂的大小的步骤，可以在步骤441之前执行，以减少计算量，节约摄像机计算资源。

在本申请的一个实施例中，预设清晰点状态还包括：清晰点特征和噪声点特征。这种情况下，如图8所示，上述步骤442可以细化为步骤4423和步骤4424。具体如下。

步骤4423，若清晰点特征的目标预测值指示镜头所在位置未越过清晰点，和/或噪声点特征的目标预测值指示对焦模型的输入数据为噪声数据，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，并重新执行步骤41。

步骤4424，若清晰点特征的目标预测值指示镜头所在位置已越过清晰点，且噪声点特征的目标预测值指示对焦模型的输入数据不是噪声数据，则将在镜头移动至当前位置的过程中最大清晰度评价值对应的目标位置为清晰点，并控制镜头移动至目标位置。

本申请实施例中，摄像机在得到清晰点特征的目标预测值和噪声点特征的目标预测值后，判断清晰点特征的目标预测值指示镜头所在位置是否越过清晰点，并判断噪声点特征的目标预测值指示对焦模型的输入数据是否为噪声数据。其中，对焦模型的输入数据包括多个目标清晰度评价值和当前位置。

上述判断结果存在四种情况。

第一种，清晰点特征的目标预测值指示镜头所在位置未越过清晰点，噪声点特征的目标预测值指示对焦模型的输入数据为噪声数据。

第二种，清晰点特征的目标预测值指示镜头所在位置未越过清晰点，噪声点特征的目标预测值指示对焦模型的输入数据不是噪声数据。

第三种，清晰点特征的目标预测值指示镜头所在位置已越过清晰点，噪声点特征的目标预测值指示对焦模型的输入数据不是噪声数据。

第四种，清晰点特征的目标预测值指示镜头所在位置已越过清晰点，噪声点特征的目标预测值指示对焦模型的输入数据不是噪声数据。

对于上述四种情况中，若清晰点特征的目标预测值指示镜头所在位置未越过清晰点，则可确定在本次对焦并移动镜头的过程中本次对焦的镜头起始位置至当前位置未越过清晰点，清晰点不在本次对焦的镜头起始位置至当前位置的区间内；若清晰点特征的目标预测值指示镜头所在位置已越过清晰点，则可确定在本次对焦并移动镜头的过程中本次对焦的镜头起始位置至当前位置已越过清晰点，清晰点在本次对焦的镜头起始位置至当前位置的区间内。

若噪声点特征的目标预测值指示对焦模型的输入数据不是噪声数据，则表明当前的多个目标清晰度评价值和当前位置为有效数据，可以用于摄像机对焦。若噪声点特征的目标预测值指示对焦模型的输入数据为噪声数据，则表明当前的多个目标清晰度评价值和当前位置为五效数据，不能用于摄像机对焦。

基于此，若判断结果为上述的第一种、第二种或第三种情况，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，并重新执行步骤41，继续采集图像。

若判断结果为上述的第四种情况，则将在镜头移动至当前位置的过程中最大清晰度评价值对应的目标位置为清晰点，并控制镜头移动至目标位置。这里，最大清晰度评价值为整张图像的清晰度评价值。

例如，上述获取到多个目标清晰度评价值，对这多个目标清晰度评价值进行加权处理，可得到当前图像的清晰度评价值。基于镜头移动至当前位置的过程中采集的多张图像图像的清晰度评价值，可确定出最大清晰度评价值，以及最大清晰度评价值对应的镜头位置。

本申请实施例中，可以排除噪声数据的干扰，提高对焦的准确率。

在本申请的一个实施例中，为了便于确定镜头所在位置是否越过清晰点，以及确定对焦模型的输入数据是否为噪声数据，可预先设定清晰点特征的取值范围以及噪声点特征的取值范围，如清晰点特征的取值范围为x₃～x₄，噪声点特征的取值范围为x₅～x₆。这里，x₃和x₄的大小根据对焦模型训练时清晰点特征的最小标注值和最大标注值确定，x₅和x₆的大小根据对焦模型训练时噪声点特征的最小标注值和最大标注值确定。一个示例中，x₃和x₅为0，x₄和x₆为1。以清晰点特征的预测值越大，表示当前镜头所在位置已越过清晰点的概率越大；清晰点特征的预测值越小，表示当前镜头所在位置已越过清晰点的概率越小为例，以噪声点特征的预测值越大，表示当前对焦模型的输入数据为噪声数据的概率越大，噪声点特征的预测值越小，表示当前对焦模型的输入数据为噪声数据的概率越小为例。

这种情况下，上述步骤4423可以为：若清晰点特征的目标预测值大于等于x₃且小于等于δ₃，和/或噪声点特征的目标预测值大于等于δ₄且小于等于x₆，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，并重新执行步骤41。δ₃和δ₄的大小可以根据实际需要进行设定。

具体的，若清晰点特征的目标预测值位于[x₃,δ₃]区间内，噪声点特征的目标预测值位于[δ₄,x₆]区间内，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，并重新执行步骤41。

若清晰点特征的目标预测值位于[x₃,δ₃]区间内，噪声点特征的目标预测值位于[x₅,δ₄)区间内，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，并重新执行步骤41。

若清晰点特征的目标预测值位于(δ₃,x₄]区间内，噪声点特征的目标预测值位于[δ₄,x₆]区间内，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，并重新执行步骤41。

上述步骤4424可以为：若清晰点特征的目标预测值大于δ₃且小于等于x₄，且噪声点特征的目标预测值大于等于x₅且小于δ₄，则将在镜头移动至当前位置的过程中最大清晰度评价值对应的目标位置为清晰点，并控制镜头移动至目标位置。

具体的，若清晰点特征的目标预测值位于(δ₃,x₄]区间内，噪声点特征的目标预测值位于[x₅,δ₄)区间内，则将在镜头移动至当前位置的过程中最大清晰度评价值对应的目标位置为清晰点，并控制镜头移动至目标位置。

下面结合图9对本申请实施例提供的摄像机对焦方法进行详细说明。其中，预设清晰点状态包括清晰点方向、清晰点距离、清晰点特征和噪声点特征。此外，清晰点方向、清晰点距离、清晰点特征和噪声点特征的取值范围均为0-1。清晰点方向的预测值大于0.5，表示镜头相对于图像传感器的运动方向为靠近图像传感器的方向；晰点方向的预测值小于0.5，表示镜头相对于图像传感器的运动方向为远离图像传感器的方向。清晰点特征的预测值越大，表示当前镜头所在位置已越过清晰点的概率越大；清晰点特征的预测值越小，表示当前镜头所在位置已越过清晰点的概率越小。噪声点特征的预测值越大，表示当前对焦模型的输入数据为噪声数据的概率越大；噪声点特征的预测值越小，表示当前对焦模型的输入数据为噪声数据的概率越小。δ₁＝0.1，δ₂＝0.9，δ₃＝0.85，δ₄＝0.15。

步骤91，摄像机采集当前图像，并确定镜头的当前位置。

步骤92，摄像机将当前图像划分为多个图像区域，并计算每个图像区域的目标清晰度评价值。

步骤93，摄像机将多个目标清晰度评价值和当前位置输入对焦模型，得到多个预设清晰点状态的目标预测值。

步骤94，摄像机判断清晰点方向的目标预测值是否位于[0,0.1]或[0.9,1]区间。若是，即清晰点方向的目标预测值位于[0,0.1]区间，或清晰点方向的目标预测值位于[0.9,1]区间，则执行步骤95；否则，执行步骤97。

下面以清晰点方向的目标预测值位于[0.9,1]区间为例。

步骤95，摄像机判断清晰点方向的目标预测值是否位于[0,0.85]区间，并判断噪声点特征的目标预测值是否位于[0.15,1]区间。若均为是，即清晰点方向的目标预测值位于[0,0.85]区间，并判断噪声点特征的目标预测值位于[0.15,1]区间，则执行步骤96。否则执行步骤98。

步骤96，摄像机控制镜头以清晰点距离的目标预测值所指示的移动速度，沿靠近图像传感器的方向移动，并重新执行步骤91，采集当前图像，并确定镜头的当前位置。

步骤97，摄像机随机移动镜头的位置，重新执行步骤91，采集当前图像，并确定镜头的当前位置。

步骤98，摄像机确定在镜头移动至所述当前位置的过程中最大清晰度评价值对应的目标位置为清晰点。

步骤99，摄像机控制镜头移动至目标位置，结束摄像机对焦流程。

上述步骤91-99部分的描述较为简单，具体参考上述图4-8部分的相关描述。

为了准确的预测多个预设清晰点状态，进而准确的对焦，本申请实施例还提供了一种对焦模型训练方法。如图10所示，该方法包括如下步骤。

步骤101，获取预设训练集，预设训练集包括样本图像的多个图像区域的样本清晰度评价值、摄像机采集样本图像时镜头相对于图像传感器的样本位置、以及样本图像对应的多个预设清晰点状态的标注值。

本申请实施例中，为提高训练得到的对焦模型预测预设清晰点状态的准确度，样本图像越多越好。

一个实施例中，预设训练集包括的清晰度评价值和样本镜头位置对应至少一组样本图像，每组样本图像为镜头相对于图像传感器移动过程中连续采集的多张图像。基于连续采集的多张样本图像训练RNN，得到的对焦模型，能够更为真实的模拟出符合实际调整镜头的过程的对焦模型。

一个实施例中，对准某一应用场景，摄像机控制镜头从第一极限位置向第二极限位置移动，并实时获取摄像机采集的候选图像。其中，若第一极限位置为镜头距离图像传感器最近的位置，则第二极限位置为镜头距离图像传感器最远的位置；若第一极限位置为镜头距离摄像机的图像传感器最远的位置，则第二极限位置为镜头距离图像传感器最近的位置。在镜头从第一极限位置向第二极限位置移动的过程中，摄像机可采集到多张候选图像。摄像机从获取的候选图像中随机选取至少一组连续采集的多张候选图像，每一组候选图像为一组样本图像。

此外，摄像机在获取候选图像时还可以获取到镜头的候选位置。摄像机还可以对候选图像进行图像区域划分，并计算每个图像区域的清晰度评价值，作为候选图像对应的候选清晰度评价值。另外，基于获取候选图像对应的候选位置和候选清晰度评价值，为每一样本图像添加多个预设清晰点状态的标注值。

一个示例中，对准某一应用场景，随机选择一个镜头移动方向(如镜头远离图像传感器的方向)移动镜头，直至到达限位(该位置即为第一极限位置)，不能移动为止。反向移动镜头，边移动镜头，边记录图像的清晰度评价值和对应的镜头位置，并记录清晰点，直至到达另一端限位(该位置即为第二极限位置)，此时得到一组候选图像。切换应用场景，重复上述操作，直至获取到足够的多组候选图像。

对于得到的每组候选图像，随机的选择连续采集的多张候选图像，作为一组样本图像。这里，同一组候选图像中可以选择出一组或多组样本图像，且不同组样本图像包括的样本图像张数可以相同，也可以不同。

针对每组样本图像，将该组样本图像所属的候选图像的清晰点作为该组样本图像的清晰点，并确定该组样本图像中每张样本图像的镜头位置与清晰点间的距离作为该组样本图像对应的清晰点坐标。另外，基于该组样本图像中每张样本图像对应的镜头位置位于清晰点哪一侧，为每张样本图像标注相应的清晰点方向。例如，如果样本图像对应的镜头位置位于清晰点坐标左侧，则该样本图像的清晰点方向标注为0，否则标注为1。

再次，如果该组样本图像对应的多个镜头位置包含清晰点，对于该组样本图像中对应的镜头位置位于清晰点右侧的样本图像，则该样本图像对应的清晰点特征标注为1，否则标注为0。如果该组样本图像中一张样本图像之前采集的样本图像的清晰度评价值的数据单调性比较差，出现频繁的跳动，则该样本图像对应的噪声点特征标注为1，否则标注为0。

本申请实施例中，从候选图像中随机的抽取一组或多组连续采集的候选图像作为样本图像，能够更为真实的模拟出实际情况，如自动对焦开始前，镜头位置是不确定的。基于此得到的一组或多组样本图像，来训练对焦模型，能够更为真实的模拟出符合实际情况的对焦模型，提高对焦模型对多个预设清晰点状态预测的准确性。

步骤102，获取预设结构的RNN。

本申请实施例中，RNN可以包括一个输入层、一个隐藏层和一个输出层(也可以称为全连接层)。其中，输入层包括多个输入分支，输入分支与多个清晰度评价值和镜头的位置一一对应。输入层用于接收多个清晰度评价值和一个镜头的位置。隐藏层带有反馈结构，用于记忆网络的状态。隐藏层可以采用tanh激活函数，引入非线性能力。全连接层包括多个独立的输出分支，且输出分支与预设清晰点状态一一对应。全连接层用于独立输出多个数值。全连接层可以采用sigmoid激活函数。该RNN中多路输出分支共享输入层和隐藏层，可以简化网络的训练过程。

以RNN包括17个输入分支，即输入数据为17维数据为例，其中，16维数据为清晰度评价值，即清晰度评价值1-16，1维数据为镜头位置，预设清晰点状态包括清晰点方向、清晰点特征、噪声点特征和清晰点坐标。则RNN的结构如图11所示。

RNN开始工作前，RNN的隐藏层的状态为零。开始工作后，将清晰度评价值和镜头位置输入RNN。RNN根据输入数据更新隐藏层的状态，这相当于对输入数据进行记忆，然后RNN计算网络输出。等下一时刻有新的清晰度评价值和镜头位置输入RNN，根据新的输入数据更新隐藏层的状态，即对新的输入数据进行记忆，然后基于记忆的输入数据，RNN计算网络输出。

这样RNN重复的接收输入数据并计算网络输出，隐藏层的状态中就可以记忆所有的历史输入数据，而每次的输出结果都是基于所有的历史输入数据给出的。当历史输入数据太少，不足以给出确定的结论时，网络输出是模糊的，随着记忆的历史输入数据的增加，网络输出就会变得越来越准确。也就是，RNN输出的多个预设清晰点状态的预测值越来越准确。

本申请实施例中，若RNN的输出可以由以下公式计算得到。

s_t＝Ux_t+Wh_t-1+b_h；

h_t＝tanh(s_t)；

o_t＝Vh_t+b_y；

y_t＝sigmoid(o_t)；

上述公式中，s_t表示t时刻隐藏层的输入数据，U表示输入层到隐藏层的网络参数，W表示隐藏层到自身的网络参数，V表示隐藏层到输出层的网络参数，x_t表示t时刻RNN的输入信息，h_t-1表示t-1时刻隐藏层的状态。h_t表示t时刻隐藏层的状态，b_h表示隐藏层神经元的偏执值，b_y表示输出层神经元的偏执值，tanh为隐藏层的激活函数，sigmoid为输出层的激活函数。具体的，tanh函数为：

sigmoid为输出层的激活函数

本申请实施例中，采用上述结构RNN模型，简化了网络结构，降低了资源消耗。

在本申请的一个实施例中，RNN中，也可以为每一种预设清晰点状态设置独立的输入层、隐藏层和输出层。仍以RNN包括17个输入分支，即输入数据为17维数据为例，其中，16维数据为清晰度评价值，即清晰度评价值1-16，1维数据为镜头位置，预设清晰点状态包括清晰点方向、清晰点特征、噪声点特征和清晰点坐标。则RNN的结构如图12所示。

步骤103，将多个样本清晰度评价值和样本位置输入RNN，得到样本图像对应的多个预设清晰点状态的样本预测值。

本申请实施例中，从多组样本图像中，随机选择一组样本图像。将该组样本图像中每张样本图像对应的多个样本清晰度评价值和样本位置分别输入RNN，得到每张样本图像对应的多个预设清晰点状态的预测值。

之后，重新从多组样本图像中，随机选择一组样本图像。将该组样本图像中每张样本图像对应的多个样本清晰度评价值和样本位置分别输入RNN，得到每张样本图像对应的多个预设清晰点状态的预测值。

步骤104，基于多个预设清晰点状态的标注值和样本预测值，确定损失值。

本申请实施例中，针对每张样本图像对应的多个预设清晰点状态的样本预测值和标注值，求取偏差。该偏差可以作为该张样本图像对应的损失值。

本申请实施例中，损失函数可以为平方误差算法，即偏差可以采用平方误差来进行衡量，如下式所示。

上式中，

表示t时刻RNN的输出，y_t表示t时刻样本图像的多个预设清晰点状态的标注值，x_t表示t时刻RNN的输入，θ_t表示t时刻RNN的参数，θ_t包括输入层到隐藏层的网络参数U、隐藏层到自身的网络参数W、隐藏层到输出层的网络参数V、隐藏层神经元的偏执值b_h、输出层神经元的偏执值b_y，L_t表示t时刻的偏差，是网络参数的函数。

步骤105，若基于损失值确定RNN收敛，则结束训练，将当前RNN作为对焦模型。

本申请实施例中，可以将计算得到的损失值与预设损失值比较，若计算得到的损失值小于预设损失值，则可确定RNN收敛，则结束模型，将当前RNN作为对焦模型。

步骤106，若基于损失值确定RNN未收敛，则调整RNN的参数，重新执行步骤103。

本申请实施例中，若计算得到的损失值大于等于预设损失值，则可确定RNN未收敛，则，将调整RNN的参数，重新执行步骤103，继续训练模型。

本申请实施例中，可采用梯度下降算法，调整RNN的参数，由于偏差是网络参数的函数，RNN训练的目的就是找出一组合适的网络参数，使偏差足够小。偏差函数中一点的梯度指向函数上升最快的方向，其反方向函数值则下降。所以只需要将网络参数沿着与梯度相反的方向移动，就可以使偏差逐渐减小。网络参数的更新公式表达如下所示。

其中，U_t+1表示t+1时刻输入层到隐藏层的网络参数，U_t表示t时刻输入层到隐藏层的网络参数，W_t+1表示t+1时刻隐藏层到自身的网络参数，W_t表示t时刻隐藏层到自身的网络参数，V_t+1表示t+1时刻隐藏层到输出层的网络参数，V_t表示t时刻隐藏层到输出层的网络参数，L_t表示t时刻的偏差，

表示误差函数对参数的求导，

等于梯度，η表示学习率，

上述式子的含义是，t+1时刻的参数等于t时刻的参数沿梯度的反方移动一段距离。移动的距离大小和η有关，η越大，单次移动的距离越大，网络参数调整的速度越快。

网络参数更新的式子中，梯度和时间序列有关，随着时间序列的加长，梯度的计算越来越复杂。为了快速计算损失函数的梯度，可采用基于时间的反向传播算法调节RNN的网络参数。具体的，结合RNN的各网络参数的梯度求取如下所示。

上述公式中，T表示当前时刻。δ表示误差函数对隐藏层的输入信息的偏导，其他参数的含义可参考上述其他公式的解释，此次不再赘述。

本申请实施例中，利用大量的样本图像训练RNN，得到对焦模型，且RNN的参数调节由网络学习确定，并控制输入代表性的样本图像，避免了调参的主观性，提高了训练得到的对焦模型的准确性，进而准确的预测多个预设清晰点状态的值。

与上述摄像机对焦方法实施例对应，本申请实施例还提供了一种摄像机对焦装置。如图13所示，图13为本申请实施例提供的摄像机对焦装置的一种结构示意图，该装置包括：

第一获取单元131，用于获取摄像机采集的当前图像，以及摄像机的镜头的当前位置，当前位置为当前镜头相对于摄像机的图像传感器的位置；

划分单元132，用于将当前图像划分为多个图像区域，作为目标图像区域，并计算每个目标图像区域的目标清晰度评价值；

第一预测单元133，用于将多个目标清晰度评价值和当前位置输入预先训练好的对焦模型，得到当前图像对应的多个预设清晰点状态的目标预测值；对焦模型为基于预设训练集对循环神经网络进行训练得到的模型，预设训练集包括样本图像的多个图像区域的样本清晰度评价值、摄像机采集样本图像时镜头相对于图像传感器的样本位置、以及样本图像对应的多个预设清晰点状态的标注值，预设清晰点状态用于指示清晰点相对于镜头所在位置的状态，清晰点为摄像机采集图像的清晰度评价值达到最大值时镜头相对于图像传感器的位置；

对焦单元134，用于基于多个预设清晰点状态的目标预测值，调节镜头的位置，以使镜头到达清晰点。

一个实施例中，多个预设清晰点状态包括清晰点方向和清晰点距离，清晰点方向指示镜头相对于图像传感器的运动方向以到达清晰点，清晰点距离指示镜头所在位置与清晰点间的距离；

对焦单元134，具体可以用于：

基于预先设定的清晰点距离的值与移动速度的对应关系，确定清晰点距离的目标预测值对应的目标移动速度；

控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，以使镜头到达清晰点。

一个实施例中，清晰点方向的取值范围为x₁～x₂，对焦单元134，具体可以用于：

若清晰点方向的目标预测值大于等于x₁且小于等于δ₁，或清晰点方向的目标预测值大于等于δ₂且小于等于x₂之间，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，δ₁<δ₂；

若清晰点方向的目标预测值位于大于δ₁且小于δ₂，则控制镜头随机移动，并重新执行获取摄像机采集的当前图像的步骤。

一个实施例中，多个预设清晰点状态还包括清晰点特征和噪声点特征，清晰点特征指示镜头所在位置是否已越过清晰点，噪声点特征指示对焦模型的输入数据是否为噪声数据；

对焦单元134，具体可以用于：

若清晰点特征的目标预测值指示镜头所在位置未越过清晰点，和/或噪声点特征的目标预测值指示对焦模型的输入数据为噪声数据，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动，并重新执行获取摄像机采集的当前图像的步骤；

若清晰点特征的目标预测值指示镜头所在位置已越过清晰点，且噪声点特征的目标预测值指示对焦模型的输入数据不是噪声数据，则将在镜头移动至当前位置的过程中最大清晰度评价值对应的目标位置为清晰点，并控制镜头移动至目标位置。

一个实施例中，清晰点特征的取值范围为x₃～x₄，噪声点特征的取值范围为x₅～x₆；

对焦单元134，具体可以用于：

若清晰点特征的目标预测值大于等于x₃且小于等于δ₃，和/或噪声点特征的目标预测值大于等于δ₄且小于等于x₆，则控制镜头以目标移动速度，沿清晰点方向的目标预测值所指示的运动方向移动；

若清晰点特征的目标预测值大于δ₃且小于等于x₄，且噪声点特征的目标预测值大于等于x₅且小于δ₄，则将在镜头移动至当前位置的过程中最大清晰度评价值对应的目标位置为清晰点，并控制镜头移动至目标位置。

一个实施例中，如图14所示，上述摄像机对焦装置还可以包括：

第二获取单元141，用于获取预设训练集，预设训练集包括样本图像的多个图像区域的样本清晰度评价值、摄像机采集样本图像时镜头相对于图像传感器的样本位置、以及样本图像对应的多个预设清晰点状态的标注值；

第三获取单元142，用于获取预设结构的循环神经网络，循环神经网络的输出层包括多个独立的输出分支，且输出分支与预设清晰点状态一一对应；

第二预测单元143，用于将多个样本清晰度评价值和样本位置输入循环神经网络，得到样本图像对应的多个预设清晰点状态的样本预测值；

确定单元144，用于基于多个预设清晰点状态的标注值和样本预测值，确定损失值；

处理单元145，用于若基于损失值确定循环神经网络收敛，则调整循环神经网络的参数，并返回将多个样本清晰度评价值和样本位置输入循环神经网络，得到样本图像对应的多个预设清晰点状态的样本预测值的步骤；若基于损失值确定循环神经网络收敛，则结束训练，将当前循环神经网络作为对焦模型。

一个实施例中，预设训练集包括的清晰度评价值和样本镜头位置对应至少一组样本图像，每组样本图像为镜头相对于图像传感器移动过程中连续采集的多张图像。

一个实施例中，上述摄像机对焦装置还可以包括：

控制单元，用于在获取预设训练集之前，控制镜头从第一极限位置向第二极限位置移动，并实时获取摄像机采集的候选图像；其中，若第一极限位置为镜头距离图像传感器最近的位置，则第二极限位置为镜头距离图像传感器最远的位置；若第一极限位置为镜头距离摄像机的图像传感器最远的位置，则第二极限位置为镜头距离图像传感器最近的位置；

与上述摄像机对焦方法对应，本申请实施例还提供了一种基于循环神经网络的对焦方法，如图15所示，该方法包括如下步骤。

步骤151，当摄像机的电机处于第一位置时，采集图像。

步骤152，将图像划分为多个图像分块，计算每一图像分块的第一清晰度评价值。

步骤153，基于预设的循环神经网络，输入第一位置和多个第一清晰度评价值，输出第一数值和第二数值，其中，第一数值用于指示电机的运动方向以到达清晰点，第二数值用于指示第一位置与清晰点对应的电机位置之间的距离值，清晰点为摄像机采集图像的清晰度评价值达到最大值时摄像机的镜头相对于摄像机的图像传感器的位置。

在本申请的一个实施例中，第一数值和第二数值的取值范围为0～1，第一数值小于0.5时，第一数值用于指示电机由第一位置沿着使镜头靠近图像传感器的方向运动；第一数值大于0.5时，第一数值用于指示电机由第一位置沿着使镜头远离图像传感器的方向运动。

步骤154，基于第一数值和第二数值，驱动电机运动以使镜头到达清晰点。

步骤155，在镜头到达清晰点后，采集对焦后的图像。

在本申请的一个实施例中，基于循环神经网络，输入第一位置和多个第一清晰度评价值，输出第三数值和第四数值，其中，第三数值用于指示第一位置是否已越过清晰点对应的电机位置，第四数值用于指示输入的第一位置和多个第一清晰度评价值是否为噪声。这种情况下，上述步骤154具体可以为：基于第一数值、第二数值、第三数值和第四数值，驱动电机运动以使镜头到达清晰点。

在本申请的一个实施例中，第三数值和第四数值的取值范围为0～1，第三数值越大则指示第一位置已越过清晰点对应的电机位置的概率越大；第四数值越大则指示输入的第一位置和多个第一清晰度值为噪声的概率越大。

在本申请的一个实施例中，基于第一数值、第二数值、第三数值和第四数值，驱动电机运动以使镜头到达清晰点的过程为：基于预先设定的距离值与速度的对应关系，确定第二数值对应的目标速度；若第一数值大于等于第一预设阈值且小于等于第二预设阈值，则调整第一位置，并重新执行当摄像机的电机处于第一位置时，采集第一图像的步骤；若第一数值小于第一预设阈值或第一数值大于第二预设阈值，则在第三数值小于等于第三预设阈值，和/或第四数值大于等于第四预设阈值的情况下，调整第一位置，并重新执行当摄像机的电机处于第一位置时，采集第一图像的步骤；若第一数值小于第一预设阈值或第一数值大于第二预设阈值，则在第三数值大于第三预设阈值，和/或第四数值小于第四预设阈值的情况下，驱动电机以目标速度，沿第一数值所指示的方向运动，以使镜头到达清晰点。

在本申请的一个实施例中，循环神经网络包括输入层和输出层，输入层用于接收多个清晰度评价值和一个电机的位置，输出层用于独立输出多个数值，多个数值包括用于指示电机的运动方向以到达清晰点的数值、用于指示输入的位置与清晰点对应的电机位置之间的距离值的数值、用于指示输入的位置是否已越过清晰点对应的电机位置的数值、用于指示输入的数据是否为噪声。

对于循环神经网络的训练过程具体可参考上述图10-12部分的描述，此次不再赘述。

本申请实施例提供的技术方案中，利用训练数据训练循环神经网络。循环神经网络具有记忆功能，利用训练数据训练的循环神经网络也就是具有了记忆功能，并且记忆了所有训练数据。循环神经网络可利用记忆的所有信息以及当前输入的信息，调节镜头的位置，以使镜头到达清晰点，增加了确定清晰点的参考信息，提高了图像的信噪比，减少了对焦过程中图像画面震荡，提高了对焦速度。

此外，本申请实施例中，在对焦过程中，循环神经网络以多个清晰度评价值和镜头的位置作为输入，增加了推测预设清晰点状态的信息维度，此外，循环神经网络以多个预设清晰点状态的预测值作为输出，增加了确定清晰点的信息维度，通过多个维度的信息，能够有效区分出正常特征和噪声特征，提高了对焦的准确率。

与上述基于循环神经网络的对焦方法对应，本申请实施例还提供了一种基于循环神经网络的对焦装置，如图16所示，该装置包括。

第一采集单元161，用于当摄像机的电机处于第一位置时，采集图像；

划分单元162，用于将图像划分为多个图像分块，计算每一图像分块的第一清晰度评价值；

第一预测单元163，用于基于预设的循环神经网络，输入第一位置和多个第一清晰度评价值，输出第一数值和第二数值，其中，第一数值用于指示电机的运动方向以到达清晰点，第二数值用于指示第一位置与清晰点对应的电机位置之间的距离值，清晰点为摄像机采集图像的清晰度评价值达到最大值时摄像机的镜头相对于摄像机的图像传感器的位置；

驱动单元164，用于基于第一数值和第二数值，驱动电机运动以使镜头到达清晰点；

第二采集单元165，用于在镜头到达清晰点后，采集对焦后的图像。

一个实施例中，第一数值和第二数值的取值范围为0～1，第一数值小于0.5时，第一数值用于指示电机由第一位置沿着使镜头靠近图像传感器的方向运动；第一数值大于0.5时，第一数值用于指示电机由第一位置沿着使镜头远离图像传感器的方向运动。

一个实施例中，第一预测单元163，还可以用于基于循环神经网络，输入第一位置和多个第一清晰度评价值，输出第三数值和第四数值，其中，第三数值用于指示第一位置是否已越过清晰点对应的电机位置，第四数值用于指示输入的第一位置和多个第一清晰度评价值是否为噪声；

驱动单元164，具体可以用于基于第一数值、第二数值、第三数值和第四数值，驱动电机运动以使镜头到达清晰点。

一个实施例中，第三数值和第四数值的取值范围为0～1，第三数值越大则指示第一位置已越过清晰点对应的电机位置的概率越大；第四数值越大则指示输入的第一位置和多个第一清晰度值为噪声的概率越大。

一个实施例中，驱动单元164，具体可以用于：

基于预先设定的距离值与速度的对应关系，确定第二数值对应的目标速度；

若第一数值大于等于第一预设阈值且小于等于第二预设阈值，则调整第一位置，并重新执行当摄像机的电机处于第一位置时，采集第一图像的步骤；

若第一数值小于第一预设阈值或第一数值大于第二预设阈值，则在第三数值小于等于第三预设阈值，和/或第四数值大于等于第四预设阈值的情况下，调整第一位置，并重新执行当摄像机的电机处于第一位置时，采集第一图像的步骤；

若第一数值小于第一预设阈值或第一数值大于第二预设阈值，则在第三数值大于第三预设阈值，和/或第四数值小于第四预设阈值的情况下，驱动电机以目标速度，沿第一数值所指示的方向运动，以使镜头到达清晰点。

一个实施例中，循环神经网络包括输入层和输出层，输入层用于接收多个清晰度评价值和一个电机的位置，输出层用于独立输出多个数值，多个数值包括用于指示电机的运动方向以到达清晰点的数值、用于指示输入的位置与清晰点对应的电机位置之间的距离值的数值、用于指示输入的位置是否已越过清晰点对应的电机位置的数值、用于指示输入的数据是否为噪声。

一个实施例中，如图17所示，上述基于循环神经网络的对焦装置还可以包括：

第一获取单元171，用于获取预设训练集，预设训练集包括样本图像的多个图像区域的样本清晰度评价值、摄像机采集样本图像时电机的样本位置、以及样本图像对应的多个标注值；

第二获取单元172，用于获取循环神经网络；

第二预测单元173，用于将多个样本清晰度评价值和样本位置输入循环神经网络，得到多个预测值；

确定单元174，用于基于多个标注值和多个预测值，确定损失值；

处理单元175，用于若基于损失值确定循环神经网络未收敛，则调整循环神经网络的参数，并返回将多个样本清晰度评价值和样本位置输入循环神经网络，得到多个预测值的步骤；若基于损失值确定循环神经网络收敛，则结束训练。

一个实施例中，预设训练集包括的清晰度评价值和样本位置对应至少一组样本图像，每组样本图像为电机移动过程中连续采集的多张图像。

一个实施例中，上述基于循环神经网络的对焦装置还可以包括：

控制单元，用于在获取预设训练集之前，控制电机从第一极限位置向第二极限位置移动，并实时获取摄像机采集的候选图像；

其中，若第一极限位置为使镜头距离图像传感器最近的电机位置，则第二极限位置为使镜头距离图像传感器最远的电机位置；若第一极限位置为使镜头距离摄像机的图像传感器最远的电机位置，则第二极限位置为使镜头距离图像传感器最近的电机位置。

与上述摄像机对焦方法对应，在本申请实施例还提供一种电子设备，如图18所示，包括处理器181和存储器182。存储器182，用于存放计算机程序；处理器181，用于执行存储器182上所存放的程序时，实现上述图4-12任一所示的方法步骤。

与上述基于循环神经网络的对焦方法对应，在本申请实施例还提供一种电子设备，如图19所示，包括处理器191和存储器192。存储器192，用于存放计算机程序；处理器191，用于执行存储器192上所存放的程序时，实现上述图15所示的方法步骤。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

与上述摄像机对焦方法对应，在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述图4-12任一所示的方法步骤。

与上述基于循环神经网络的对焦方法对应，在本申请实施例提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述图15所示的方法步骤。

与上述摄像机对焦方法对应，在本申请提供的又一实施例中，还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述图4-12任一所示的方法步骤。

与上述基于循环神经网络的对焦方法对应，在本申请提供的又一实施例中，还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述图15所示的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种摄像机对焦方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多个预设清晰点状态包括清晰点方向和清晰点距离，所述清晰点方向指示所述镜头相对于所述图像传感器的运动方向以到达所述清晰点，所述清晰点距离指示所述镜头所在位置与所述清晰点间的距离；

3.根据权利要求2所述的方法，其特征在于，所述清晰点方向的取值范围为x₁～x₂，所述控制所述镜头以所述目标移动速度，沿所述清晰点方向的目标预测值所指示的运动方向移动的步骤，包括：

4.根据权利要求2所述的方法，其特征在于，所述多个预设清晰点状态还包括清晰点特征和噪声点特征，所述清晰点特征指示所述镜头所在位置是否已越过所述清晰点，所述噪声点特征指示所述对焦模型的输入数据是否为噪声数据；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述预设训练集包括的清晰度评价值和样本镜头位置对应至少一组样本图像，每组样本图像为所述镜头相对于所述图像传感器移动过程中连续采集的多张图像。

7.一种基于循环神经网络的对焦方法，其特征在于，所述方法包括：

当摄像机的电机处于第一位置时，采集图像；

在所述镜头到达所述清晰点后，采集对焦后的图像。

8.根据权利要求7所述的方法，其特征在于，所述第一数值和所述第二数值的取值范围为0～1，所述第一数值小于0.5时，所述第一数值用于指示所述电机由所述第一位置沿着使所述镜头靠近所述图像传感器的方向运动；所述第一数值大于0.5时，所述第一数值用于指示所述电机由所述第一位置沿着使所述镜头远离所述图像传感器的方向运动。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述第三数值和所述第四数值的取值范围为0～1，所述第三数值越大则指示所述第一位置已越过所述清晰点对应的电机位置的概率越大；所述第四数值越大则指示所述输入的所述第一位置和所述多个第一清晰度值为噪声的概率越大。