CN117714862A

CN117714862A - 对焦方法、电子设备、芯片系统、存储介质及程序产品

Info

Publication number: CN117714862A
Application number: CN202310977411.5A
Authority: CN
Inventors: 黄家平; 王潇
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2024-03-15

Abstract

本申请涉及图像处理技术领域，旨在解决对焦框确定不精准的问题，提供一种对焦方法、电子设备、芯片系统、存储介质及程序产品。对焦方法应用于电子设备，包括：响应于指示对当前场景进行拍摄的第一指令，启动电子设备的图像传感器和深度传感器，获取图像传感器输出的原始图像，并获取深度传感器输出的与原始图像对应的深度图像；将原始图像和深度图像输入至训练好的编码器，分别得到第一特征图像和第二特征图像；将第一特征图像和第二特征图像输入至训练好的解码器，融合第一特征图像和第二特征图像，得到原始图像上的显著性区域；根据显著性区域对当前场景内的物体进行对焦。使图像中的显著性区域更精准地显现出来，提高所确定对焦框的精准度。

Description

对焦方法、电子设备、芯片系统、存储介质及程序产品

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种对焦方法、电子设备、芯片系统、存储介质及程序产品。

背景技术

用户可通过电子设备上的摄像头拍摄图片、视频。传统的对焦系统是基于所拍摄画面的中心区域进行对焦。然而，在一些场景中，如在多景深场景中，基于画面的中心区域所确定的对焦框中可能包括除了用户所需对焦的物体之外的其他物体，导致电子设备不能很好的捕捉到用户所需要对焦的物体。

发明内容

本申请实施例提供一种对焦方法、电子设备、芯片系统、存储介质及程序产品，解决现有对焦系统所确定的对焦框不精准，导致不能很好的捕捉到用户所需要对焦的物体的问题。

第一方面，本申请实施例提供一种对焦方法，应用于电子设备，电子设备包括图像传感器以及深度传感器，该方法包括：响应于第一指令，启动图像传感器和深度传感器，其中第一指令用于指示对当前场景进行拍摄；获取图像传感器输出的原始图像，并获取深度传感器输出的与原始图像对应的深度图像；将原始图像和深度图像输入至训练好的编码器，并基于编码器的参数，对原始图像和深度图像进行特征提取，分别得到第一特征图像和第二特征图像；将第一特征图像和第二特征图像输入至训练好的解码器，并基于解码器的参数，融合第一特征图像和第二特征图像，得到原始图像上的显著性区域；根据显著性区域对当前场景内的物体进行对焦。

在电子设备对焦的过程中，通过对原始图像和与该原始图像对应的深度图像进行显著性检测，获得显著性区域，进而基于该显著性区域进行对焦，减少了对原始图像处理(如转换为RGB格式)的过程，提高了检测效率。进一步地，避免了对原始图像处理过程中所存在的误差，图像传感器和深度传感器所输出的数据可以准确反映当前所拍摄场景的信息，由此基于图像传感器和深度传感器所输出的数据进行显著性检测，可以提高显著性区域检测结果的鲁棒性以及准确性。进一步地，融合第一特征图像和第二特征图像，即原始图像的特征信息结合了与原始图像对应的深度图像中的特征信息，从而进一步提高图像显著性检测结果的准确性，使图像中的显著性区域更精准地显现出来，为后续电子设备的对焦等应用提供精准且有用的信息，提高所确定对焦框的精准度。

在一种可能实现方式中，当显著性区域的数量为两个或两个以上时，根据显著性区域对当前场景内的物体进行对焦包括：针对每一显著性区域，获取显著性区域对应的显著性统计值、深度统计值以及第一距离，其中第一距离用于指示显著性区域与原始图像的中心区域之间的距离；根据显著性统计值、深度统计值以及第一距离计算显著性区域的置信度；将置信度最高的显著性区域确定为目标区域；根据目标区域对当前场景内的物体进行对焦。

通过显著性统计值、深度统计值以及第一距离计算显著性区域的置信度，进而将置信度最高的显著性区域作为目标区域，进而提高所确定对焦框的精准度。

在一种可能实现方式中，根据目标区域对当前场景内的物体进行对焦包括：根据目标区域确定目标对焦位置；驱动对焦马达移动镜头至目标对焦位置，以对当前场景内的物体进行对焦。

通过目标区域可以确定目标对焦位置，进而直接根据目标对焦位置驱动对焦马达，提高对焦的效率。

在一种可能实现方式中，根据目标区域确定目标对焦位置包括：获取电子设备预存的对照表，其中对照表记录深度范围和与深度范围对应的对焦位置；根据目标区域的深度统计值和对照表确定目标对焦位置。

通过预存对照表，进而电子设备后续可以直接根据对照表确定目标对焦位置，提高确定目标位置的效率，进而提高对焦的效率。

在一种可能实现方式中，该方法还包括：判断当前场景的画面是否属于多景深场景；当当前场景的画面为多景深场景时，对原始图像进行前景和背景分割，得到处理后原始图像，处理后原始图像中的背景被遮挡；则将原始图像和深度图像输入至训练好的编码器包括：将处理后原始图像和深度图像输入至训练好的编码器。

通过预先将背景区域去除，提高后续显著性检测的效率和精准度。

在一种可能实现方式中，判断当前场景的画面是否属于多景深场景包括：获取深度图像中深度区域的数量，每一深度区域对应唯一的深度范围；当深度图像中深度区域的数量大于或等于预设阈值时，确定当前场景的画面属于多景深场景；当深度图像中深度区域的数量小于预设阈值时，确定当前场景的画面不属于多景深场景。

通过对深度图像进行处理可以确定当前场景是否属于多景深场景，且该深度图像还用于后续显著性检测，提高了深度图像的使用率。

第二方面，本申请实施例提供一种电子设备，包括：处理器和存储器；存储器，用于存储计算机程序，计算机程序包括程序指令；处理器，用于调用计算机程序，执行如上任一项对焦方法。

第三方面，本申请实施例提供一种芯片系统，芯片系统应用于电子设备，电子设备包括图像传感器和深度传感器，芯片系统包括接口电路和处理器；接口电路和处理器通过线路互联；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行该计算机指令时，芯片系统响应于第一指令，启动图像传感器和深度传感器，其中第一指令用于指示对当前场景进行拍摄；获取图像传感器输出的原始图像，并获取深度传感器输出的与原始图像对应的深度图像；将原始图像和深度图像输入至训练好的编码器，并基于编码器的参数，对原始图像和深度图像进行特征提取，分别得到第一特征图像和第二特征图像；将第一特征图像和第二特征图像输入至训练好的解码器，并基于解码器的参数，融合第一特征图像和第二特征图像，得到原始图像上的显著性区域；根据显著性区域对当前场景内的物体进行对焦。

第四方面，本申请实施例提供一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如上任一项对焦方法。

第五方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如上任一项对焦方法。

上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

附图说明

图1A为本申请实施例提供的一种拍摄现场。

图1B为本申请实施例提供的一种预览图像示意图。

图2为本申请实施例提供的一种对焦过程示意图。

图3为本申请实施例提供的一种电子设备硬件结构示意图。

图4为本申请实施例提供的一种电子设备软件结构示意图。

图5为本申请实施例提供的一种对焦方法流程示意图。

图6为本申请实施例提供的一种确定目标区域方法流程示意图。

图7为本申请实施例提供的一种芯片系统结构示意图。

具体实施方式

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本申请中“至少一个”是指一个或者多个，“多个”是指两个或多于两个。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不是用于描述特定的顺序或先后次序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例中，景深(Depth of Field，DoF)是指摄像头或其他成像设备对焦点前后相对清晰的成像范围。多景深场景可以理解为，在景深范围内，拍摄画面中的对象(例如，人或物)处于不同深度位置，深度分布不均匀。换句话说，存在多个被摄物体，且该多个被摄物体相对于摄像头或其他成像设备具有不同的距离范围，拍摄该多个被摄物体所得到的画面属于多景深场景。

在如图1A所示拍摄现场，墙壁10上挂着人物画像20，书桌30摆在墙壁10前方。用户40站在书桌30和人物画像20面前，并手持钢笔50面对电子设备60(如手机)。用户40启动电子设备60进行拍摄。电子设备60呈现如图1B所示的预览图像70，预览图像70包括人物画像20、用户40手部以及钢笔50对应的画面。

图1B所示的预览图像70所呈现的对焦框80中包括用户40希望对焦的钢笔50，还包括了用户40的手部、人物画像20等被摄物体。基于钢笔50与人物画像20在预览图像70中处于不同的深度位置，也即钢笔50与人物画像20相对于电子设备60具有不同的距离范围，则电子设备60基于对焦框80内的物体进行对焦时，会考虑到人物画像20相对于镜头的距离移动镜头，则镜头所移到的位置无法准确对焦到钢笔50，进而导致用户40希望对焦的钢笔50失焦。

如图2所示，示例性介绍电子设备60在呈现图1B所示预览图像70时所进行对焦的过程。

电子设备60中包括图像传感器601、图像前端处理层602、3A层603、图像处理引擎604、图像处理层605、对焦马达606与镜头607。

图像传感器601生成被摄物体的图像，所生成的被摄物体的图像为RAW格式的原始图像。图像前端处理层602获取图像传感器601所输出的原始图像。图像前端处理层602采集原始图像的状态信息，该状态信息包括但不限于：自动白平衡状态信息、自动曝光状态信息和自动对焦状态信息。图像前端处理器层602将采集到的状态信息传输至3A层603，3A层603包括自动曝光模块、自动白平衡模块和自动对焦模块。自动对焦模块根据自动对焦状态信息以及其内部的自动对焦算法，输出中心对焦框至对焦马达606。对焦马达606基于中心对焦框移动镜头607，以实现对中心对焦框内的物体进行对焦。如图1B所示，中心对焦框即预览图像的中心所在区域，也即电子设备60对人物画像20、手部40以及钢笔50进行对焦。

图像前端处理层602将接收到的原始图像传输至图像处理引擎604。

图像处理引擎604用于将原始图像进行格式转换，如将RAW格式转换成YUV格式，又或者转换为HSV格式、Lab格式、CMY格式、YCbCr格式等。经过图像处理引擎604处理后的图像可以称为3通道图像，如RGB图像。图像处理引擎604将处理后的RGB图像传输至图像处理层605。

图像处理层605可以基于其内部的显著性检测网络对图像处理引擎604处理后的RGB图像进行显著性检测，输出显著主体所在的区域，即显著性区域。图像处理层605将输出的显著性区域输出至自动对焦模块，自动对焦模块基于显著性区域调整对焦框为显著性区域。对焦马达基于调整后的对焦框重新驱动镜头，以对显著主体进行对焦。

常规的显著性检测算法一般将人作为显著主体，也即将人所在区域作为显著性区域，则在图像处理层605进行显著性检测后，上述电子设备60将对人物画像20进行对焦。相应地，电子设备60所呈现预览图像中的对焦框将为人物画像20所在区域，而非是用户40所希望对焦的钢笔50所在区域。

在多景深场景中，基于自动对焦算法所确定的中心对焦框中极容易包括用户40不希望对焦的物体，且该物体极可能与用户希望对焦的物体具有不同深度位置，如图1B所示预览图像中的对焦框80包括人物画像20。又或者基于RGB图像进行显著性检测所确定的显著主体可能不是用户40希望对焦的钢笔50，进而基于显著性区域所确定的对焦框中包括人物画像20而非是用户40希望对焦的钢笔50。由此，在多景深场景中，所确定的对焦框精准度低，进而基于该对焦框进行对焦时会导致用户希望对焦的被摄物体失焦。上述基于显著性检测进行对焦的过程中，需先通过图像前端处理层以及图像处理引擎对原始图像进行处理得到RGB图像后，图像处理层的显著性检测网络再根据RGB图像进行显著性检测，显然其检测效率低。且在图像前端处理层以及图像处理引擎对原始图像进行处理得到RGB图像的过程中，可能会导致最终呈现的RGB图像的图像数据出现偏差或缺失图像数据，也即处理后的RGB图像可能无法准确表达当前所拍摄的场景，由此后续进行显著性检测会存在一定偏差。

鉴于此，本申请实施例提供一种对焦方法以及相关设备，电子设备获取图像传感器输出的原始图像，并获取深度传感器输出的与原始图像对应的深度图像，电子设备根据原始图像和与该原始图像对应的深度图像进行显著性检测，获得显著性区域，进而基于该显著性区域进行对焦。在电子设备对焦的过程中使用原始图像进行显著性区域检测，减少了对原始图像处理(如转换为RGB格式)的过程，提高了检测效率。进一步地，避免了对原始图像处理过程中所存在的误差，图像传感器和深度传感器所输出的数据可以准确反映当前所拍摄场景的信息，由此基于图像传感器和深度传感器所输出的数据进行显著性检测，可以提高显著性区域检测结果的鲁棒性以及准确性。进一步地，原始图像的特征信息结合了与原始图像对应的深度图像中的特征信息，从而进一步提高图像显著性检测结果的准确性，使图像中的显著性区域更精准地显现出来，为后续电子设备的对焦等应用提供精准且有用的信息，提高所确定对焦框的精准度。

本申请实施例提供的对焦方法可以由电子设备来执行。该电子设备可以是终端设备，终端设备也可以称为终端(terminal)、用户设备(user equipment，UE)、移动台(mobilestation，MS)、移动终端(mobile terminal，MT)等。终端设备可以是智能手机、电脑、智能电视、个人数字助理(personal digital assistant，PDA)、可穿戴设备、增强现实(augmentedreality，AR)\虚拟现实(virtual reality，VR)设备、媒体播放器等便携式移动设备。该电子设备还可以是车载设备、物联网设备或者其他能够进行拍摄的设备。本申请实施例对电子设备的类型不作具体限定。

请参阅图3，示例性介绍本申请实施例提供的电子设备300硬件结构。为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

电子设备300包括中央处理器301、成像设备302、传感器模块303以及图像处理器304。

其中，中央处理器301用于运行应用程序311和操作系统(图未示)。该应用程序311可以为相机应用、图库应用、即时通讯应用等。该操作系统可以是安卓(Android)系统、IOS系统、windows系统等。本申请实施例对电子设备300所运行的应用程序311和操作系统不作具体限定。

其中，成像设备302用于对当前场景进行拍摄，捕获图像数据。成像设备302可以实现为电子设备300中的摄像头，如实现为至少一个摄像头。该至少一个摄像头包括但不限于如下摄像头：后置摄像头、前置摄像头以及旋转摄像头。

在本申请实施例中，成像设备302至少包括镜头312(lens)、图像传感器322(sensor)和对焦马达332。

镜头312用于通过光学成像原理，将拍摄现场的光学信息聚焦于图像传感器322上。镜头312和对焦马达332可以通过粘接介质相连。当需要对焦时，电子设备300通过驱动对焦马达332来推动镜头312，使得镜头312与图像传感器322之间的距离(焦距)，以及镜头312与被摄物体之间的距离(物距)发生变化。镜头312包括但不限于：广角镜头、超广角镜头、远摄镜头和/或潜望镜镜头等。

对焦马达332可以实现为音圈马达(Voice Coil Motor，VCM)。示例性地，对焦马达332包括但不限于线圈、磁铁组和弹片。线圈通过上下两个弹片固定在磁铁组内。当给线圈通电时，线圈会产生磁场，线圈磁场和磁石组相互作用，线圈会向上移动，而锁在线圈里的镜头312便一起移动。当断电时，线圈在弹片弹力下返回，相应地锁在线圈里的镜头312便一起返回，以此实现了对焦马达332对镜头312的移动。

其中，图像传感器322是捕捉被摄物体的二维或三维图像的设备。图像传感器322可以是一种半导体芯片。图像传感器322的表面上设有几十万到几百万的光电二极管(例如单光子雪崩二极管(single photon avalanche diode，SPAD))。光电二极管在受到光照射时会产生电荷，从而将光信号转换为电信号。图像传感器322例如可以是电荷耦合元件(charge coupled device，CCD)、互补金属氧化物导体器件(complementary metal-oxidesemiconductor，CMOS)等。

在本申请实施例中，图像传感器322可以包括传感器阵列(图未示)和一个或多个模数转换器(图未示)，传感器阵列可以是CMOS传感器阵列，也可以是CCD传感器阵列，其分辨率可以为130万像素、300万像素或者更高。模数转换器根据应用需要可以提供6-bits、8-bits或者10bits的精度，并根据这个精度将传感器阵列产生的表征拍摄现场图像的模拟信号转换为数字图像数据，这里传感器阵列产生的表征拍摄现场图像的模拟信号也可被叫做模拟信号图像。

在本申请实施例中，图像传感器322通过传感器阵列和一个或多个模数转换器来生成被摄物体的原始图像，所生成的原始图像记录了传感器阵列的原始信息。该原始图像为RAW格式，RAW格式指示没有经过任何加工处理。RAW格式的原始图像记录传感器阵列的信息，如原始图像所包含的数据可以是CMOS传感器阵列或者CCD传感器阵列将捕捉到的光信号转化为数字信号的原始数据。

在本申请实施例中，图像传感器322所生成的原始图像可以指由传感器阵列产生的模拟图像信号生成的图像、还可以指由模数转换器转换的数字图像数据生成的图像，还可以指由图像传感器322的相位像素输出的图像信号生成的图像。其中通过图像传感器322的相位像素输出的图像信号所生成的原始图像即为由相位检测(phase detection，pd)点构成的raw图像，该由pd点构成的raw图像包括电子设备300的图像传感器322输出的左相位图像和右相位图像。左相位图像即电子设备300的图像传感器322输出的左像素PD raw图，右相位图像即电子设备300的图像传感器322输出的右像素PD raw图。

其中，传感器模块303至少包括深度传感器。该深度传感器可以为任何能够直接或者间接地获取深度图像(depth image)的传感器。示例性地，深度传感器可以为毫米波雷达或激光雷达等传感器。在另一些实施例中，该深度传感器也可以为任何能够获取深度图像和深度图像对应的灰度图像的传感器，例如，该深度传感器可以包括双目摄像头、单目摄像头、TOF相机等传感器。

在本申请实施例中，深度图像也可以称作距离图像，深度图像中的每一个像素点代表的是在深度传感器的视野中，特定坐标处的物体到深度传感器之间的距离。换句话说，深度图像是指将深度传感器到拍摄现场中各点的距离(深度)作为像素值的图像。深度图像中每个像素点的像素值(或灰度值)可以代表相对深度也可以代表绝对深度(即深度值)。相对深度可以理解为各个像素点的前后逻辑关系。其中，像素点对应的现实物体与深度传感器或参考平面之间的距离称为该像素点的深度值，也即像素点的深度值即该点对应的现实物体到深度传感器的距离。

在本申请实施例中，由深度传感器采集深度图像，并将该深度图像传输至图像处理器304，可以节省根据图像信息进行深度估计的步骤，从而节省图像处理器304的算力。

图像处理器304用于获取图像传感器322所输出的原始图像，并处理原始图像以生成图像和/或视频内容。图像处理器304还用于对原始图像进行分析以捕捉可用于确定和/或成像设备302的一个或多个控制参数的状态信息。

在本申请实施例中，图像处理器304包括图像前端305(image front end，IFE)。图像前端305通过与图像传感器322连接的接口获取原始图像，通过与深度传感器连接的接口获取深度图像。图像前端305用于对接收到的数据如原始图像和/或深度图像进行预处理，如时域滤波等。图像前端305还用于采集原始图像的状态信息。该状态信息包括但不限于：自动白平衡状态信息、自动曝光状态信息和自动对焦状态信息。

在本申请实施例中，图像前端305还用于将获得的原始图像与深度图像进行图像配准，并将图像配准后的原始图像以及与该原始图像对应的深度图像输入至对焦装置307。对焦装置307对原始图像以及与该原始图像对应的深度图像执行本申请实施例提供的对焦方法。

在本申请实施例中，图像配准是将同一个场景的不同图像转换到同样的坐标系统中的过程。这些不同图像可以是不同时间拍摄的(多时间配准)，可以是不同传感器拍摄的(多模配准)，可以是不同视角拍摄的。这些图像之间的空间关系可能是刚体的(平移和旋转)、仿射的(例如错切)，也有可能是单应性的，或者是复杂的大型形变模型。图像前端305将获得的原始图像与深度图像进行图像配准，即将原始图像和深度图像转换到同样的坐标系统。

在本申请实施例中，图像前端305内置对焦装置307。对焦装置307包括显著性检测模块327，该显著性检测模块327用于对原始图像和深度图像进行显著性检测，以提取出最吸引注意力的物体(即显著主体)，进而确定原始图像中显著主体所在区域(即显著性区域)。显著性检测模块327可以为预先训练好的神经网络模型，电子设备300可以基于预先训练好的神经网络模型获得原始图像中的显著性区域。

优选地，显著性检测模块327用于对已经经过图像配准的原始图像和深度图像进行显著性检测。

在另一些实施例中，对焦装置307还可以包括预处理模块317。该预处理模块317用于判断电子设备300所拍摄场景的画面是否属于多景深场景。当电子设备300所拍摄当前场景的画面属于多景深场景，则对原始图像进行前景与背景分割，以得处理后原始图像。该处理后原始图像相对于处理前的原始图像，其背景被遮盖。

当预处理模块317对原始图像进行前景与背景分割时，则预处理模块317将深度图像和处理后原始图像输入至显著性检测模块327。显著性检测模块327对深度图像和处理后原始图像进行显著性检测，输出显著性区域。

在另一些实施例中，预处理模块317可以用于从图像前端305获取原始图像和深度图像，并对获得的原始图像和深度图像进行图像配准，将图像配准后的原始图像(或处理后原始图像)和深度图像输入至显著性检测模块327。

在另一些实施例中，对焦装置307还可以包括出框模块337。该出框模块337用于对显著性检测模块327输出的显著性区域进行处理，以确定目标对焦框。当显著性检测模块327输出的显著性区域的数量为1，则出框模块337根据该显著性区域确定目标对焦框。当显著性检测模块327输出的显著性区域的数量为两个或两个以上时，出框模块337可以从该两个或两个以上的显著性区域中选出置信度最高的显著性区域作为目标区域，进而基于目标区域确定目标对焦框。

对焦装置307中预处理模块317、显著性检测模块327以及出框模块337可以分别是电子设备300上运行的一段程序，用于实现对应的功能。在后续示例中，将会对上述各个模块的功能进行详细说明。

在本申请实施例中，图像处理器304还可以包括自动对焦模块306。自动对焦模块306与图像前端305通过第一接口连接，自动对焦模块306可以通过该第一接口获取图像前端305输出的目标对焦框。自动对焦模块306基于目标对焦框驱动对焦马达332移动镜头312。

在另一些实施例中，本申请实施例提供的对焦装置307可以内置于自动对焦模块306。自动对焦模块306和/或对焦装置307可以通过该第一接口从图像前端305获取原始图像以及与该原始图像对应的深度图像。对焦装置307从第一接口获取原始图像以及与该原始图像对应的深度图像，并执行本申请实施例提供的对焦方法。

在本申请实施例中，图像处理器304可以包括一个或多个处理器，诸如一个或多个图像信号处理器(Image Signal Processor，ISP)、一个或多个主机处理器和/或关于计算系统所讨论的任何其它类型的处理器中的一个或多个其它类型的处理器。主机处理器可以是数字信号处理器(Digital Signal Processor，DSP)和/或其它类型的处理器。

在本申请实施例中，应用程序311响应于用户的操作下发第一指令，第一指令指示电子设备300拍摄。中央处理器301将第一指令下发至成像设备302和深度传感器，以启动深度传感器和成像设备302中的图像传感器322。成像设备302启动后，当前场景中的物体通过镜头312获得拜耳(bayer)图像。拜耳图像输入至图像传感器322后，通过光电转换得到模拟电信号,进一步通过模数转换器处理获得数字图像信号，由此得到原始图像。深度传感器启动后，获得当前场景中被摄物体的深度图像。图像信号处理器中的图像前端305获取图像传感器322输出的原始图像和获取深度传感器输出的深度图像。图像信号处理器中的对焦装置307对原始图像和与该原始图像对应的深度图像进行显著性检测，得到显著性区域。对焦装置307还根据显著性区域输出目标对焦框至自动对焦模块306。自动对焦模块306基于目标对焦框驱动对焦马达332，进而通过该对焦马达332驱动镜头312对目标对焦框内的物体进行对焦。

上述电子设备的软件系统可以采用分层架构、事件驱动架构、微核架构、微服务架构或云架构。下面本申请实施例以分层架构的Android系统为例，示例性说明电子设备的软件结构。当然，在其他操作系统中，只要各个功能模块实现的功能和本申请实施例类似，也可以实现本申请实施例。

请参阅图4，示例性介绍本申请实施例提供的电子设备的软件结构。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用层410，硬件抽象层420、驱动层430以及硬件层440。

应用层410可以包括一系列应用程序包。应用程序包可以包括相机应用、图库，还可以包括即时通讯应用等可提供拍摄功能的应用程序。

硬件抽象层420用于将硬件抽象化。比如，硬件抽象层420可以包相机抽象层以及其他硬件设备抽象层。相机抽象层中可以包括成像设备1、成像设备2等。相机硬件抽象层420可以与图像处理算法库相连接，相机硬件抽象层420可以调用图像处理算法库中的算法。例如，图像处理算法库可以包括相机算法、图像算法、3A算法、显著性检测算法等算法指令。

驱动层430用于为不同硬件设备提供驱动。比如，驱动层430可以包括相机设备驱动。

硬件层440可以包括深度传感器、图像处理器、图像传感器、对焦马达、镜头以及其他硬件设备。

在本申请实施例，用户通过应用程序下发第一指令，第一指令可以通过硬件抽象层420、驱动层430将第一指令传输至硬件层440的深度传感器和感光传感器。在一些实现方式中，用户在电子设备的桌面点击相机应用的图标，则相机应用检测到拍摄操作，向相机硬件抽象层420下发第一指令。相机硬件抽象层420向相机设备驱动发送图像传感器的开启指令，以控制图像传感器开启，同时，相机硬件抽象层420还向相机设备驱动发送深度传感器的开启指令，以控制深度传感器开启。

图像处理器获取由深度传感器输出的深度图像和由图像传感器输出的原始图像。图像信号处理器通过相机设备驱动、相机硬件抽象层420的图像处理算法库调用图像处理相关的算法。如调用显著性检测算法对原始图像和深度图像进行显著性检测，确定目标对焦框后，再基于3A算法中的自动对焦算法驱动对焦马达，对焦马达移动镜头。

请参见图5，图5是本申请实施例提供的一种对焦方法的流程示意图，该对焦方法适用于上述图3中的任意一种对焦装置、电子设备以及包含对焦装置的电子设备，同样适用于图4所示的电子设备。该电子设备包括图像传感器和深度传感器，该对焦方法可以包括如下步骤。

步骤S51，电子设备响应于第一指令，启动图像传感器和深度传感器。

在本申请实施例中，电子设备中安装有具有拍摄功能的应用程序，如相机应用或即时通信应用等。当用户想要拍摄图像、拍摄视频或视频通话时，用户操作对应的具有拍摄功能的应用程序。该应用程序响应于用户的拍摄操作下发第一指令，第一指令用于指示电子设备对当前场景进行拍摄。电子设备响应第一指令，启动电子设备的图像传感器和深度传感器。

图像传感器和深度传感器的相关内容可以参考上述，在此不再赘述。

步骤S52，电子设备获取图像传感器输出的原始图像，并获取深度传感器输出的与原始图像对应的深度图像。

在本申请实施例中，在步骤S51中电子设备启动图像传感器和深度传感器。在图像传感器启动后，图像传感器采集当前场景中的图像数据，得到原始图像。在深度传感器启动后，深度传感器采集当前场景中的被摄物体的距离，得到深度图像。其中，原始图像和深度图像的相关内容可以参考上述，在此不再赘述。

在本申请实施例中，电子设备获取深度传感器输出的与原始图像对应的深度图像可以为，电子设备获取图像传感器输出的原始图像，并获取深度传感器输出的深度图像，将所获得的原始图像与深度图像进行图像配准。也即与原始图像对应的深度图像可以为将原始图像与深度图像进行图像配准后的深度图像。

可以理解，原始图像和深度图像可以同步获取，也可以异步获取，本申请实施例对此不作具体限定。

步骤S53，电子设备将原始图像和深度图像输入至对焦装置，基于对焦装置对原始图像和深度图像进行处理，得到原始图像上的显著性区域。

在本申请实施例中，电子设备基于对焦装置中的显著性检测模块对原始图像和深度图像进行显著性检测，得到显著性区域。显著性区域即显著主体所在的图像区域。当显著性检测模块以人为显著主体时，则图1B中人物画像所在的图像区域即为显著性区域。

显著性检测模块可以实现为神经网络，通过模型训练，使得神经网络能够学习到图像中哪些物体的显著性更高，例如通常认为人、车要比墙壁、天空、草地、远处建筑物的显著性更高，则人、车为显著主体。此外，还可以利用其他方法(例如关键区域聚焦方法等)识别显著性区域，在此并不进行限定。其中，采用机器学习模型例如神经网络识别显著性区域，相对于其他识别显著性区域的方法，可以使识别更加智能。

在一些实施例中，还可以依据不同的显著性定义训练多种模型供用户选择，例如“人脸优先”的显著性模型、“文字优先”的显著性模型等。

在本申请实施例中，显著检测模块包括编码器与解码器。电子设备将原始图像和深度图像输入至训练好的编码器，并基于编码器的参数，对原始图像和深度图像进行特征提取，分别得到第一特征图像和第二特征图像。电子设备将第一特征图像和第二特征图像输入至训练好的解码器，并基于解码器的参数，融合第一特征图像和第二特征图像，得到原始图像上的显著性区域。

示例性地，以上述训练好的编码器包括第一编码器和第二编码器为例，将原始图像输入至第一编码器，基于第一编码器的参数对原始图像进行特征提取，得到第一特征图像。将深度图像输入至第二编码器，基于第二编码器的参数对深度图像进行特征提取，得到第二特征图像。示例性地，第一编码器可以为卷积-反卷积模型，其中，卷积阶段作为特征提取器，可以将原始图像转换成分层丰富的特征表示，反卷积阶段可以用作形状恢复器以恢复原始图像中的信息，如纹理、分辨率等，并将细节中的显著对象从背景中细分。第一编码器还可以为卷积神经网络(CNN)、基于转换器(Transformer)结构的编码器等。示例性地，第二编码器可以为包括多个层的卷积神经网络，其中每个后续层减小所提取的特征的维数,以提取深度特征。

电子设备将原始图像输入至第一编码器后，可以得到编码过后的原始图像的特征层，即第一特征图像。电子设备将深度图像输入至第二编码器后，可以得到深度图像的深度信息特征层，即第二特征图像。电子设备将得到的原始图像的特征层和深度图像的深度信息特征层输入至训练好的解码器，基于解码器的参数融合第一特征图像和第二特征图像之间的互补语义信息，生成联合特征图像，即显著性图像(RAW-D显著性图)。显著性图像可以指示原始图像中的显著性区域，根据显著性图像可以得到显著性区域。

上述编码器和解码器的参数均为在实际应用中需要经过大量的训练得到的参数，包括但不限于偏置参数、权重参数。以卷积神经网络为例，通过训练得到的权重参数形成的各个权重矩阵加上训练得到的偏置参数可以从输入的图像数据中提取信息，从而帮助卷积神经网络进行有效的特征提取。

在另一些实施例中，显著性检测模块可以实现为包括两个输入层、一个或一个以上的隐藏层和一个输出的卷积神经网络。将原始图像以及其对应的深度图像分别作为两个输入层的原始输入图像，输入到卷积神经网络中进行训练，获得训练好的卷积神经网络。将图像前端所获得原始图像以及与该原始图像对应的深度图像分别作为两个输入层的原始输入图像，输入至训练好的卷积神经网络进行训练，并利用训练好的参数如最优权值矢量和最优偏置项进行预测，得到原始图像对应的显著性图像，从而实现显著性主体检测。

可以理解，上述显著性检测模块的结构仅是示例，也可以根据实际情况设置显著性检测模块。上述编码器与解码器仅是示例，可以根据实际情况设置用于提取原始图像(如pd raw图像)的特征信息的编码器以及用于提取深度图像的特征信息的编码器。也可以根据实际情况设置解码器，以融合所提取出的原始图像的特征信息和深度图像的特征信息。本申请实施例对显著性检测模块、编码器、解码器的具体结构类型不作具体限定。

在本申请实施例中，在获取原始图像的显著性区域时，显著性检测模块结合了原始图像的特征信息(如纹理)和深度图像的特征信息(如深度)，将深度图像的特征信息有效地与原始图像的特征信息进行整合，因此对原始图像的显著性检测能够更加精准，提高检测结果的鲁棒性。

在本申请实施例中，电子设备通过对焦装置确定当前场景的画面是否属于多景深场景，当判断场景的画面为多景深场景时，对原始图像进行前景和背景分割，得到处理后原始图像。然后将处理后原始图像和深度图像输入至显著性检测模块，如输入至显著性检测模块中训练好的编码器。

在本申请实施例中，图像可包括前景和背景。前景为图像中的主体所在区域，一般为拍摄焦点所在的区域，背景为图像中前景以外的其他区域。如图1B所示预览图像中的人物画像即背景，手部以及钢笔即前景。

在本申请实施例中，当电子设备确定当前场景的画面为多景深场景时，电子设备根据原始图像对应的深度图像确定原始图像中各个主体所在区域的深度统计值。将深度图像中最大的深度统计值作为分割阈值。电子设备根据分割阈值对原始图像进行处理，得到处理后原始图像，其中处理后原始图像中未被遮盖区域的深度统计值小于分割阈值，处理后原始图像中被遮盖区域的深度统计值大于或等于分割阈值。针对每一区域，深度统计值可以为该区域中各个像素点所对应的深度值的中位数，还可以对该区域内所有像素点所对应的深度值之和求平均后所得到的平均值，还可以对该区域内所有像素点所对应的深度值之和求，本申请对此深度统计值不作具体限定。

在一些实施例中，电子设备可以将原始图像输入至前背景分割模型，得到处理后原始图像。前背景分割模型是一个可以从输入得到输出的函数，输入为图像，输出为分割结果。前背景分割模型可用于识别图像中的前景和背景，将图像的前景和背景分割开来。分割结果是指将图像分为前景和背景两个区域后所得到的结果，基于该分割结果得到处理后原始图像。

在本申请实施例中，电子设备判断当前场景的画面是否属于多景深场景的方式包括但不限于如下：

方式一，电子设备确定深度图像中深度区域的数量，每一深度区域对应唯一的深度值范围。当深度图像中深度区域的数量大于或等于预设阈值时，确定当前场景的画面属于多景深场景；当深度图像中深度区域的数量小于预设阈值时，确定当前场景的画面属于多景深场景。

其中，深度区域指示深度图像中一连贯的图像区域，且该图像区域内的像素点的深度(如相对深度或深度值)均在同一深度值范围内。其中预设阈值可以为用于指示深度区域的数量阈值，其可以根据实际情况设置，如可以设置为2、3、4、5等，本申请实施例对此不作具体限定。

示例性地，以深度值范围包括第一深度值范围至第三深度值范围为例，第一深度值范围为大于或等于50cm且小于1米，第二深度值范围为大于或等于1米且小于1.5米，第三深度值范围为大于1.5米且小于或等于2米。如图1B所示的预览图像中手部以及钢笔所在图像区域内的所有像素点所对应的深度均在第一深度值范围内，则手部以及钢笔所在图像区域为一深度区域。图1B所示的预览图像中的人物画像所在图像区域内的所有像素点所对应的深度均在第三深度值范围内，则物画像所在图像区域为另一深度区域。当该预设阈值为2时，则确定图1B的画面属于多景深场景。

方式二，电子设备获取多个PD值组成的相位差序列。然后，根据相位差序列和差值阈值判断取景画面是否属于多景深场景，电子设备确定相位差序列中的最大值和最小值，判断该最大值和最小值的差值的绝对值与预设阈值的大小，若差值的绝对值大于差值阈值，判断该场景为多景深场景，若差值的绝对值小于差值阈值，判断该场景为非多景深场景。其中差值阈值为用于指示PD值的差值的绝对值的阈值，其可以根据实际情况设置，如差值阈值的取值为80。

示例性的，电子设备成像设备配置有PD像素，具有PDAF功能(支持PDAF技术)。即成像设备拍摄的图像通过PDAF算法的处理可以得到相位差序列。又或者，电子设备将PD raw图输入相位检测库计算PD值。其中，位检测库可以通过增益图(gain map)为PD raw图对应的PD像素提升增益(gain)。然后，根据提升增益后的PD像素计算PD值，根据该多个PD值得到相位差序列。

以相位差序列为{pd1，pd2，pd3，pd4，…，pdn}，差值为80为例，在相位差序列{pd1，pd2，pd3，pd4，…，pdn}中选取最大pd值max_pd和最小pd值min_pd；当|max_pd-min_pd|大于或等于80时，判断该场景为多景深场景。当max_pd-min_pd|小于80时，判断该场景为非多景深场景。

在本申请实施例中，可以使用掩膜(mask图)对原始图像中的部分或者全部进行遮挡。本申请实施例中，mask图用于对原始图像中的背景进行遮挡。关于mask图的实际形态，本申请对此不作具体限定。

步骤S54，电子设备根据显著性区域对当前场景内的物体进行对焦。

在本申请实施例中，对焦装置中的出框模块用于基于显著检测模块输出的显著性区域确定目标对焦框，以使得自动对焦模块基于该目标对焦框进行对焦，也即目标对焦框为镜头对焦的对焦区域。目标对焦框框定原始图像中的拍摄对象(即显著主体)，指示电子设备将目标对焦框框定的区域(显著主体)作为对焦区域。

在本申请实施例中，出框模块获取显著性区域的最小外接矩形区域，如根据凸包法获得显著性区域的最小外接矩形，该最小外接矩形所包括的最大区域即为最小外接矩形区域。然后将该显著性区域所对应的最小外接矩形区域确定为该显著性区域对应的对焦框。

可以理解，上述显著区域所对应的最小外接矩形区域中矩形仅是示例，还可以是椭圆形或圆形等，此处不做具体限定。也即当电子设备可以显示对焦框时，对焦框可以为矩形如图1B所示矩形，还可以为椭圆形或圆形。

在本申请实施例中，显著性区域即显著主体所在的区域，电子设备可以基于显著主体所在的区域利用自动对焦(AF)算法将镜头对焦到显著主体。即利用AF算法将镜头对焦到目标对焦框所框定的显著主体。

在另一些实施例中，电子设备可以预先存储深度范围和与深度范围对应的对焦位置的对应关系，然后电子设备根据显著主体所在区域的深度(如深度统计值)，确定对焦马达的目标对焦位置，然后将对焦马达驱动到目标对焦位置，从而实现将镜头对焦到显著主体。

具体地，电子设备可以根据深度范围和与深度范围对应的对焦位置的对应关系存储对照表，该对照表记录深度范围和与深度范围对应的对焦位置。在一些实施例中，电子设备的存储器中保存的深度范围与对焦位置的对应关系可以如下表1所示，表1中的深度范围可以为目标物体的中心与镜头间的距离范围，单位厘米(centimetre，cm)，该对焦位置为对焦马达驱动镜头所移动到的对焦位置。

表1

深度范围(cm)	对焦位置
		大于10或等于且小于或等于75	50
大于75且小于125	100

当目标区域的深度统计值为50，则属于大于10或等于且小于或等于75的深度范围，则确定目标对焦位置为50，电子设备驱动对焦马达，移动镜头至对焦位置50所指示的位置。

可以理解，上述表1的深度范围、对焦位置的设置可以根据实际情况设置，本申请对此不作具体限定。

本申请实施例中“目标对焦位置”可以包括移动方向和/或移动距离，该移动方向表示为了获得清晰图像，摄像机中可移动的镜片、镜片组或镜头，需要移动的方向；该移动距离表示为了获得清晰图像，摄像机中可移动的镜片、镜片组或镜头，需要在移动方向上移动的距离。换句话说，该对焦位置可以表示为了获得清晰图像，摄像机中可移动的镜片、镜片组或镜头，所需要处于的位置。

在本申请实施例中，当显著性检测模块输出的显著性区域的数量为两个或两个以上时，请参阅图6，步骤S54具体可以包括：

步骤S61，电子设备针对每一显著性区域，获取显著性区域对应的显著性统计值、深度统计值以及第一距离，其中第一距离用于指示显著性区域与原始图像的中心区域之间的距离。

其中，显著性统计值可以为该显著性区域内所有像素点的显著性值的中位数，还可以为该显著性区域内所有像素点的显著性值的平均值，还可以为该显著性区域内所有像素点的显著性值之和。

其中，深度统计值可以参考上述，在此不再赘述。

其中，第一距离可以为显著性区域的中心点与原始图像的中心区域的中心点之间的距离，还可以为显著性区域的第一边缘点与原始图像的中心区域的第二边缘点之间的距离，第一边缘点为显著性区域上距离中心区域最近的边缘点，第二边缘点为中心区域上距离显著性区域最近的边缘点。

在本申请实施例中，对图像进行显著性检测，可以获得该图像的各个像素点的显著性值。换句话或，显著性图像包括该图像中的各个像素点的显著性值。相应地，针对每一显著性区域可以获得该显著性区域内所有像素点的显著性值，计算该显著性区域内所有像素点的显著性值之和，并对和求平均得到该显著区域内所有像素点的显著性值的平均值。

步骤S62，电子设备根据显著性统计值、深度统计值以及第一距离计算显著性区域的置信度。

在本申请实施例中，可以根据实际情况为显著性统计值、深度统计值以及第一距离设置对应的权重，进而对显著性统计值、深度统计值以及第一距离综合分析，确定置信度。

示例性地，针对每一显著性区域，电子设备可以根据如下第一公式计算该显著性区域的置信度：

Y＝k1*a+k2*b+k3*c

其中，k1为电子设备为显著性统计值设置的权重，k2为电子设备为深度统计值设置的权重，k3为电子设备为第一距离设置的权重，a为显著性区域的显著性统计值，b为显著性区域的深度统计值，c为显著性区域的第一距离，Y为该显著性区域的置信度。

可以理解，电子设备可以根据实际情况设置上述k1至k3的权重，本申请对此不作具体限定。

步骤S63，电子设备将置信度最高的显著性区域确定为目标区域。

在步骤S62中，针对每一显著性区域，电子设备获得该显著性区域的置信度。电子设备比较各个显著性区域的置信度的大小，将置信度最高的显著性区域确定为目标区域。

步骤S64，电子设备根据目标区域对当前场景内的物体进行对焦。

在本申请实施例中，电子设备根据目标区域确定目标对焦位置，电子设备驱动对焦马达移动镜头至目标对焦位置，以使得镜头对当前场景中目标对焦位置内的显著主体进行对焦。

本申请实施例还提供了一种电子设备，该电子设备包括图3、图4所示的硬件与软件。在另一些实施例中，电子设备至少包括：一个或多个处理器和一个或多个存储器。处理器包括中央处理器和图形处理器。一个或多个存储器与一个或多个处理器耦合，一个或多个存储器存储有计算机指令；当一个或多个处理器执行计算机指令时，使得电子设备执行上述图5、图6所示的对焦方法。

请参阅图7，图7为本申请实施例提供的一种芯片系统结构示意图。

图7示出了的一种芯片系统700的组成示意图。该芯片系统700可以包括：处理器701和通信接口702，用于支持相关设备实现上述实施例中所涉及的功能。在一种可能的设计中，芯片系统还包括存储器，用于保存电子设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。需要说明的是，在本申请的一些实现方式中，该通信接口702也可称为接口电路。

具体地，该芯片系统应用于电子设备，电子设备包括图像传感器和深度传感器，其特征在于，芯片系统包括接口电路和处理器；接口电路和处理器通过线路互联；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行该计算机指令时，芯片系统响应于第一指令，启动图像传感器和深度传感器，其中第一指令用于指示对当前场景进行拍摄；获取图像传感器输出的原始图像，并获取深度传感器输出的与原始图像对应的深度图像；将原始图像和深度图像输入至训练好的编码器，并基于编码器的参数，对原始图像和深度图像进行特征提取，分别得到第一特征图像和第二特征图像；将第一特征图像和第二特征图像输入至训练好的解码器，并基于解码器的参数，融合第一特征图像和第二特征图像，得到原始图像上的显著性区域；根据显著性区域对当前场景内的物体进行对焦。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述各方法实施例中的对焦方法。

本申请实施例还提供一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如上述实施例的对焦方法。

其中，本申请实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片系统均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种对焦方法，其特征在于，应用于电子设备，所述电子设备包括图像传感器以及深度传感器，所述方法包括：

响应于第一指令，启动所述图像传感器和所述深度传感器，其中所述第一指令用于指示对当前场景进行拍摄；

获取所述图像传感器输出的原始图像，并获取所述深度传感器输出的与所述原始图像对应的深度图像；

将所述原始图像和所述深度图像输入至训练好的编码器，并基于所述编码器的参数，对所述原始图像和所述深度图像进行特征提取，分别得到第一特征图像和第二特征图像；

将所述第一特征图像和所述第二特征图像输入至训练好的解码器，并基于所述解码器的参数，融合所述第一特征图像和所述第二特征图像，得到所述原始图像上的显著性区域；

根据所述显著性区域对所述当前场景内的物体进行对焦。

2.如权利要求1所述方法，其特征在于，当所述显著性区域的数量为两个或两个以上时，所述根据所述显著性区域对所述当前场景内的物体进行对焦包括：

针对每一所述显著性区域，获取所述显著性区域对应的显著性统计值、深度统计值以及第一距离，其中所述第一距离用于指示所述显著性区域与所述原始图像的中心区域之间的距离；

根据所述显著性统计值、所述深度统计值以及所述第一距离计算所述显著性区域的置信度；

将置信度最高的所述显著性区域确定为目标区域；

根据所述目标区域对所述当前场景内的物体进行对焦。

3.如权利要求2所述方法，其特征在于，所述根据所述目标区域对所述当前场景内的物体进行对焦包括：

根据所述目标区域确定目标对焦位置；

驱动对焦马达移动镜头至所述目标对焦位置，以对所述当前场景内的物体进行对焦。

4.如权利要求3所述方法，其特征在于，所述根据所述目标区域确定目标对焦位置包括：

获取所述电子设备预存的对照表，其中所述对照表记录深度范围和与所述深度范围对应的对焦位置；

根据所述目标区域的深度统计值和所述对照表确定所述目标对焦位置。

5.如权利要求1至4中任一项所述方法，其特征在于，所述方法还包括：

判断所述当前场景的画面是否属于多景深场景；

当所述当前场景的画面为多景深场景时，对所述原始图像进行前景和背景分割，得到处理后原始图像，所述处理后原始图像中的背景被遮挡；

则所述将所述原始图像和所述深度图像输入至训练好的编码器包括：

将所述处理后原始图像和所述深度图像输入至训练好的编码器。

6.如权利要求5所述方法，其特征在于，所述判断所述当前场景的画面是否属于多景深场景包括：

获取所述深度图像中深度区域的数量，每一所述深度区域对应唯一的深度范围；

当所述深度图像中深度区域的数量大于或等于预设阈值时，确定当前场景的画面属于多景深场景；

当所述深度图像中深度区域的数量小于所述预设阈值时，确定当前场景的画面不属于多景深场景。

7.一种电子设备，其特征在于，包括：处理器和存储器；

所述存储器，用于存储计算机程序，所述计算机程序包括程序指令；

所述处理器，用于调用所述计算机程序，执行如权利要求1至6中任一项所述方法。

8.一种芯片系统，所述芯片系统应用于电子设备，所述电子设备包括图像传感器和深度传感器，其特征在于，所述芯片系统包括接口电路和处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行该计算机指令时，

所述芯片系统响应于第一指令，启动所述图像传感器和所述深度传感器，其中所述第一指令用于指示对当前场景进行拍摄；获取所述图像传感器输出的原始图像，并获取所述深度传感器输出的与所述原始图像对应的深度图像；将所述原始图像和所述深度图像输入至训练好的编码器，并基于所述编码器的参数，对所述原始图像和所述深度图像进行特征提取，分别得到第一特征图像和第二特征图像；将所述第一特征图像和所述第二特征图像输入至训练好的解码器，并基于所述解码器的参数，融合所述第一特征图像和所述第二特征图像，得到所述原始图像上的显著性区域；根据所述显著性区域对所述当前场景内的物体进行对焦。

9.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1至6中任一项所述方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至6中任一项所述方法。