CN115623318A

CN115623318A - 对焦方法及相关装置

Info

Publication number: CN115623318A
Application number: CN202211636391.7A
Authority: CN
Inventors: 孙佳男; 陈铎; 肖润宇; 王宇
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-01-17
Anticipated expiration: 2042-12-20
Also published as: CN115623318B

Abstract

本申请实施例提供一种对焦方法及相关装置，涉及终端技术领域。方法包括：在第N+1帧图像中确定目标区域；目标区域为第N+1帧图像中，图像内容与目标图像内容相似度高于第一值的区域；目标图像内容为第N帧图像中，包括第N帧图像的对焦点的部分图像内容；N为自然数；在目标区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域；以目标子区域中的任意位置对第N+1帧图像进行对焦。这样，终端设备确定的目标子区域中包含对焦对象可能性较大，使得终端设备以目标子区域中的任意位置对第N+1帧图像进行对焦时，对焦对象的清晰度较高。

Description

对焦方法及相关装置

技术领域

本申请涉及终端技术领域，尤其涉及对焦方法及相关装置。

背景技术

随着终端技术的发展，较多的终端设备安装有相机应用。使用相机应用进行拍摄时，用户可以触发选定初始对焦点，终端设备可以基于初始对焦点进行拍摄。

但是，一些实现中，当初始对焦点位置处的物体与终端设备之间发生相对移动时，在拍摄得到的图像中，可能存在该物体模糊的情况。

发明内容

本申请实施例提供一种对焦方法及相关装置，提升对焦的准确度。

第一方面，本申请实施例提供一种对焦方法，应用于终端设备，方法包括：在第N+1帧图像中确定目标区域；目标区域为第N+1帧图像中，图像内容与目标图像内容相似度高于第一值的区域；目标图像内容为第N帧图像中，包括第N帧图像的对焦点的部分图像内容；N为自然数；在目标区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域；以目标子区域中的任意位置对第N+1帧图像进行对焦。这样，终端设备在第N+1帧图像中确定出图像内容与对焦点处的图像内容的相似度较大的目标区域之后，再在目标区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域，由于第N帧图像和第N+1帧图像中对焦对象的深度变化较小，因此，当对焦对象的位置或者形状发生改变时，通过确定目标子区域可以准确地定位到对焦对象，使得终端设备以目标子区域中的任意位置对第N+1帧图像进行对焦时，该任意位置处于对焦对象上，使得对焦对象的清晰度较高。

在一种可能的实现过程中，在目标区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域，包括：基于目标区域的图像内容中各像素点的深度，对目标区域的图像内容进行聚类，得到L个子区域，其中，每个子区域对应有聚类中心，L为自然数；在L个子区域中确定聚类中心处的像素点的深度与对焦点的深度的差值最小的第一子区域；在第一子区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域。这样，终端设备先确定聚类中心处的像素点的深度与对焦点的深度的差值最小的第一子区域，第一子区域的聚类中心处的像素点处于对焦对象上的可能性较大，使得终端设备确定的第一子区域中大部分区域为对焦对象。进一步的，终端设备在第一子区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域，使得目标子区域为对焦对象的区域，可以使得终端设备在第N+1帧图像中定位到对焦对象。

在一种可能的实现过程中，以目标子区域中的任意位置对第N+1帧图像进行对焦，包括：以目标子区域的中心点处的像素点对N+1帧图像进行对焦；或者，以目标子区域中与目标子区域的中心点的距离小于第三值的任意像素点对第N+1帧图像进行对焦。这样，终端设备在目标子区域的中心点周围确定新的对焦点，使得确定的新的对焦点处于对焦对象上，当终端设备以新的对焦点对第N+1帧图像进行对焦时，可以使得对焦对象的清晰度较高。

在一种可能的实现过程中，在第N+1帧图像中确定目标区域，包括：将目标图像内容输入第一神经网络模型，得到第一特征向量；在第N+1帧图像中确定M个第一区域；M为自然数；将M个第一区域中各第一区域的图像内容输入第一神经网络模型，得到M个第二特征向量；计算第一特征向量和各第二特征向量之间的相似度；在M个第一区域中确定相似度满足第一预设条件的目标区域。这样，通过神经网络模型提取的特征向量包含图像内容的信息较多，使得通过利用特征向量计算的相似度确定的目标区域中包括对焦对象，可以增大确定的目标区域中包括对焦对象的可能性。

在一种可能的实现过程中，在M个第一区域中确定相似度满足第一预设条件的目标区域，包括：在M个第一区域中确定相似度高于第一值的区域中的任意区域为目标区域，或者，在M个区域中确定相似度最大的区域为目标区域。这样，终端设备通过确定相似度较大的区域为目标区域，使得确定的目标区域中包括对焦对象所占的区域较大。

在一种可能的实现过程中，在第N+1帧图像中确定M个第一区域，包括：确定第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸；置信度表示位置的像素点为对焦点的概率；在第N+1帧图像中确定置信度大于第四值的M个像素点；以M个像素点中各像素点的位置为中心，确定M个第一尺寸的第一区域。这样，终端设备通过对第N+1帧图像中各像素点的位置可能为对焦点的概率进行预测，可以减少后续终端设备在第N+1帧图像中确定多个第一区域的计算量。

在一种可能的实现过程中，确定第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸，包括：在第N帧图像中确定与对焦点的深度的差值小于第五值且包含对焦点的第二区域；将第二区域的图像内容和第N帧图像输入第二神经网络模型，得到第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸。这样，终端设备在置信度大于第四值的像素点的位置确定第一区域，由于置信度越大表示该位置的像素点为对焦点的概率越大，而且对焦点处于对焦对象上，使得第一区域中包括对焦对象的可能性较大。

第二方面，本申请实施例提供一种对焦的装置，该对焦的装置可以是终端设备，也可以是终端设备内的芯片或者芯片系统。该对焦的装置可以包括处理单元和显示单元。处理单元用于实现第一方面或第一方面的任意一种可能的实现方式中与处理相关的任意方法。显示单元可以是显示屏等，显示单元可以基于处理单元的控制实现第一方面或第一方面的任意一种可能的实现方式中与显示相关的任意步骤。当该对焦的装置是终端设备时，该处理单元可以是处理器。该对焦的装置还可以包括存储单元，该存储单元可以是存储器。该存储单元用于存储指令，该处理单元执行该存储单元所存储的指令，以使该终端设备实现第一方面或第一方面的任意一种可能的实现方式中描述的一种方法。当该栈管理的装置是终端设备内的芯片或者芯片系统时，该处理单元可以是处理器。该处理单元执行存储单元所存储的指令，以使该终端设备实现第一方面或第一方面的任意一种可能的实现方式中描述的一种方法。该存储单元可以是该芯片内的存储单元（例如，寄存器、缓存等），也可以是该终端设备内的位于该芯片外部的存储单元（例如，只读存储器、随机存取存储器等）。

示例性的，处理单元，用于在第N+1帧图像中确定目标区域；目标区域为第N+1帧图像中，图像内容与目标图像内容相似度高于第一值的区域；目标图像内容为第N帧图像中，包括第N帧图像的对焦点的部分图像内容；N为自然数。处理单元，还用于在目标区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域。处理单元，还用于以目标子区域中的任意位置对第N+1帧图像进行对焦。

在一种可能的实现过程中，处理单元，具体用于基于目标区域的图像内容中各像素点的深度，对目标区域的图像内容进行聚类，得到L个子区域，其中，每个子区域对应有聚类中心，L为自然数；在L个子区域中确定聚类中心处的像素点的深度与对焦点的深度的差值最小的第一子区域；在第一子区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域。

在一种可能的实现过程中，处理单元，具体用于以目标子区域的中心点处的像素点对N+1帧图像进行对焦；或者，以目标子区域中与目标子区域的中心点的距离小于第三值的任意像素点对第N+1帧图像进行对焦。

在一种可能的实现过程中，处理单元，具体用于将目标图像内容输入第一神经网络模型，得到第一特征向量；在第N+1帧图像中确定M个第一区域；M为自然数；将M个第一区域中各第一区域的图像内容输入第一神经网络模型，得到M个第二特征向量；计算第一特征向量和各第二特征向量之间的相似度；在M个第一区域中确定相似度满足第一预设条件的目标区域。

在一种可能的实现过程中，处理单元，具体用于在M个第一区域中确定相似度高于第一值的区域中的任意区域为目标区域，或者，在M个区域中确定相似度最大的区域为目标区域。这样，终端设备通过确定相似度较大的区域为目标区域，使得确定的目标区域中包括对焦对象所占的区域较大。

在一种可能的实现过程中，处理单元，具体用于确定第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸；置信度表示位置的像素点为对焦点的概率；在第N+1帧图像中确定置信度大于第四值的M个像素点；以M个像素点中各像素点的位置为中心，确定M个第一尺寸的第一区域。

在一种可能的实现过程中，处理单元，具体用于在第N帧图像中确定与对焦点的深度的差值小于第五值且包含对焦点的第二区域；将第二区域的图像内容和第N帧图像输入第二神经网络模型，得到第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，存储器用于存储代码指令，处理器用于运行代码指令，以执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序或指令，当计算机程序或指令在计算机上运行时，使得计算机执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。

第五方面，本申请实施例提供一种包括计算机程序的计算机程序产品，当计算机程序在计算机上运行时，使得计算机执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。

第六方面，本申请提供一种芯片或者芯片系统，该芯片或者芯片系统包括至少一个处理器和通信接口，通信接口和至少一个处理器通过线路互联，至少一个处理器用于运行计算机程序或指令，以执行第一方面或第一方面的任意一种可能的实现方式中描述的方法。其中，芯片中的通信接口可以为输入/输出接口、管脚或电路等。

在一种可能的实现中，本申请中上述描述的芯片或者芯片系统还包括至少一个存储器，该至少一个存储器中存储有指令。该存储器可以为芯片内部的存储单元，例如，寄存器、缓存等，也可以是该芯片的存储单元（例如，只读存储器、随机存取存储器等）。

应当理解的是，本申请的第二方面至第六方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的一种相机应用的界面示意图；

图2为本申请实施例提供的一种电子设备的结构示意图；

图3为本申请实施例提供的一种终端设备的软件结构示意图；

图4为本申请实施例提供的一种终端设备拍照时对焦的方法流程示意图；

图5为本申请实施例提供的一种摄像头对焦后采集的图像2的示意图；

图6为本申请实施例提供的一种通过相机服务确定新的对焦点的方法流程示意图；

图7为本申请实施例提供的一种确定置信度和候选框的尺寸的流程示意图；

图8为本申请实施例提供的一种在图像3中确定的候选区域的示意图；

图9为本申请实施例提供的一种追焦过程中可能的图像示意图；

图10为本申请实施例提供的一种对焦方法的流程示意图；

图11为本申请实施例提供的一种终端设备在第N+1帧图像中确定目标区域的方法流程示意图；

图12为本申请实施例提供的一种在T时刻对第T帧图像进行处理的流程示意图；

图13为本申请实施例提供的一种在T+1时刻在第T+1帧图像中确定新的对焦点的流程示意图；

图14为本申请实施例提供的另一种终端设备的硬件结构示意图；

图15为本申请实施例提供的一种芯片的结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，以下，对本申请实施例中所涉及的部分术语和技术进行简单介绍：

1、深度：表示被拍摄的物体与摄像头的距离。

2、其他术语

在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一芯片和第二芯片仅仅是为了区分不同的芯片，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项（个）”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b，或c中的至少一项（个），可以表示：a，b，c，a-b，a--c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

3、终端设备

本申请实施例的终端设备也可以为任意形式的电子设备，例如，电子设备可以包括具有图像处理功能的手持式设备、车载设备等。例如，一些电子设备为：手机（mobilephone）、平板电脑、掌上电脑、笔记本电脑、移动互联网设备（mobile internet device，MID）、可穿戴设备，虚拟现实（virtual reality，VR）设备、增强现实（augmented reality，AR）设备、工业控制（industrial control）中的无线终端、无人驾驶（self driving）中的无线终端、远程手术（remote medical surgery）中的无线终端、智能电网（smart grid）中的无线终端、运输安全（transportation safety）中的无线终端、智慧城市（smart city）中的无线终端、智慧家庭（smart home）中的无线终端、蜂窝电话、无绳电话、会话启动协议（session initiation protocol，SIP）电话、无线本地环路（wireless local loop，WLL）站、个人数字助理（personal digital assistant，PDA）、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备，5G网络中的终端设备或者未来演进的公用陆地移动通信网络（public land mobile network，PLMN）中的终端设备等，本申请实施例对此并不限定。

作为示例而非限定，在本申请实施例中，该电子设备还可以是可穿戴设备。可穿戴设备也可以称为穿戴式智能设备，是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，例如：智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

此外，在本申请实施例中，电子设备还可以是物联网（internet of things，IoT）系统中的终端设备，IoT是未来信息技术发展的重要组成部分，其主要技术特点是将物品通过通信技术与网络连接，从而实现人机互连，物物互连的智能化网络。

本申请实施例中的电子设备也可以称为：终端设备、用户设备（user equipment，UE）、移动台（mobile station，MS）、移动终端（mobile terminal，MT）、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置等。

在本申请实施例中，电子设备或各个网络设备包括硬件层、运行在硬件层之上的操作系统层，以及运行在操作系统层上的应用层。该硬件层包括中央处理器（centralprocessing unit，CPU）、内存管理单元（memory management unit，MMU）和内存（也称为主存）等硬件。该操作系统可以是任意一种或多种通过进程（process）实现业务处理的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。该应用层包含相机、浏览器、通讯录、文字处理软件、即时通信软件等应用。

终端设备可以通过安装的相机应用进行照片的拍摄，图1示出了一种相机应用的界面示意图。

如图1中的a所示，相机应用的界面中可以包括图像显示区域101、图库控件102、拍摄控件103等。其中，图像显示区域101用于显示待拍摄的图像，图库控件102用于显示终端设备的图库中的图像，拍摄控件103用于拍摄图像显示区域103显示的图像。

如图1中的a所示的界面，当终端设备接收到用于对焦的触发操作时，终端设备以触发操作的位置为对焦点确定对焦对象，对图像显示区域103显示的图像进行对焦，并进入图1中的b所示的界面。

如图1中的b所示，终端设备对图像显示区域103显示的图像进行对焦时，可以显示对焦框104，且对焦对象处于对焦框104内。与图1中a所示的界面相比，对焦框104中的对焦对象的清晰度变高。

示例性的，在终端设备拍摄图像的过程中，对焦框104中的对焦对象可能会发生移动。对焦对象移动时，终端设备可以显示如图1中的c所示的界面。如图1中c所示，对焦对象的大部分处于对焦框104之外，当终端设备继续以对焦框104对图像进行对焦时，可能出现拍摄的图像中对焦对象模糊的情况。

一些实现中，终端设备基于用户在预览图1上选择的对焦点，确定下一帧预览图2中的对焦点。具体的，终端设备在预览图1上以对焦点为中心确定区域1，并在预览图2的相同位置确定相同尺寸的区域2，比较区域1和区域2的图像信息的直方图信息之间的相似度。若相似度大于一定值，则将区域2的中心点确定为新的对焦点。若相似度小于一定值，则在预览图2中确定多个与区域1尺寸相同的区域3，计算每一个区域3中图像的直方图信息与区域1中图像的直方图信息之间的相似度，将相似度最大的区域3的中心点确定为新的对焦点。终端设备以新的对焦点对预览图2进行对焦。

然而，终端设备拍摄照片的过程中，对焦对象的位置和形状均可能发生改变。在上述实现中，当对焦对象发生形变时，可能存在虽然基于相似度得到了对焦对象所在的区域2或区域3，但是对焦对象处于区域2或区域3的边缘的情况，那么，以区域2或区域3的中心点作为新对焦点时，可能存在新的对焦点不在对焦对象上的情况，使得终端设备以新的对焦点对图像进行对焦点时，对焦对象不在对焦的范围内，导致对焦对象模糊。

有鉴于此，本申请实施例提供了一种对焦方法，在后一帧图像中确定包括前一帧对焦对象的目标区域后，在后一帧图像的该目标区域中，进一步确定与前一帧图像的对焦点深度差值小于一定值的子区域，因为前后两帧图像中对焦对象的深度通常不会突变，因此，即使对焦对象的位置或者形状发生改变，目标区域的子区域中也能准确定位到对焦对象，以目标子区域中的任意位置进行对焦，则能使得新的对焦点处于对焦对象上，使得对焦对象的清晰度较高，可以改善拍摄过程中对焦对象模糊的情况。

为了能够更好地理解本申请实施例，下面对本申请实施例的电子设备的结构进行介绍：

示例性的，图2示出了电子设备的结构示意图。

电子设备可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M，深度传感器180N等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从上述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备的结构限定。在本申请另一些实施例中，电子设备也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

电子设备可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。在本申请实施例中，终端设备可以通过摄像头193获得第N帧图像的图像信号，将图像信号传输给ISP，由ISP对图像信号进行处理，获得第N帧图像。可以理解的是，ISP还可以对接收到的第N+1帧图像的图像信号进行处理，获得第N+1帧图像。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network ，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）等。存储数据区可存储电子设备使用过程中所创建的数据（比如音频数据，电话本等）等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flash storage，UFS）等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备的各种功能应用以及数据处理。例如，可以执行本申请实施例的对焦方法。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

深度传感器180N可以用于采集摄像头采集的图像对应深度图。在本申请实施例中，深度传感器180N可以采集第N帧图像对应的深度图和第N+1帧图像对应的深度图。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

示例性的，马达191还可以用于辅助摄像头193进行移动，实现对焦。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图3是本申请实施例的终端设备的软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时（Android runtime）和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。如图3所示，应用程序包可以包括相机、日历、电话、地图、游戏等应用程序。例如本申请实施例中，界面的显示以及用户的界面交互可以在应用程序层实现。

应用程序框架层为应用程序层的应用程序提供应用编程接口（applicationprogramming interface，API）和编程框架。应用程序框架层包括一些预先定义的函数。

如图3所示，应用程序框架层可以包括窗口管理器、内容提供器、资源管理器、通知管理器、视觉系统和相机服务等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏、锁定屏幕、触摸屏幕、拖拽屏幕、截取屏幕等。例如本申请实施例中，窗口管理器可以用于实现界面显示的相关操作。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

资源管理器为应用程序提供各种资源，例如本地化字符串、图标、图片、布局文件、视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息、发出提示音、终端设备振动、指示灯闪烁等。

相机服务用于得到摄像头采集的图像，还可以用于提供图像进行处理资源。例如，相机服务可以用于确定图像中的对焦点。

Android runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如: MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层可以包括显示驱动、摄像头驱动、音频驱动、传感器驱动、马达驱动等。

结合上述图2和图3，示例性的说明本申请实施例提供的对焦方法。图4为本申请实施例提供的一种终端设备拍照时对焦的方法流程示意图。

S401、相机应用接收到针对相机应用的触发，调用相机服务。

示例性的，相机应用接收到针对相机应用的触发可以是在终端设备的界面显示相机应用的图标时，终端设备的触摸传感器180K接收到用户针对相机应用的图标的触摸操作。

示例性的，当终端设备的触摸传感器180K接收到针对相机应用的触摸操作时，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用可以调用应用框架层的相机服务，启动相机应用。

S402、相机服务基于相机应用的调用指令，调用摄像头驱动。

示例性的，相机服务可以通过硬件抽象层中摄像头对应的接口调用摄像头驱动。

S403、摄像头驱动启动深度摄像头以及非深度摄像头进行图像采集。

示例性的，深度摄像头可以采集到深度图像1，非深度摄像头可以采集到图像1，图像1没有深度信息。

S404、相机服务得到图像1和对应的深度图像1。

S405、相机服务向相机应用同步图像1。

示例性的，相机服务在接收到摄像头采集的图像1时，可以向相机应用同步图像1，使得在相机应用的界面中显示图像1。

可以理解的是，图像1可以显示在相机应用的界面中的图像显示区域中，相机应用的界面显示图像1时与上述图1中的a所示的界面类似。

S406、相机应用接收到用于对图像1进行对焦的触发操作，调用相机服务。

示例性的，相机服务接收到的用于对图像1进行对焦的触发可参见图1中的a所示的触发操作。

S407、相机服务基于相机应用的调用指令，在深度图像1中确定触发操作对应的位置的初始深度。

示例性的，相机服务可以得到触发操作对应的对焦点的位置，并在深度图像中确定对焦点的位置处的深度。

S408、相机服务调用马达驱动和距离传感器驱动。

S409、马达驱动启动马达带动摄像头移动，距离传感器驱动启动距离传感器对摄像头的位置进行检测。

示例性的，马达可以带动深度摄像头和非深度摄像头移动。在马达带动深度摄像头和非深度摄像头移动的过程中，距离传感器检测深度摄像头和非深度摄像头的位置，使得深度摄像头和非深度摄像头移动至对焦点的位置处的深度对应的位置。

S410、相机服务得到图像2和对应的深度图像2。

本申请实施例中，图像2为图像1的后一帧图像，且图像2为对焦后非深度摄像头采集的图像。

示例性的，图5示出了一种摄像头对焦后采集的图像2的示意图。在图5中，对焦对象处于对焦范围内，可以使得图像2中的对焦对象的清晰度较高。

S411、相机服务向相机应用同步图像2。

示例性的，相机服务在接收到摄像头采集的图像2时，可以向相机应用同步图像2，使得在相机应用的界面中显示图像2。相机应用显示图像2的界面与上述图1中的b所示的界面类似，在此不再赘述。

S412、相机服务在深度图像2中确定对焦点的深度。

S413、相机服务得到图像3和对应的深度图像3。

本申请实施例中，图像3为图像2的下一帧图像，图像3为非深度摄像头采集的，深度图像3为深度图像采集的。

S414、相机服务基于对焦点的深度、图像2、图像3和深度图像3，在图像3中确定新的对焦点，并确定新的对焦点的深度。

示例性的，相机服务确定的新的对焦点处于对焦对象中。

S415、相机服务调用马达带动摄像头移动，并调用距离传感器对摄像头的位置进行检测。

示例性的，马达可以带动深度摄像头和非深度摄像头移动。在马达带动深度摄像头和非深度摄像头移动的过程中，距离传感器检测深度摄像头和非深度摄像头的位置，使得深度摄像头和非深度摄像头移动至对新的焦点的深度对应的位置。

需要说明的是，上述S407、S412-S414是以相机服务确定对焦点为例示例说明，对焦点也可以是相机应用确定的，与相机服务确定对焦点不同的是，相机服务得到深度图像时，需要向相机应用同步深度图像。

下面，结合图6对上述步骤S414进行详细的说明。示例性的，图6为本申请实施例提供的一种通过相机服务确定新的对焦点的方法流程示意图。

S601、相机服务在图像2中确定包括对焦点的部分图像内容的对焦区域，并将对焦区域的图像内容输入神经网络模型1中，得到对焦区域的图像内容对应的特征向量1。

本申请实施例中，神经网络模型1可以为存储在神经网络处理器中的神经网络模型。神经网络模型1可以用于对输入的图像内容进行特征提取，得到图像内容对应的特征向量。

相机服务在图像2中确定对焦区域存在以下两种可能的实现：

一种可能的实现中，相机服务可以按照预先设定的尺寸，以对焦点为中心，在图像2中确定对焦区域，或者，以与对焦点的距离为一定值的任意像素点为中心，在图像2中确定对焦区域。本申请实施例对于预先设定的尺寸不做具体限定。由于对焦点处于对焦对象上，且与对焦点的距离为一定值的任意像素点也处于对焦对象上，这样可以使得确定的对焦区域中包括对焦对象。

另一种可能的实现中，终端设备中可以存储有深度与预设尺寸的对应关系，其中深度与预设尺寸负相关。相机服务可以基于对焦点的深度在对应关系中确定对应的预设尺寸，并按照预设的尺寸，以对焦点为中心，在图像2中确定对焦区域，或者，以与对焦点的距离为一定值的任意像素点为中心，在图像2中确定对焦区域。

由于当对焦点的深度较大时，对焦对象距离摄像头较远，对焦对象在图像2中所占的区域可能较小，当对焦点的深度较小时，对焦对象距离摄像头较近，对焦对象在图像2中所占的区域可能较大。因此，相机服务按照预设尺寸在图像2中确定对焦区域，使得确定的对焦区域中包括对焦对象。而且可以使得非对焦对象在确定的对焦区域中所占的区域较小，可以减少非对焦对象对后续确定新的对焦点造成的影响。

S602、相机服务在图像2中确定与对焦点的深度的差值小于一定值且包含对焦点的区域1，并将区域1和图像2输入神经网络模型2中，得到各像素点的位置的置信度和候选框的尺寸。

本申请实施例中，神经网络模型2可以为存储在神经网络处理器中的神经网络模型。各像素点的位置的置信度用于表示在图像2的下一帧图像中，各位置处的像素点为对焦点的概率。

示例性的，由于对焦点处于对焦对象上，且对焦对象上其他位置的深度与对焦点的深度差距较小，因此，相机服务在图像2中确定的区域1中包括对焦对象。相机服务得到各像素点的位置的置信度和候选框的尺寸的过程可参见图7所示。图7为本申请实施例提供的一种确定置信度和候选框的尺寸的流程示意图。如图7所示，相机服务在图像2中确定的区域1为对焦对象的区域。

S603、相机服务在图像3中确定置信度大于第一预设值的位置处的多个像素点，并在每个像素点的位置按照候选框的尺寸确定候选区域，得到多个候选区域。

示例性的，相机服务在每个像素点的位置按照候选框的尺寸确定候选区域时，可以以各像素点的位置为中心，按照候选框尺寸确定候选区域。图8示出了一种在图像3中确定的候选区域的示意图。可以理解的是，图8所示的候选区域为多个候选区域中的一部分。如图8所示，相机服务确定的候选区域包括对焦对象的部分或者全部。

可以理解的是，图8以候选框为矩形为例进行说明，候选框还可以为圆形，或者其他形状，本申请实施例不做限定。

由于置信度越大表示该位置处的像素点为对焦点的可能性越大，而且对焦点处于对焦对象上，这样，相机服务确定的多个选侯区域中每个候选区域均可能包括对焦对象。

S604、相机服务将多个候选区域中的每个候选区域的图像内容输入神经网络模型1中，得到每个候选区域对应的特征向量2。

S605、相机服务计算多个特征向量2中每个特征向量2与特征向量1之间的相似度，得到多个相似度，并确定相似度大于第二预设值的特征向量2对应的候选区域为目标候选区域。

示例性的，相机服务可以计算各特征向量2和特征向量1之间的余弦相似度。

示例性的，相机服务可以确定相似度大于第二预设值的多个候选区域中的任意一个为目标候选区域，也可以确定相似度最大的候选区域为目标候选区域。

由于特征向量1为包括对焦对象的图像内容对应的特征向量，特征向量2为候选区域的图像内容对应的特征向量，因此，特征向量2和特征向量1的相似度越大，该特征向量2对应的候选区域中对焦对象所占的区域越大，使得在目标候选区域中对焦对象所占的区域较大。

S606、相机服务基于目标候选区域的图像内容中各像素点的深度和各像素点的位置，对目标候选区域进行聚类，得到多个类，每个类对应有一个聚类中心。

本申请实施例中，相机服务得到的每个类对应的区域均为连通的区域。

S607、相机服务在多个聚类中心处的像素点中确定与对焦点的深度差值最小的像素点对应的目标类。

由于各个类对应的区域的图像内容中各像素点的深度与该类的聚类中心处的像素点的深度的差值较小，且对焦对象上各像素点的深度较为接近，因此，相机服务确定聚类中心处的像素点的深度与对焦点的深度最接近的类为目标类，可以在目标候选区域中精准的定位到对焦对象。

S608、相机服务在目标类中确定新的对焦点。

示例性的，相机服务可以确定目标类的聚类中心为新的对焦点。或者，相机服务可以在目标类对应的区域中确定图像内容与对焦点的深度的差值小于第三预设值的区域，确定该区域的中心点处的像素点为新的对焦点，或者确定该区域中与该区域的中心点的距离小于第四预设值的任意一个像素点为新的对焦点。

这样，当终端设备以新的对焦点对图像3进行对焦时，可以使得新的对焦点处于对焦对象上，使得对焦对象的清晰度较高。

示例性的，重复执行上述步骤S410-S415，并采用图6所述的确定新的对焦点的方法，可以实现对对焦对象进行追焦。图9示出了一种追焦过程中可能的图像示意图。

如图9所示，图像B为图像A的后一帧图像，图像C为图像B的后一帧图像，图像D为图像C的后一帧图像。图像A为用户手动选择对焦点后摄像头采集的图像，图像B、图像C和图像D为自动对焦点后摄像头采集的图像。其中，图像B中的对焦点是基于图像A和图像A中的对焦点确定的，图像C中的对焦点是基于图像B和图像B中的对焦点确定的，图像D中的对焦点是基于图像C和图像C中的对焦点确定的。

下面通过具体的实施例对本申请实施例的对焦方法进行详细说明。下面的实施例可以相互结合或独立实施，对于相同或相似的概念或过程可能在某些实施例中不再赘述。图10为本申请实施例提供的一种对焦方法的流程示意图。

如图10所示，该对焦方法可以包括下述步骤：

S1001、终端设备在第N+1帧图像中确定目标区域。

其中，目标区域为第N+1帧图像中，图像内容与目标图像内容相似度高于第一值的区域；目标图像内容为第N帧图像中，包括第N帧图像的对焦点的部分图像内容；N为自然数。

本申请实施例中，第N帧图像可以为摄像头采集的对焦后的任一帧图像，第N+1帧图像可以为第N帧图像的后一帧。第N帧图像的对焦点可以是用户在终端设备的显示界面选择的（例如图1所示），也可以为终端设备根据第N-1帧图像确定的对焦点，本申请实施例对此不做限定。

第一值可以为预先设定的值，本申请实施例对第一值不做具体限定。

示例性的，目标图像内容可以对应于上述实施例中对焦区域的图像内容，目标图像内容所在区域的尺寸可以是预先设定的，也可以是与对焦点的深度相关的尺寸，具体可参见上述实施例所述，在此不再赘述。

示例性的，终端设备在第N+1帧图像中确定目标区域时，可以在第N+1帧图像中确定M个第一区域，并将M个第一区域中图像内容与目标图像内容的相似度高于第一值的区域确定为目标区域。

S1002、终端设备在目标区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域。

本申请实施例中，对焦点的深度为对焦点所在的像素点的深度，可以表示对焦点处的物体与摄像头的距离。目标子区域为目标区域中尺寸小于或等于目标区域的区域。

第二值可以对应于上述实施例所述的第三预设值，可以为预先设定的值，本申请实施例对于第二值不做具体限定。

示例性的，终端设备在目标区域中确定目标子区域时，可以计算目标区域的图像内容中各像素点的深度与对焦点的深度的差值，并将差值小于第二值的像素点组成的区域确定为目标子区域。

S1003、终端设备以目标子区域中的任意位置对第N+1帧图像进行对焦。

本申请实施例中，目标子区域中的任意位置可以为目标子区域的图像内容的多个像素点中的任一个像素点所在的位置。

示例性的，终端设备对第N+1帧图像进行对焦时，终端设备可以确定目标子区域中图像内容的任意一个像素点为新的对焦点，并在第N+1帧图像的深度图像中确定新的对焦点的深度，控制终端设备的摄像头移动至新的对焦点的深度对应的位置。

示例性的，终端设备中可以预先存储有深度与摄像头位置的对应关系，这样，终端设备可以根据新的对焦点的深度在对应关系中确定出摄像头的位置，进而控制摄像头移动到该位置。终端设备控制摄像头移动的过程可参见上述实施例所述，在此不再赘述。

基于此，终端设备可以在第N+1帧图像中的目标区域中，确定图像内容与对焦点的深度较为接近的目标子区域，由于对焦对象的深度在第N帧图像和第N+1帧图像之间的变化较小，因此，目标子区域中包括对焦对象的可能性较大，使得当对焦对象的位置或者形状发生改变时，终端设备可以精准的定位到对焦对象。当终端设备以目标子区域中的任意位置对第N+1帧图像进行对焦时，可以使得新的对焦点处于对焦对象上，使得对焦对象的清晰度较高。

本申请实施例中，为了进一步增大终端设备确定的目标子区域中包括对焦对象的可能性，终端设备可以使用聚类的方法，在目标区域中确定目标子区域。

示例性的，终端设备可以基于目标区域的图像内容中各像素点的深度，对目标区域的图像内容进行聚类，得到L个子区域，并在L个子区域中确定该子区域的聚类中心处的像素点的深度与对焦点的深度的差值最小的第一子区域。进一步的，终端设备可以在第一子区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域。

本申请实施例中，子区域可以对应于上述实施例所述的类。每个子区域对应有聚类中心，L为自然数。第二值可以对应于上述实施例所述的第三预设值，可以为预先设定的值，本申请实施例不做限定。

这样，由于聚类得到的子区域的图像内容的各像素点的深度与聚类中心处的像素点的深度较接近，且对焦对象上的各像素点的深度较为接近，因此，终端设备确定的第一子区域中大部分区域为对焦对象。进一步的，终端设备在第一子区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域，使得目标子区域为对焦对象的区域，可以使得终端设备在第N+1帧图像中定位到对焦对象。

在终端设备确定目标子区域之后，可以以目标子区域中的任意位置对第N+1帧图像进行对焦。示例性的，终端设备以目标子区域中的任意位置对第N+1帧图像进行对焦时，可以包括以下几种可能的实现：

一种可能的实现中，终端设备可以确定目标子区域的中心点处的像素点为新的对焦点，并以新的对焦点对第N+1帧图像进行对焦。

示例性的，若目标子区域的中心点处于多个像素点相邻的位置，终端设备以多个像素点中的任一个像素点为新的对焦点对第N+1帧图像进行对焦。

由于目标子区域中包括对焦对象，则目标子区域的中心点处的像素点新的对焦点处于对焦对象上。这样，当终端设备以新的对焦点对第N+1帧图像进行对焦时，可以使得对焦对象的清晰度较高。

另一种可能的实现中，终端设备可以确定目标子区域中与目标子区域的中心点的距离小于第三值的任意像素点为新的对焦点，并以新的对焦点对第N+1帧图像进行对焦。

本申请实施例中，第三值可以对应于上述实施例所述的第四预设值，可以为预先设定的，本申请实施例不做限定。

由于目标子区域中包括对焦对象，则与目标子区域的中心点的距离小于第三值的任意像素点处于对焦对象上，这样，当终端设备以新的对焦点对第N+1帧图像进行对焦时，可以使得对焦对象的清晰度较高。

再一种可能的实现中，终端设备确定第一子区域时，终端设备可以确定第一子区域的聚类中心为新的对焦点，并以新的对焦点对第N+1帧图像进行对焦。这样，当终端设备以聚类中心处的像素点对第N+1帧图像进行对焦时，聚类中心处的像素点处于对焦对象上，可以使得对焦对象的清晰度较高。

在本申请实施例中，终端设备在目标区域中确定目标子区域之前，需要在第N+1帧图像中确定目标区域。图11为本申请实施例提供的一种终端设备在第N+1帧图像中确定目标区域的方法流程示意图。

如图11所示，终端设备在第N+1帧图像中确定目标区域可以包括如下步骤：

S1101、终端设备对第N帧图像进行处理，确定第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸。

本申请实施例中，置信度表示第N+1帧图像中各位置的像素点为对焦点的概率。第一尺寸可以对应于上述实施例中的候选框尺寸。

示例性的，终端设备确定第N+1帧图像中各像素点的位置的置信度以及第一尺寸可以包括：终端设备可以在第N帧图像中确定与对焦点的深度的差值小于第五值且包含对焦点的第二区域；并将第二区域的图像内容和第N帧图像输入第二神经网络模型，得到第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸。

本申请实施例中，第二区域为连通的区域。第二神经网络模型可以对应于上述实施例所述的神经网络模型2，可以为用于进行目标检测的神经网络模型，本申请实施例对此不做具体限定。

这样，终端设备通过对第N+1帧图像中各像素点的位置可能为对焦点的概率进行预测，可以减少后续终端设备在第N+1帧图像中确定多个第一区域的计算量。

S1102、终端设备基于第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸，在第N+1帧图像中确定M个第一区域。

其中，M为自然数，本申请实施例对于M的数值不做限定。第一区域可以对应于上述实施例中的候选区域。

示例性的，终端设备可以在第N+1帧图像中确定置信度大于第四值的M个像素点，并以M个像素点中各像素点的位置为中心，确定M个第一尺寸的第一区域。

本申请实施例中，第四值可以对应于上述实施例所述的第一预设值，可以为预先设定的数值，本申请实施例对于第四值不做具体限定。

这样，终端设备在置信度大于第四值的像素点的位置确定第一区域，由于置信度越大表示该位置的像素点为对焦点的概率越大，而且对焦点处于对焦对象上，使得第一区域中包括对焦对象的可能性较大。

S1103、终端设备确定M个第一区域中各第一区域的图像内容与目标图像内容之间的相似度。

示例性的，终端设备可以将目标图像内容输入第一神经网络模型，得到第一特征向量，并将M个第一区域中各第一区域的图像内容输入第一神经网络模型，得到M个第二特征向量。进一步的，终端设备可以计算第一特征向量和各第二特征向量之间的相似度。

本申请实施例中，第一神经网络模型可以对应于上述实施例所述的神经网络模型2，可以用于对图像内容进行特征提取得到特征向量。图像内容的特征向量对应的特征值可以是与图像内容对应的向量编码。

示例性的，终端设备可以计算第一特征向量和各第二特征向量之间的余弦相似度。

这样，通过神经网络模型提取的特征向量包含图像内容的信息较多，使得利用特征向量计算的相似度的准确度更高，可以增大确定的目标区域中包括对焦对象的可能性。

S1104、终端设备在M个第一区域中确定相似度满足第一预设条件的目标区域。

示例性的，终端设备在M个第一区域中确定目标区域时，存在下述两种可能的实现：

一种可能的实现中，终端设备可以在M个第一区域中确定相似度高于第一值的区域中的任意区域为目标区域。由于相似度越高表示该区域中对焦对象所占的区域越大，因此，终端设备确定相似度高于第一值的区域中的任意区域为目标区域，使得目标区域中对焦对象所在的区域较大。

另一种可能的实现中，终端设备可以在M个区域中确定相似度最大的区域为目标区域。由于相似度越高表示该区域中对焦对象所占的区域越大，这样，终端设备确定相似度最大的区域为目标区域，使得目标区域为包括对焦对象所占的区域最大的区域。

基于此，终端设备在第N+1帧图像中确定M个可能包括对焦对象的第一区域之后，再从M个第一区域中确定图像内容与第N帧图像中对焦点的部分图像内容之间的相似度较高的目标区域，使得确定的目标区域中对焦对象所占的区域较大。

为了便于理解本申请实施例提供的对焦方法，下面，以终端设备在T时刻得到第T帧图像，在T+1时刻得到第T+1帧图像为例进行说明，其中，第T帧图像为前一帧图像，第T+1帧图像为后一帧图像。

示例性的，图12为本申请实施例提供的一种在T时刻对第T帧图像进行处理的流程示意图。如图12所示，当终端设备在T时刻得到第T帧图像时，终端设备以第T帧图像中的对焦点为中心，在第T帧图像中确定尺寸为a×b的区域。进一步的，终端设备可以提取尺寸为a×b的区域的图像内容的特征，得到特征向量，并确定对焦点的深度。

本申请实施例中，尺寸为a×b的区域可以对应于上述实施例中的对焦区域或者目标图像内容对应的区域。终端设备提取尺寸为a×b的区域的图像内容的特征得到特征向量，以及确定对焦点的深度的方法可参见上述实施例所述，在此不再赘述。

示例性的，图13为本申请实施例提供的一种在T+1时刻在第T+1帧图像中确定新的对焦点的流程示意图。

如图13所示，当终端设备在T+1时刻得到第T+1帧图像时，终端设备可以执行下述步骤：

S1301、终端设备在第T+1帧图像中确定多个预选框。

本申请实施例中，预选框可以对应于上述实施例的第一区域或候选区域。

S1302、终端设备提取每个预选框的图像内容的特征，得到每个预选框的特征向量。

S1303、终端设备计算每个预选框的特征向量和T时刻计算的尺寸为a×b的区域的特征向量之间的相似度。

S1304、终端设备选取相似度最大的预选框为目标预选框。

本申请实施例中，目标预选框可以对应于上述实施例的目标区域或目标候选区域。

S1305、终端设备在深度图像中对目标预选框所在的位置的深度进行聚类，得到每一类对应的聚类中心。

S1306、终端设备将摄像头对焦到与T时刻的对焦点的深度最接近的聚类中心所在的位置。

图13中的各个步骤的具体过程均可参见上述实施例的相关描述，在此不再赘述。

综上所述，终端设备可以先在第T+1帧图像中确定出与对焦点所在的区域相似度最高的目标预选框，可以实现对图像的粗粒度匹配，确定对焦对象所在的区域。终端设备再基于目标预选框中各像素点的深度对目标预选框进行聚类，将摄像头对焦到与T时刻对焦点的深度最接近的聚类中心所在的位置，实现对目标预选框进行细粒度匹配，确定对焦对象所处的位置，使得当对焦对象的位置或者形状发生改变时，终端设备可以准确定位到对焦对象，使得对焦后对焦对象的清晰度较高。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的方法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对实现对焦方法的装置进行功能模块的划分，例如可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图14为本申请实施例提供的另一种终端设备的硬件结构示意图，如图14所示，该终端设备包括处理器1401，通信线路1404以及至少一个通信接口（图14中示例性的以通信接口1403为例进行说明）。

处理器1401可以是一个通用中央处理器（central processing unit，CPU），微处理器，特定应用集成电路（application-specific integrated circuit，ASIC），或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1404可包括在上述组件之间传送信息的电路。

通信接口1403，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线局域网（wireless local area networks，WLAN）等。

可能的，该终端设备还可以包括存储器1402。

存储器1402可以是只读存储器（read-only memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（electrically erasable programmable read-only memory，EEPROM）、只读光盘（compactdisc read-only memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路1404与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1402用于存储执行本申请方案的计算机执行指令，并由处理器1401来控制执行。处理器1401用于执行存储器1402中存储的计算机执行指令，从而实现本申请实施例所提供的对焦方法。

可能的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器1401可以包括一个或多个CPU，例如图14中的CPU0和CPU1。

在具体实现中，作为一种实施例，终端设备可以包括多个处理器，例如图14中的处理器1401和处理器1405。这些处理器中的每一个可以是一个单核（single-CPU）处理器，也可以是一个多核（multi-CPU）处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据（例如计算机程序指令）的处理核。

如图15为本申请实施例提供的一种芯片的结构示意图。芯片150包括一个或两个以上（包括两个）处理器151、通信线路152、通信接口153和存储器154。

在一些实施方式中，存储器154存储了如下的元素：可执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

上述本申请实施例描述的方法可以应用于处理器151中，或者由处理器151实现。处理器151可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器151中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器151可以是通用处理器（例如，微处理器或常规处理器）、数字信号处理器（digitalsignal processing，DSP）、专用集成电路（application specific integrated circuit，ASIC）、现成可编程门阵列（field-programmable gate array，FPGA）或者其他可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件，处理器151可以实现或者执行本申请实施例中的公开的各处理相关的方法、步骤及逻辑框图。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。其中，软件模块可以位于随机存储器、只读存储器、可编程只读存储器或带电可擦写可编程存储器（electricallyerasable programmable read only memory，EEPROM）等本领域成熟的存储介质中。该存储介质位于存储器154，处理器151读取存储器154中的信息，结合其硬件完成上述方法的步骤。

处理器151、存储器154以及通信接口153之间可以通过通信线路152进行通信。

在上述实施例中，存储器存储的供处理器执行的指令可以以计算机程序产品的形式实现。其中，计算机程序产品可以是事先写入在存储器中，也可以是以软件形式下载并安装在存储器中。

本申请实施例还提供一种计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL）或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。例如，可用介质可以包括磁性介质（例如，软盘、硬盘或磁带）、光介质（例如，数字通用光盘（digital versatile disc，DVD））、或者半导体介质（例如，固态硬盘（solid state disk，SSD））等。

本申请实施例还提供一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

作为一种可能的设计，计算机可读介质可以包括紧凑型光盘只读储存器（compactdisc read-only memory，CD-ROM）、RAM、ROM、EEPROM或其它光盘存储器；计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且，任何连接线也可以被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，DSL或无线技术（如红外，无线电和微波）从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘（CD），激光盘，光盘，数字通用光盘（digital versatile disc，DVD），软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。

本申请实施例是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

Claims

1.一种对焦方法，其特征在于，应用于终端设备，所述方法包括：

在第N+1帧图像中确定目标区域；所述目标区域为所述第N+1帧图像中，图像内容与目标图像内容相似度高于第一值的区域；所述目标图像内容为第N帧图像中，包括所述第N帧图像的对焦点的部分图像内容；所述N为自然数；

在所述目标区域中确定图像内容与所述对焦点的深度的差值小于第二值的目标子区域；

以所述目标子区域中的任意位置对所述第N+1帧图像进行对焦。

2.根据权利要求1所述的方法，其特征在于，所述在所述目标区域中确定图像内容与所述对焦点的深度的差值小于第二值的目标子区域，包括：

基于所述目标区域的图像内容中各像素点的深度，对所述目标区域的图像内容进行聚类，得到L个子区域，其中，每个子区域对应有聚类中心，所述L为自然数；

在所述L个子区域中确定聚类中心处的像素点的深度与所述对焦点的深度的差值最小的第一子区域；

在所述第一子区域中确定图像内容与所述对焦点的深度的差值小于第二值的目标子区域。

3.根据权利要求1所述的方法，其特征在于，所述以所述目标子区域中的任意位置对所述第N+1帧图像进行对焦，包括：

以所述目标子区域的中心点处的像素点对所述N+1帧图像进行对焦；或者，以所述目标子区域中与所述目标子区域的中心点的距离小于第三值的任意像素点对所述第N+1帧图像进行对焦。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述在第N+1帧图像中确定目标区域，包括：

将所述目标图像内容输入第一神经网络模型，得到第一特征向量；

在第N+1帧图像中确定M个第一区域；所述M为自然数；

将所述M个第一区域中各第一区域的图像内容输入所述第一神经网络模型，得到M个第二特征向量；

计算所述第一特征向量和各所述第二特征向量之间的相似度；

在所述M个第一区域中确定相似度满足第一预设条件的目标区域。

5.根据权利要求4所述的方法，其特征在于，所述在所述M个第一区域中确定相似度满足第一预设条件的目标区域，包括：

在所述M个第一区域中确定相似度高于所述第一值的区域中的任意区域为所述目标区域，或者，在所述M个区域中确定相似度最大的区域为所述目标区域。

6.根据权利要求4所述的方法，其特征在于，所述在第N+1帧图像中确定M个第一区域，包括：

确定所述第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸；所述置信度表示所述位置的像素点为所述对焦点的概率；

在所述第N+1帧图像中确定置信度大于第四值的M个像素点；

以所述M个像素点中各像素点的位置为中心，确定M个所述第一尺寸的第一区域。

7.根据权利要求6所述的方法，其特征在于，所述确定所述第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸，包括：

在所述第N帧图像中确定与所述对焦点的深度的差值小于第五值且包含所述对焦点的第二区域；

将所述第二区域的图像内容和所述第N帧图像输入第二神经网络模型，得到所述第N+1帧图像中各像素点的位置的置信度以及区域的第一尺寸。

8.一种对焦装置，其特征在于，包括：

处理单元，用于在第N+1帧图像中确定目标区域；目标区域为第N+1帧图像中，图像内容与目标图像内容相似度高于第一值的区域；目标图像内容为第N帧图像中，包括第N帧图像的对焦点的部分图像内容；N为自然数；

所述处理单元，还用于在目标区域中确定图像内容与对焦点的深度的差值小于第二值的目标子区域；

所述处理单元，还用于以目标子区域中的任意位置对第N+1帧图像进行对焦。

9.一种终端设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有指令，当所述指令被执行时，使得计算机执行如权利要求1-7任一项所述的方法。