CN115623317B

CN115623317B - 一种对焦的方法、设备及存储介质

Info

Publication number: CN115623317B
Application number: CN202211634431.4A
Authority: CN
Inventors: 姚洋; 张�成; 杨建权; 罗材
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-28
Anticipated expiration: 2042-12-19
Also published as: CN115623317A

Abstract

本申请实施例提供一种对焦的方法、设备及存储介质，应用于对焦场景中，通过分离电子设备的使用者的虹膜图像中的成像信息；根据所述成像信息，生成注意力图；将所述注意力图与所述电子设备的取景框中的画面进行比对，确定对焦信息；基于所述对焦信息调节所述电子设备，并通过调节后的电子设备进行对焦，获得对焦图像。由于成像信息是用户眼中实际看到的画面在虹膜中的成像，能反映出用户的实际对焦信息，以从虹膜图像中提取的成像信息作为依据，来确定对焦信息，可以有效提高对焦的准确性，得到符合用户预期的图像或视频。

Description

一种对焦的方法、设备及存储介质

技术领域

本申请涉及电子技术领域，尤其涉及一种对焦的方法、设备及存储介质。

背景技术

对焦，又称对光或对焦，通常指通过照相机对焦机构调整物距和相距的位置，使被拍物成像清晰的过程，而对焦的准确率对获得的图像的质量、效果具有很大程度的影响。早期的电子设备通常需要通过手动的方式进行对焦，对焦的准确率依赖于用户对取景框中的画面的判别以及用户自身的拍摄能力。随着智能化技术的发展，电子设备可以实现自动对焦。

然而现有的自动对焦方法通常基于双眼的眼部图像获得双眼的视线，根据双眼的视线交点来判断人眼注意力，进而实现对焦。然而由于现有的方法均属于采用了间接的方法进行人眼注意力判断，导致其对焦准确率较低。

发明内容

本申请提供的一种对焦的方法、设备及存储介质，目的在于解决对焦准确率低的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面：在对焦的场景中，分离电子设备的使用者的虹膜图像中的成像信息，根据分离出的成像信息，生成注意力图。将该注意力图与该电子设备的取景框中的画面进行比对，确定出对焦信息。基于该对焦信息对电子设备进行调节，并通过调节后的电子设备进行对焦，获得对焦图像。

在本申请实施例中，从电子设备的使用者的虹膜图像中分离出的成像信息，是用户眼中实际看到的画面在虹膜中的成像，能反映出用户的实际对焦信息。进而以从虹膜图像中提取的成像信息作为依据，来确定对焦信息，可以有效提高对焦的准确性，使得获得的对焦图像符合用户预期。同时，本申请中不限于通过获取双眼的眼部图像实现对焦，通过一只眼的眼部图像也可确定出对焦信息，进而实现对焦，从而拓展了对焦的应用范围。

在一种可能的实现方式中，通过计算注意力图与该取景框中的画面中各个区域的相似度，可以得到各个区域中与该注意力图相似度最高的区域。根据该相似度最高的区域，确定对焦信息。

在一种可能的实现方式中，分别对注意力图与电子设备的取景框中的画面进行特征提取，对提取的注意力图的特征与所述取景框中的画面的特征进行高维特征压缩，根据压缩后的注意力图的特征和压缩后的取景框中的画面的特征，确定对焦信息。基于深度学习确定对焦信息的方法，提高了确定对焦信息的效率以及准确率。

在一种可能的实现方式中，对电子设备的使用者的虹膜图像进行光流计算，确定瞳孔状态，瞳孔状态为收缩状态时，表示电子设备的使用者的眼睛处于对焦状态，从瞳孔状态为收缩状态的虹膜图像中，分离成像信息。

在一种可能的实现方式中，从瞳孔状态为收缩状态的虹膜图像中分解出反射层光流向量，根据虹膜图像和反射层光流向量进行反射层图重建，获得成像信息。

在一种可能的实现方式中，根据虹膜图像和反射层光流向量进行反射层图重建，获得预测的反射层图，对预测的反射层图进行光流细化，获得更新后的反射层光流向量，根据所述更新后的反射层光流向量以及虹膜图像进行反射层图重建，获得成像信息。由于对预测的反射层图进行了光流细化，可以得到精确度更高的成像信息。

在一种可能的实现方式中，对所述成像信息进行超分处理，获得处理后的成像信息，根据处理后的成像信息，生成注意力图。通过对成像信息进行超分处理，可以提升成像信息的清晰度。由清晰度更高的成像信息生成注意力图，确定对焦信息，可以提高对焦的准确性。

在一种可能的实现方式中，对电子设备的使用者的眼部图像进行特征提取，对提取出的特征进行缩放式特征提取，对通过缩放式特征提取得到的特征进行眼部关键点热图预测，获得眼部关键点的坐标，根据所述眼部关键点的坐标，从眼部图像中提取虹膜图像。基于眼部关键点检测的方法，可以从眼部图像中精确的提取出虹膜图像，进而有助于提高对焦的准确性。

第二方面：一种计算机设备，该计算机设备包括处理器以及存储器：存储器用于存储程序代码，并将程序代码传输给处理器，处理器用于根据程序代码中的指令执行如上所述的一种对焦的方法的步骤。

第三方面：一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上所述的一种对焦的方法的步骤。

应当理解的是，本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反，可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。

附图说明

图1为本申请实施例适用的一种应用场景示意图；

图2为本申请实施例提供的一种获取眼部图像的示意图；

图3为本申请实施例适用的另一种应用场景示意图；

图4为本申请实施例提供的一种电子设备的结构示意图；

图5为本申请实施例提供的一种电子设备的软件结构框图；

图6为本申请实施例提供的一种眼部图像示意图；

图7为本申请实施例提供的一种关键点标注示意图；

图8为本申请实施例提供的一种眼部关键点检测的模型结构示意图；

图9为本申请实施例提供的一种确定对焦信息的流程图；

图10为本申请实施例提供的一种超分模型的网络结构示意图；

图11为本申请实施例提供的一种注意力图与取景框中的画面比对的示意图；

图12为本申请实施例提供的一种基于深度网络的注意力分离模型示意图。

具体实施方式

本申请说明书和权利要求书及附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

目前有许多基于人眼注意力实现对焦的方法，然而其均属于间接的方法进行人眼注意力判断，例如根据双眼的视线来判断人眼注意力，进而实现对焦，其往往存在对焦准确率低的问题。同时，由于需要采集双眼的眼部图像才可实现对焦，从技术实现上对于对焦时用户的双眼位置以及用户姿态都有一定要求。例如用户双眼非完全对称的情况下，可能导致现有的对焦方法失效或对焦不准确。此外，许多现有的方法中，还需要借助如原深感镜头（Tof）、三维结构光等硬件设备来实现对焦，因此硬件成本较高。

基于此，本申请提出一种新的解决方案实现准确率和可靠性更高的对焦。通过从电子设备的使用者的眼部图像中提取出虹膜图像，再从虹膜图像中分离出成像信息，将根据成像信息生成的注意力图与取景框中的画面进行比对，确定对焦信息。其中，电子设备的使用者指当前使用该电子设备的用户。由于成像信息是用户眼中实际看到的画面在虹膜中的成像，能反映出用户的实际对焦信息，以从虹膜图像中提取的成像信息作为依据，来确定对焦信息，可以有效提高对焦的准确性，得到符合用户预期的图像或视频。同时，不限于通过获取双眼的眼部图像实现对焦，本申请中通过一只眼的眼部图像也可确定出对焦信息，进而实现对焦，从而拓展了对焦的应用范围。

应用场景一：

图1为本申请实施例适用的一种应用场景示意图。参照图1，该场景中包括电子设备1101和摄像头1102。图1中以电子设备1101为单反相机为例进行说明。摄像头1102可以向电子设备1101提供输入，即提供眼部图像，电子设备1101基于摄像头1102的输入，执行响应于该输入的操作。

用户利用单反相机拍照时，一只眼睛透过取景框看外部场景，进行对焦拍照时，取景框位置装有摄像头，该摄像头用于获取眼部图像，如图2所示，图2为本申请实施例提供的一种获取眼部图像的示意图。外部场景中的光通过电子设备中的摄像镜头进入电子设备内部，通过反光板反射到聚光透镜，通过聚光透镜进入五棱镜，再经五棱镜反射到取景框，用户将眼睛可以通过取景框看到外部场景，用户的眼中具有外部场景的成像。此时，位于取景框处的摄像头可以拍得用户的眼部图像，将该眼部图像作为单反相机的输入，基于眼部关键点检测算法，可以从眼部图像中提取出虹膜图像。

根据用户的瞳孔状态可以判断出用户的眼睛是否进行了对焦，其中瞳孔状态可以包括瞳孔收缩以及瞳孔舒张，当瞳孔收缩时，表示此时用户的眼睛进行了对焦，其注意力集中在了某一区域；而当瞳孔舒张时，表示此时用户的眼睛可能处于失焦状态，没有进行对焦。由此可以在用户的瞳孔属于收缩状态时，将此时虹膜图像中的成像信息分离出来。具体地，基于提取出的相邻两帧的虹膜图像，进行光流计算，可以判断瞳孔是否收缩，若瞳孔收缩，则从虹膜图像中分离出成像信息。基于光流去反射法将成像信息从虹膜图像中提取出来，根据成像信息生成注意力图。具体地，可以将瞳孔区域的成像信息作为用户关注的信息，由瞳孔区域的成像信息生成注意力图，将注意力图与单反相机取景框中的画面进行比对，获得对焦信息。进而单反相机可以基于该对焦信息调节单反相机，并通过调节后的单反相机进行对焦，获得对焦图像。无需用户进行手动对焦，避免了在拍摄快速移动物体时手动对焦速度慢，或者由于相机抖动出现的失焦等问题。同时，以从虹膜图像中提取的成像信息作为确定对焦信息的依据，提升了电子设备对焦的准确性，可以获得符合用户预期的图像或视频。

应用场景二：

图3为本申请实施例适用的另一种应用场景示意图。参照图3，该场景中包括电子设备1201和摄像头1202。图3中以电子设备1201为虚拟现实或增强现实设备为例进行说明。摄像头1202可以向电子设备1201提供输入，电子设备1201基于摄像头1202的输入，执行响应于该输入的操作。

用户戴上虚拟现实（Virtual Reality，VR）设备或增强现实（Augmented Reality，AR）设备后，设备的摄像头1202采集用户的双眼图像，电子设备1201基于该双眼的眼部图像，从双眼的眼部图像中提取出虹膜图像，在判断出瞳孔收缩的情况下，对提取出的虹膜图像进行成像信息分离，基于光流去反射法将成像信息从虹膜图像中提取出来，根据提取出的成像信息生成注意力图。具体地，可以将瞳孔区域的成像信息作为用户关注的信息，生成注意力图。将注意力图与虚拟现实或增强现实设备提供的画面进行比对，获得对焦信息，进而虚拟现实设备或增强现实设备可以基于该对焦信息进行调节，并通过调节后的虚拟现实设备或增强现实设备进行对焦，生成符合用户预期的图像或视频。

在一些其他的实施例中，电子设备还可以是手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机（Ultra-mobile Personal Computer，UMPC）、手持计算机、上网本、个人数字助理（Personal Digital Assistant，PDA）、智能手表等具有摄像功能和运算处理功能的设备，本申请对上述电子设备的具体形式不做特殊限制。在本实施例中，电子设备的结构可以如图4所示，图4为本申请实施例提供的一种电子设备的结构示意图。

如图4所示，电子设备可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universal serial bus，USB）接口130，传感器模块150，摄像头141以及显示屏142等。其中传感器模块150可以包括陀螺仪传感器150A，距离传感器150B，指纹传感器150C，环境光传感器150D等。

可以理解的是，本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器（application processor，AP），调制解调处理器，图形处理器（graphics processingunit，GPU），图像信号处理器（image signal processor，ISP），控制器，视频编解码器，数字信号处理器（digital signal processor，DSP），基带处理器，和/或神经网络处理器（neural-network processing unit，NPU）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

例如，在本申请中，可以处理器110可以基于光流去反射法，从虹膜图像中提取出成像信息，根据提取出的成像信息生成注意力图，将注意力图与取景框中的画面进行比对，在电子设备的取景框中的画面中找出与注意力图相似度匹配的区域，确定对焦信息。

其中，控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

MIPI接口可以被用于连接处理器110与显示屏142，摄像头141等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头141通过CSI接口通信，实现电子设备的拍摄功能。处理器110和显示屏142通过DSI接口通信，实现电子设备的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头141，显示屏142，传感器模块150等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备充电，也可以用于电子设备与外围设备之间传输数据。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备的结构限定。在本申请另一些实施例中，电子设备也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

电子设备通过GPU，显示屏142，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏142和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏142用于显示图像，视频等。显示屏142包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oled，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备可以包括1个或N个显示屏142，N为大于1的正整数。

电子设备的显示屏142上可以显示一系列图形用户界面（graphical userinterface，GUI），这些GUI都是该电子设备的主屏幕。一般来说，电子设备的显示屏142的尺寸是固定的，只能在该电子设备的显示屏142中显示有限的控件。控件是一种GUI元素，它是一种软件组件，包含在应用程序中，控制着该应用程序处理的所有数据以及关于这些数据的交互操作，用户可以通过直接操作（direct manipulation）来与控件交互，从而对应用程序的有关信息进行读取或者编辑。一般而言，控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

电子设备可以通过ISP，摄像头141，视频编解码器，GPU，显示屏142以及应用处理器等实现拍摄功能。

ISP 用于处理摄像头141反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头141中。

摄像头141用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备可以包括1个或N个摄像头141，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样，电子设备可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将图像视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备的各种功能应用以及数据处理。例如，在本申请实施例中，处理器110可以通过执行存储在内部存储器121中的指令，将注意力图与取景框中的画面进行对比，获得对焦信息。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如拍照功能，图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如眼部图像、虹膜图像等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备的各种功能应用以及数据处理。

陀螺仪传感器150A可以用于确定电子设备的运动姿态。在一些实施例中，可以通过陀螺仪传感器150A确定电子设备围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器150A可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器150A检测电子设备抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备的抖动，实现防抖。陀螺仪传感器150A还可以用于导航，体感游戏场景。

距离传感器150B，用于测量距离。电子设备可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备可以利用距离传感器150B测距以实现快速对焦。

环境光传感器150D用于感知环境光亮度。电子设备可以根据感知的环境光亮度自适应调节显示屏142亮度。环境光传感器150D也可用于拍照时自动调节白平衡。

指纹传感器150C用于采集指纹。电子设备可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照等。

另外，在上述部件之上，运行有操作系统。例如苹果公司所开发的iOS操作系统，谷歌公司所开发的Android开源操作系统，微软公司所开发的Windows操作系统等。在该操作系统上可以安装运行应用程序。

电子设备的操作系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备的软件结构。

图5是本申请实施例提供的一种电子设备的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。如图5所示，应用程序包可以包括相机，图库，视频等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。如图5所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，浏览历史等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括图像已保存的显示界面，可以包括显示图片的视图。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，已保存等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

媒体库支持多种常用的视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如: MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，传感器驱动。

需要说明的是，本申请实施例虽然以Android系统为例进行说明，但是其基本原理同样适用于基于iOS、Windows等操作系统的电子设备。

本申请实施例提供一种对焦的方法，通过分离电子设备的使用者的虹膜图像中的成像信息，在由该成像信息生成注意力图后，将注意力图与该电子设备的取景框中的画面进行比对，在取景框中的画面中找出与注意力图相似度匹配的区域，根据该区域的信息，确定对焦信息。由于成像信息是眼部成像的结果，能真实反映用户实际关注的信息，从而以从虹膜图像中提取的成像信息作为依据确定对焦信息，可以提升对焦准确率，获得符合用户预期的画面。

如图6所示，该图为本申请实施例提供的一种眼部图像示意图，其中主要包括眼白1301、虹膜1302、瞳孔1303、眼周区域1304以及成像信息1305。用户的虹膜图像至少需要包括虹膜1302以及瞳孔1303所覆盖的区域，其中该区域中包含成像信息1305，该成像信息1305是用户眼中实际看到的画面在虹膜中的成像，能反映出用户的实际对焦信息，示例性的，当用户眼中看到了房子，则在用户的虹膜中会呈现出与用户眼中看到的房子成比例缩小的像，如图6中的成像信息1305所示。

具体地，以单反相机为例，通过前端的微型摄像头采集用户眼部图像，该眼部图像可以是红绿蓝（RGB）图、灰度图或者红外（IR）图像等。在获得用户的眼部图像后，可以通过眼部关键点检测的方法从眼部图像中提取虹膜图像。

眼部关键点检测的方法，是基于深度学习模型对虹膜图像进行提取的方法，其需要足量的样本作为训练集，并利用图像标注工具对眼部图像进行标注。示例性的，图7所示为本申请实施例提供的一种关键点标注示意图。图7中包括32个虹膜边缘关键点1401、7个眼角关键点1402，以及16个眼睑部位关键点1403。基于训练集与训练模型进行训练，获得关键点检测模型。将训练好的关键点检测模型部署在电子设备中，从而可以对该电子设备获取的每帧的眼部图像，进行眼部关键点检测，利用检测到的眼部关键点信息进行虹膜图像提取。需要说明的是，本申请实施例中对各类眼部关键点的数量不作具体限定。

在本申请提供的一种实施例中，眼部关键点信息可以是如图7中所示的32个虹膜边缘关键点的信息，基于该32个虹膜边缘关键点，进行虹膜图像提取。将眼部图像输入一层卷积网络（conv）进行特征提取，将提取出的特征输入两层沙漏网络（HourGlass网络）进行缩放式特征提取，并对HourGlass网络输出的特征，通过关键点热图（landmark heatmaps）网络进行虹膜边缘关键点预测，得到虹膜边缘关键点的坐标。进而，基于虹膜边缘关键点的坐标，可以从眼部图像中提取虹膜图像。

其中，训练模型中的损失函数是基于虹膜边缘关键点坐标计算的均方差损失。关键点热图网络中，可以对眼部图像中的每个像素位置都给一个概率，表示该点属于对应类别关键点的概率，距离眼部关键点位置越近的像素点的概率越接近1，距离眼部关键点越远的像素点的概率越接近0。示例性的，在本申请实施例中眼部关键点的类别包括虹膜边缘关键点、眼角关键点，以及眼睑部位关键点。关键点热图网络可以直接回归出每一类关键点的概率，在一定程度上每一个点都提供了监督信息，使得其能够较快的收敛，同时通过对每一个像素位置进行预测，提高了关键点的定位精度。从而基于该虹膜边缘关键点进行虹膜图像提取，可以提高对虹膜图像提取的准确性，使得虹膜图像的提取更加精确。

在本申请提供的另一实施例中，眼部关键点信息可以是如图7中所示的虹膜边缘关键点、眼角关键点、以及眼睑部位关键点的信息。基于虹膜边缘关键点、眼角关键点以及眼睑部位关键点进行虹膜图像的提取，有助于提高虹膜图像提取的准确性。如图8所示，该图为本申请实施例提供的一种眼部关键点检测的模型结构示意图。将眼部图像输入一层卷积网络进行特征提取，将提取出的特征输入HourGlass网络进行缩放式特征提取，并对HourGlass网络输出的特征，通过关键点热图网络对该55个关键点进行预测，得到该55个关键点的坐标点。其中，训练模型中的损失函数是基于关键点坐标计算的均方差损失。在得到该55个关键点的坐标点后，可以基于该55个关键点进行虹膜图像提取。由于除了对虹膜边缘关键点进行了检测，还对眼角关键点以及眼睑部位关键点进行了检测，保留了更多的相对位置信息，进一步提高了虹膜关键点检测的准确性，进而可以提取出更加精准的虹膜图像。需要说明的是，本申请实施例中对各类眼部关键点的数量不作具体限定。

根据眼部关键点检测算法可以检测出眼部关键点，根据检测出的眼部关键点，可以提取出虹膜图像。具体的，对相邻两帧的虹膜图像进行光流计算，可以获得瞳孔状态，瞳孔状态包括瞳孔收缩和瞳孔舒张。

其中，光流计算，是空间移动物体在像素观察平面中移动的瞬时速度，是一种计算物体在相邻帧间运动信息的方法。光线经物体反射后进入人眼，可以在人眼的视网膜上形成不断变化的、连续的图像，因而直观上可以将这理解为一种由光线形成的流，即光流。光流是一个有方向、有长度的矢量，其中包含了运动目标的信息，反映了图像的变化过程，因此可以从光流中来寻找运动目标。

光流计算的目的是根据连续两帧图像来求解对应像素的运动速度（或偏移量）。示例性的，根据相邻两帧的虹膜图像，通过光流计算，可以判断出瞳孔是否收缩，若判断出瞳孔属于舒张状态，可以认为瞳孔并未对焦，无需对该虹膜图像进行处理；若判断出瞳孔属于收缩状态，可以认为瞳孔进行了对焦，可以对该帧的虹膜图像进行成像信息的提取。

对瞳孔收缩的情况下的虹膜图像进行成像信息的提取，具体的，可以通过基于光流去反射法的成像信息分离模型从虹膜图像中提取出成像信息。其中，虹膜图像中包括虹膜背景信息以及成像信息。虹膜背景信息为固定信息，不会随着取景框中的画面的变化而发生改变。成像信息为用户看取景框中的画面时，该取景框中的画面在用户虹膜中的成像，其会随着取景框中的画面的变化而发生改变，同时也会随着用户的注意力的变化而发生改变，例如用户对于取景框中的画面中的关注区域不同，成像信息也会不同。从而可以根据成像信息生成注意力图。

基于光流去反射法的成像信息分离模型，至少包括光流分解模型和反射层重建网络。其中光流分解模型包含两个子模块，即特征提取模型以及层光流估计模型。将两张相邻帧的虹膜图像输入特征提取模型进行特征提取，将特征提取模型输出的特征输入层光流估计模型，进而可以得到背景层光流向量和反射层光流向量。在获得反射层光流向量之后，根据两张相邻帧的虹膜图像和反射层光流向量进行反射层图重建，可以获得成像信息。

示例性的，成像信息分离模型中，特征提取模型中包含8个卷积层，卷积核大小均为3×3，输出数量分别是16、16、32、32、64、64、96和96，步长（stride）分别为2、1、2、1、2、1、2以及1，激活函数采用带泄露修正线性单元（Leaky ReLU）函数。层光流估计模型包含5个卷积核是3×3的卷积层、一个全连接层和一个全局平均池化层。5个卷积核是3×3的卷积层输出的数量分别是128、128、96、64和32，通过该光流分解模型可以得到背景层光流向量和反射层光流向量，然后利用背景层光流向量和反射层光流向量进行相邻帧对齐。光流分解模型的监督信息可以采用背景层和反射层输入到预训练好的光流网络（PWC-Net）得到的背景层光流向量和反射层光流向量。

反射层重建网络采用由粗到细（coarse-to-fine）策略进行迭代训练，示例性的，可以将迭代次数设置为4，在第一次迭代时，输入的分辨率是初始输入的1/16，后续每次迭代都会进行上采样两倍，以前一次迭代后输出的背景层图、反射层图、反射层光流向量、所有的输入帧的虹膜图像以及当前的关键帧的虹膜图像作为当前的输入。将反射层光流向量和输入帧的虹膜图像进行重映射（warp）操作可以得到无效掩码以及反射层注册帧图像。将反射层注册帧图像和当前关键帧的虹膜图像相减，可以得到反射层的差异图。之后将经过上采样两倍的前一次迭代预测的背景层图、反射层图、无效掩码、反射层注册帧图像以及差异图在通道维度上进行连接，输入到反射层重建网络，可以输出得到反射层的残差图。类似的，反射层重建网络中包含6个卷积层，卷积核均为3×3大小，输出数量分别是128、128、96、64、32和3，激活函数采用Leaky ReLU函数。将反射层的残差图和上采样2倍的前一次迭代预测的反射层图相加，可以得到本次迭代预测的反射层图结果。

进一步地，该成像信息分离模型中还可以包括背景层重建网络，用于重构背景层图。同样的，背景层重建网络采用coarse-to-fine策略进行迭代训练，迭代次数为4，其中在第一次迭代时，输入的分辨率是初始输入的1/16，后续每次迭代都会进行上采样两倍，以前一次迭代后输出的背景层图、反射层图、背景层光流向量、所有的输入帧的虹膜图像以及当前的关键帧的虹膜图像作为当前的输入。将背景层光流向量和输入帧的虹膜图像进行重映射操作可以得到无效掩码以及背景层注册帧图像，背景层注册帧图像和当前关键帧的虹膜图像相减可以得到一个背景层的差异图，然后将经过上采样两倍的前一次迭代预测的背景层图、反射层图、无效掩码、背景层注册帧图像以及差异图在通道维度上进行连接，输入到背景层重建网络，可以输出得到一个背景层的残差图。示例性的，背景层重建网络中包含6个卷积层，卷积核均为3×3大小，输出数量分别是128、128、96、64、32和3，激活函数是LeakyReLU函数。将背景层的残差图和上采样两倍的前一次迭代预测的背景层图相加，可以得到本次迭代预测的背景层图结果。

进一步地，成像信息分离模型中还可以包括光流细化模块。光流细化模块中采用预训练的光流模型（PWC-Net），对每次迭代预测出的背景层图和反射层图进行光流细化，从而更新当前的背景层光流向量和反射层光流向量。基于更新后的反射层光流向量以及虹膜图像进行反射层图重建，获得成像信息。通过光流细化模块，可以得到精确度更高的背景层图和反射层图，其中背景层图对应虹膜背景信息，反射层图对应成像信息。

示例性的，成像信息分离模型在训练阶段可以先训练光流分解模块，迭代次数为10⁶，学习率为10^-4，在该阶段训练到收敛后，可以进行第二阶段训练反射层重建网络和背景层重建网络，训练迭代次数同样为10⁶，学习率设置为10^-5，优化器采用自适应矩估计（Adaptive Moment Estimation，ADAM）优化器，并且设置批次（batch）为2。

在分离出成像信息后，可以根据成像信息生成注意力图。具体地，可以将瞳孔区域的成像信息作为用户关注的区域，根据瞳孔区域的成像信息生成注意力图，将注意力图与取景框中的画面进行比对，确定对焦信息。具体地，通过将注意力图与取景框中的画面进行比对，确定对焦信息。其中，对焦信息可以是对焦区域的位置，例如，可以在取景框中的画面中找出与注意力图相似度匹配的区域，将该区域作为对焦区域，对焦区域的位置即为对焦信息。在确定出对焦信息后，可以基于该对焦信息对电子设备进行调节，并通过调节后的电子设备进行对焦，得到对焦图像。

在本申请提供的而另一实施例中，为了进一步提高对焦的准确性，可以通过对成像信息进行超分处理，以提升成像信息的清晰度。由于在眼部图像采集设备的分辨率不高或光线较暗的情况下，采集到的眼部图像本身质量可能不高，由此可能会影响分离出的成像信息的清晰图。同时，在成像信息分离的过程中，也可能存在成像信息清晰度下降或者成像信息损失的情况。基于此，在分离出成像信息后，可以将成像信息输入超分模型，对成像信息进行超分处理，从而提升成像信息的清晰度，提高对焦的准确性。

本申请中超分模型的网络结构基于超分辨率卷积神经网络（SRCNN）模型，采用三个卷积层。如图10所示，该图为本申请实施例提供的一种超分模型的网络结构示意图。其中，第一层卷积层用于提取低分辨率图像的特征，特征个数与卷积核为64×9×9，激活函数采用线性整流函数（Relu）。第二层卷积层用于对第一层卷积层输出的特征进行非线性映射处理，将第一层卷积层输出的特征映像到高维分辨率所需的特征，特征个数与卷积核为32×1×1，激活函数同样可以采用Relu。第三层卷积层用于重建恢复高维度图像，即重建恢复清晰的成像信息，其特征个数与卷积核为1×5×5，采用线性卷积运算。

在进行网络训练时，可以将退化为低分辨率的图像，随机剪切为512×512的图像块（patch），以作为网络训练模型的输入。其中，可以基于Timofte数据集中的91张图像和ImageNet数据集中的一千万张图像作为真实的有效值（Ground Ture，GT），使用双三次插值法将Timofte数据集与ImageNet数据集中的图像退化为低分辨率的图像。将网络输出结果与网络GT之间的均方误差作为损失函数。示例性的，网络训练迭代次数可以为1000次，学习率为0.001，指数衰减学习率为0.98。

将分离出的成像信息输入经过训练后的超分模型，对成像信息进行超分处理，以获得清晰的成像信息，根据由清晰的瞳孔区域的成像信息生成的注意力图，可以进一步提升对焦的准确性。如图9所示，该图为本申请实施例提供的一种确定对焦信息的流程图，通过电子设备的前置摄像头获取用户的眼部图像，基于眼部关键点检测算法，从眼部图像中提取虹膜图像，根据相邻两帧的虹膜图像，可以判断出当前帧的虹膜图像中，瞳孔是否收缩，若瞳孔舒张，则放弃对该帧虹膜图像的处理；若瞳孔收缩，则从虹膜图像中分离出成像信息，将成像信息输入超分模型，对成像信息进行超分处理，得到处理后的成像信息，即得到清晰度更高的成像信息，根据清晰度更高的瞳孔区域的成像信息生成注意力图，与取景框中的画面进行比对，确定出对焦信息，基于该对焦信息对电子设备进行调节，并通过调节后的电子设备进行对焦，得到对焦图像。

具体地，可以通过以下两种方法进行注意力图与取景框中的画面的比对，在取景框中的画面中找到与注意力图相似度匹配的区域。

方式一：注意力图的尺寸小于取景框中的画面的尺寸，如图11所示，该图为本申请实施例提供的一种注意力图与取景框中的画面比对的示意图。通过将注意力图在取景框中的画面上移动，每移动到一个区域，则计算该注意力图与取景框中的画面中该区域的欧氏距离，以欧氏距离的大小来衡量相似度的大小，即欧氏距离越大，则其相似度越小；欧氏距离越小，则相似度越大。可以通过计算注意力图与取景框中的画面中各个区域的相似度，确定对焦信息。其中，对焦信息可以是对焦区域的位置。

在一种可能的实现方式中，在计算出注意力图与取景框中的画面中各个区域的欧氏距离后，将其中最小的欧氏距离对应的区域作为与该注意力图匹配的区域，即将该区域作为对焦区域，由该对焦区域的位置可以得到对焦信息。在另一种可能的实现方式中，可以设置预设欧式距离标准，当某个区域与注意力图之间的欧氏距离小于该预设欧式距离标准时，即可将该区域作为对焦区域，例如将预设欧式距离标准设为0.1，则当注意力图移动到某一区域，计算出注意力图与该区域之间的欧氏距离小于0.1，则可将该区域确定为对焦区域，无需再计算剩余区域与注意力图之间的欧氏距离，由此在一定程度上缩短了检测时间，提高了检测效率。

方式二：为了进一步提高检测效率以及检测精度，本申请提出了一种基于深度网络的注意力分离模型，以实现注意力图与取景框中的画面的比对。

将取景框中的画面和生成的注意力图，分别输入各自对应的超分辨率测试序列网络（Visual Geometry Group Net，VGGNet）提取特征，在特征提取的过程中，不需要重新训练。将经过VGGNet提取的特征同时输入全连接层网络进行高维特征压缩，获得压缩后的注意力图的特征和压缩后的取景框中的画面的特征。将进行高位特征压缩后的特征输入一个四维全连接层，得到一个四维向量，该四维向量用坐标（X，Y），宽度（W），高度（H）表示，由此可以在取景框中的画面中确定出对焦信息。损失函数可以采用基于归一化指数函数（Softmax）的分类损失。网络训练的迭代次数设为50次，学习率为0.01，指数衰减学习率为0.98。

如图12所示，该图为本申请实施例提供的一种基于深度网络的注意力分离模型示意图。将取景框中的画面和注意力图，分别输入预训练后的超分辨率测试序列网络（VisualGeometry Group Net，VGGNet）进行特征提取；将提取出的特征输入两层全连接层，示例性的，其中第一层全连接层具有1024个神经元，第二层全连接层具有512个神经元。将第二层全连接层与一个四维全连接层连接，得到四维向量，该四维向量可以表征对焦信息，即可以表示出在取景框中的画面中对焦区域的横纵坐标以及宽度和高度。

需要说明的是，本申请中对用于预训练的数据集的类型不进行具体限定。例如，可以采用MOT16数据集、ImageNet数据集等数据集对VGGNet进行预训练，MOT16数据集为多目标跟踪数据集，主要标注了行人；ImageNet数据集包含1400万张图像，涵盖2万多个类别，并对类别和物体位置均进行标注。

在从虹膜图像中分离出成像信息后，基于该注意力分离模型对注意力图与取景框中的画面进行比对，以获得对焦信息的方法，可以提升确定对焦信息的效率以及准确度。进而基于该对焦信息对电子设备进行调节，并通过调节后的电子设备进行对焦，可以获得符合用户预期的对焦图像。

综上所述，本申请通过从电子设备的使用者的虹膜图像中分离出成像信息，根据成像信息生成注意力图，将注意力图与电子设备的取景框中的画面进行比对，在取景框中的画面中找出与注意力图相似度匹配的区域，确定对焦信息，基于该对焦信息对电子设备进行调节，并通过调节后的电子设备进行对焦，获得符合用户预期的对焦图像。由于成像信息是眼部成像的结果，能真实反映用户实际关注的信息，从而以从虹膜图像中提取的成像信息作为依据确定对焦信息，可以提升对焦准确率，得到符合用户预期的对焦图像。同时，不限于通过获取双眼的眼部图像，进行对焦。本申请中通过一只眼的眼部图像即可获得对焦信息，实现对焦，从而拓展了对焦的应用范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、存储介质和方法，可以通过其它的方式实现。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器执行各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对焦的方法，其特征在于，应用于对焦场景中，包括：

分离电子设备的使用者的虹膜图像中的成像信息；

根据所述成像信息，生成注意力图；

将所述注意力图与所述电子设备的取景框中的画面进行比对，确定对焦信息；

基于所述对焦信息调节所述电子设备，并通过调节后的电子设备进行对焦，获得对焦图像。

2.根据权利要求1所述的方法，其特征在于，所述将所述注意力图与所述电子设备的取景框中的画面进行比对，确定对焦信息，包括：

计算所述注意力图与所述取景框中的画面中各个区域的相似度；

根据所述各个区域中相似度最高的区域，确定对焦信息。

3.根据权利要求1所述的方法，其特征在于，所述将所述注意力图与所述电子设备的取景框中的画面进行比对，确定对焦信息，包括：

分别对所述注意力图与所述电子设备的取景框中的画面进行特征提取；

对提取的注意力图的特征与所述取景框中的画面的特征进行高维特征压缩，获得压缩后的注意力图的特征和压缩后的取景框中的画面的特征；

根据所述压缩后的注意力图的特征和压缩后的取景框中的画面的特征，确定对焦信息。

4.根据权利要求1所述的方法，其特征在于，所述分离电子设备的使用者的虹膜图像中的成像信息，包括：

对所述电子设备的使用者的虹膜图像进行光流计算，确定瞳孔状态；

从所述瞳孔状态为收缩状态的虹膜图像中，分离成像信息。

5.根据权利要求4所述的方法，其特征在于，所述从所述瞳孔状态为收缩状态的虹膜图像中，分离成像信息，包括：

从所述瞳孔状态为收缩状态的虹膜图像中分解出反射层光流向量；

根据所述虹膜图像和所述反射层光流向量进行反射层图重建，获得成像信息。

6.根据权利要求5所述的方法，其特征在于，所述根据所述虹膜图像和所述反射层光流向量进行反射层图重建，获得成像信息，包括：

根据所述虹膜图像和所述反射层光流向量进行反射层图重建，获得预测的反射层图；

对所述预测的反射层图进行光流细化，获得更新后的反射层光流向量；

根据所述更新后的反射层光流向量以及虹膜图像进行反射层图重建，获得成像信息。

7.根据权利要求1所述的方法，其特征在于，所述根据所述成像信息，生成注意力图，包括：

对所述成像信息进行超分处理，获得处理后的成像信息；

根据处理后的成像信息，生成注意力图。

8.根据权利要求1-7任一项所述的方法，其特征在于，还包括：

对电子设备的使用者的眼部图像进行特征提取；

对提取出的特征进行缩放式特征提取；

对通过缩放式特征提取得到的特征进行眼部关键点热图预测，获得眼部关键点的坐标；

根据所述眼部关键点的坐标，从眼部图像中提取虹膜图像。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如权利要求1-8任一项所述的一种对焦的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的一种对焦的方法的步骤。